KR101083557B1 - 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체 - Google Patents

장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체

Info

Publication number
KR101083557B1
KR101083557B1 KR1020090054110A KR20090054110A KR101083557B1 KR 101083557 B1 KR101083557 B1 KR 101083557B1 KR 1020090054110 A KR1020090054110 A KR 1020090054110A KR 20090054110 A KR20090054110 A KR 20090054110A KR 101083557 B1 KR101083557 B1 KR 101083557B1
Authority
KR
South Korea
Prior art keywords
heading
character string
table structure
title
representative
Prior art date
Application number
KR1020090054110A
Other languages
English (en)
Other versions
KR20090132521A (ko
Inventor
신이찌 에구찌
하지메 가와시마
고우이찌 가나모또
쇼헤이 하세가와
가쯔또시 고바라
마끼 야부끼
Original Assignee
후지츠 프론테크 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지츠 프론테크 가부시키가이샤 filed Critical 후지츠 프론테크 가부시키가이샤
Publication of KR20090132521A publication Critical patent/KR20090132521A/ko
Application granted granted Critical
Publication of KR101083557B1 publication Critical patent/KR101083557B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

기재 내용을 인식하기 위한 정보를 디자인이 상이한 개개의 장표마다 등록하지 않고, 폭넓게 장표에 대응 가능하게 하기 위한 기술을 제공한다. 키워드 추출부(18)는, 키워드로서, 항목명 등에 대응하는 표제 문언을 추출한다. 장표 종별 판정부(18)는, 추출된 키워드의 종류, 그 키워드의 추출 위치 등에 주목하여, 장표 종별을 판정한다. 논리 구조 해석(항목 후보 추출)부(20)는, 문자열이 포함되는 영역인 셀 단위로 표 구조를 논리적으로 해석하고, 셀 내에 존재하는 다른 인식하고 있지 않은 문자열의 추출이나, 인식되어 있지 않은 표제 문언을 추정해서 복원을 행한다. 그들의 조작은, 장표 종별의 판정 결과를 반영시켜 행한다. 그에 의해, 보다 고정밀도의 인식을 실현시킴과 함께, 보다 폭넓은 종류의 장표에의 대응을 가능하게 한다.
Figure R1020090054110
키워드 추출부, 화상 취출 수단, 장표 종별 판정부, 표제 추가 수단, 논리 구조 해석 데이터베이스, 장표 화상, 텍스트 추출부, 괘선 추출부

Description

장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체{BUSINESS FORM RECOGNITION APPARATUS AND METHOD, DATABASE CREATION APPARATUS AND METHOD, AND RECORDING MEDIUM}
본 발명은, 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하기 위한 기술에 관한 것이다.
기업에서는, 다양한 업무에서 장표가 이용되고 있다. 예를 들면 금융 기관에서는, 복수의 장표를 준비하고, 고객이 장표에 기입한 정보에 기초해서, 그 고객이 원하는 서비스를 제공하는 것이 행하여지고 있다. 그 서비스를 제공하기 위한 처리를 센터에서 집중적으로 행하는 경우에는, 장표는 전자화해서 센터에 전송된다.
장표의 전자화에서는 통상적으로, 그 장표에 기재된 내용의 인식(문자 인식)이 행하여진다. 장표 인식 장치는, 장표 상에 기재된 내용을, 화상 판독 장치가 판독함으로써 전자화된 그 화상을 이용해서 인식하는 것이다. 상기 센터에 전송된 장표, 즉 장표 인식 장치에 의한 인식 결과는, 오퍼레이터에 의해 필요에 따라서 수정 가능하게 되어 있는 것이 보통이다.
장표는, 임의의 표 구조로 정보(문자열)가 배치된 것이다. 이것으로부터, 장표 화상 상에서 문자 인식할 문자열을 인식시키기 위한 방법으로서, 인식 대상으로 하는 장표의 레이아웃 구조를 등록한다고 하는 것이 있다. 그 방법에서는, 등록된 레이아웃 구조에 의해, 판독된 장표 화상 상에서 문자 인식할 문자열이 존재하는 영역을 즉시 특정할 수 있다. 등록된 레이아웃 구조로부터, 판독된 장표 화상에 대응하는 레이아웃 구조를 자동적으로 추출시킬 수도 있다(특허 문헌 7). 레이아웃 구조의 등록은, 장표 화상으로부터 레이아웃의 특징을 추출해서 자동적으로 행하게 할 수도 있다(특허 문헌 6).
기업 등에서 취급하는 장표는 통상 1종류가 아니다. 다수의 종류가 존재하는 것이 보통이다. 어떠한 이유에 의해, 장표의 디자인(레이아웃)을 변경하는 경우도 많다. 금융 기관에서는, 미리 준비된 장표를 고객측이 항상 사용한다고는 할 수 없다. 즉 고객은, 독자의 장표를 이용해서 서비스를 요구하는 경우가 있다. 이러한 것으로부터, 종래의 장표 인식 장치 중에는, 특정한 장표에 관한 레이아웃 구조를 등록하지 않고, 장표 인식, 즉 장표 상에 기재된 내용을 인식할 수 있도록 한 것이 있다(특허 문헌 1∼3). 그러나, 특허 문헌 1∼3에 각각 기재된 종래의 장표 인식 장치는 모두, 이하와 같이 범용성은 낮아, 실용적이지는 않았다.
특허 문헌 1에 기재된 종래의 장표 인식 장치에서는, 장표로부터 판독할 항목명, 그 항목명의 내용을 인식하기 위한 정보를 준비하여, 각 항목명의 내용을 인식한다. 그러나, 장표 중에는, 1개의 데이터(기재)에 복수의 항목명이 할당되어 있거나, 혹은 동일한 항목명이 복수, 서로 다른 용도를 위해 기재되어 있는 것과 같은 것이 존재한다. 따라서, 인식 가능한 장표의 종류는 한정되어 있었다.
특허 문헌 2에 기재된 종래의 장표 인식 장치에서는, 모든 항목명이 1개의 틀 내에 배치되어 있는 것을 전제로, 미리 설정한 규칙성을 갖는 틀을 항목틀, 다른 틀을 데이터틀로 해서 문자 인식을 행하도록 되어 있다. 그러나, 장표 중에는, 항목명을 나타내는 문자열이 틀 내에 배치되어 있지 않거나, 혹은 1틀에 복수 종류의 문자열이 배치되는 것과 같은 것이 존재한다. 후자는, 예를 들면 인쇄된 항목명이 배치된 틀 내에, 고객이 데이터를 기재하도록 되어 있는 것이 상당한다.
특허 문헌 3에 기재된 종래의 장표 인식 장치에서는, 장표의 종류마다, 그 장표에 기재되는 항목명을 그룹핑하여, 판독한 장표 상에 존재하는 항목명이 속하는 그룹을 추출하고, 추출한 그룹으로부터 후보로 되는 장표의 종류(논리 구조)를 추측하도록 되어 있다. 그러나, 각 그룹에는, 1개 이상의 항목명이 속해 있기 때문에, 각 그룹이 갖는 정보량은 작다. 왜냐하면, 각 그룹의 정보는 그룹에 속하는 모든 항목명에 관계되는 것으로 되기 때문이다. 이 때문에, 주문서 및 입회 신청서 중 어느 쪽인가와 같은 레벨에서밖에 장표의 종류를 인식할 수 없다.
특허 문헌 3에 기재된 종래의 장표 인식 장치에서는, 각 항목명의 데이터의 형태는, 그 항목명이 속하는 그룹에 대응하는 스키마 정보가 나타내는 데이터형과 대조함으로써, 그들이 일치하는지의 여부를 확인하고, 그 확인 결과를 장표의 종류의 인식에 이용하는 것으로 하고 있다. 그러나, 그 확인은, 사실상, 항목명에 대응하는 기재(데이터)의 특정에밖에 이용할 수 없다. 왜냐하면, 항목명과 그 항목명에서 기재되는 데이터형 사이에는 통상적으로 매우 높은 확률로 성립하는 관계가 존재하기 때문이다. 구체적으로는, 예를 들면 「금액」, 「단가」 및 「지불액」과 같은 1그룹으로 통합하는 것이 가능한 항목명에서는, 모두 데이터는 수치로 표현하는 것이 보통이기 때문이다.
장표에서는, 항목명에 대응할 가능성이 생각되는 데이터는 복수 존재하는 경우도 많다. 이 때문에, 항목명과 데이터의 대응 관계를 특정할 필요가 있는 것이 보통이다. 항목명에 따라 데이터형은 상이한 경우가 있기 때문에, 데이터형은 항목명에 대응하는 데이터를 특정하기 위한 정보로서 이용할 수 있다(특허 문헌 1). 상기 대조는, 당연히, 그 대응 관계를 특정한 후가 아니면 행할 수 없다. 따라서, 그 대조를 행할 수 있는 것이면, 항목명마다 그것에 대응하는 데이터가 기재되어 있는 영역이 미리 특정 가능하게 되어 있거나, 혹은 그 특정을 행할 필요가 없는 만큼 장표는 심플한 디자인으로 되어 있어야만 한다. 이것으로부터도, 매우 낮은 레벨에서밖에 장표의 종류를 인식할 수 없는 것을 알 수 있다.
[특허 문헌 1] 일본 특허 공개 평성 9-274634호 공보
[특허 문헌 2] 일본 특허 공개 평성 10-116314호 공보
[특허 문헌 3] 일본 특허 공개 2006-134106호 공보
[특허 문헌 4] 일본 특허 공개 평성 11-110479호 공보
[특허 문헌 5] 일본 특허 공개 2000-339406호 공보
[특허 문헌 6] 일본 특허 제3088019호 공보
[특허 문헌 7] 일본 특허 공개 2004-164674호 공보
[특허 문헌 8] 일본 특허 공개 2004-334913호 공보
[특허 문헌 9] 일본 특허 제3465667호 공보
본 발명은, 기재 내용을 인식하기 위한 정보를 디자인이 상이한 개개의 장표마다 등록하지 않고, 폭넓게 장표에 대응 가능하게 하기 위한 기술을 제공하는 것을 목적으로 한다.
본 발명을 적용해서 구축 가능한 장표 인식 장치는 모두, 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 것이며, 각각 이하의 수단을 구비한다.
본 발명의 일 양태를 적용한 장표 인식 장치는, 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과, 화상 취득 수단이 취득한 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과, 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과, 문자열 추출 수단이 추출한 표제 문언 및 표제 문언의 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 수단과, 표 구조 판정 수단에 의한 표 구조의 판정 결과를 이용해서, 표제 문언과 그 표제 문언 이외에 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단을 구비한다.
장표 상에 존재하는 표 구조는, 장표의 용도(종별, 혹은 형식 등)에 따라 특 유한 특징을 구비하고 있다. 그 특징은, 항목명의 배치로 나타내어진다. 표 구조에 배치되는 항목명의 범위, 즉 그 표 구조로 입력(기입)될 가능성이 생각되는 데이터의 종류 및 수는, 장표의 용도(종별, 혹은 형식 등)에 따라 특정할 수 있다. 이들로부터, 표제 문언으로서 항목명과 같은 동일한 용도의 장표에 공통되는 문자열을 채용함으로써, 추출한 표제 문언을 통해서, 장표에 기입되는 데이터의 종류나 수를 특정할 수 있다. 표제 문언의 배치를 통해서, 장표의 표 구조를 특정할 수 있다. 이들의 결과, 기재 내용을 인식하기 위한 정보를 장표마다 등록하지 않아도, 폭넓게 장표에 고정밀도로 대응할 수 있게 된다.
본 발명의 다른 일 양태를 적용한 장표 인식 장치는, 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과, 화상 취득 수단이 취득한 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과, 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과, 문자열 추출 수단이 추출한 결과에 기초해서, 문자열 인식 수단이 인식하고 있지 않은 표제 문언이 존재하는 장표 화상 상의 위치를 특정하는 위치 특정 수단과, 위치 특정 수단이 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 수단과, 문언 생성 수단이 생성한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단을 구비한다.
상기 문자열 인식 수단이 인식하고 있지 않은 표제 문언이란, 장표 상에 기입되어 있지 않거나, 혹은 인식할 수 없었던 것이다. 인식할 수 없었던 표제 문언 은, 인식 에러가 발생한 문자열이기 때문에, 그 위치는 인식 결과로부터 특정할 수 있다. 장표 상에 기입되어 있지 않은 표제 문언은, 표 구조에 주목해서 특정할 수 있다. 그 표 구조는, 장표의 용도(종별, 혹은 형식 등)에 따라 특유한 특징을 구비하고 있고, 그 특징은, 인식되어 있는 표제 항목으로부터 특정할 수 있기 때문이다. 즉, 표 구조의 특정을 통해서, 다른 인식할 수 있는 표제 문언과의 관계, 혹은 다른 동일한 표 구조로의 인식 결과를 이용할 수 있기 때문이다. 그에 의해, 인식하고 있지 않은 표제 문언으로서, 논리적인 모순이 표 구조상 발생하지 않는 것을 할당할 수 있다. 이러한 것으로부터, 표제 문언의 누락, 혹은 인식 불능에 의한 악영향은 회피되거나, 혹은 저감된다. 이 결과, 기재 내용을 인식하기 위한 정보를 장표마다 등록하지 않고, 인식 에러나 기입 누설 등에 적절하게 대응할 수 있게 된다. 이것은, 인식 에러가 발생하거나, 혹은 기입 누설 등이 존재하는 장표에 폭넓게 대응할 수 있는 것을 의미한다.
본 발명의 다른 일 양태를 적용한 장표 인식 장치는, 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과, 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 저장한 기억 수단과, 화상 취득 수단이 취득한 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과, 기억 수단에 저장된 데이터베이스를 참조해서, 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과, 문자열 추출 수단에 의한 추출 결과에 기초해서, 장표 화상 상에 존재하는 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 표제 문언, 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 수단과, 표제 추가 수단이 추가한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단을 구비한다.
장표 상에 존재하는 표 구조의 특징은, 상술한 바와 같이, 인식되어 있는 표제 항목으로부터 특정할 수 있다. 단위표 구조에 배치되는 항목명(표제 문언)의 범위, 즉 그 표 구조로 입력(기입)될 가능성이 생각되는 데이터의 종류, 및 수는, 장표의 용도(종별, 혹은 형식 등)에 따라 특정할 수 있다. 항목명에 따라서, 데이터로서 입력되는 문자열의 종류(속성), 문자수, 부가되는 특유한 심볼, 그 심볼의 위치 등에 차이가 있는 경우가 있다. 이들로부터, 인식되어 있는 표제 문언, 및 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 고정밀도로 특정할 수 있다. 그에 의해, 기재 내용을 인식하기 위한 정보를 장표마다 등록하지 않고, 오퍼레이터에게 있어서 보다 바람직한 형태로 장표의 인식 결과를 제공할 수 있게 된다. 표제 문언의 수가 적어, 내용을 파악하기 어려운 장표를 보다 적절한 형태로 처리 가능하게 하기 때문에, 폭넓게 장표에 대응할 수 있게 된다.
본 발명의 일 양태의 데이터베이스 작성 지원 장치는, 상기 장표 인식 장치가 장표 상의 문자열의 인식에 이용하는 데이터베이스의 작성을 지원하는 것으로 서, 표제 문언을 입력하는 문언 입력 수단과, 문언 입력 수단이 입력한 표제 문언 사이의 계층 구조를 생성하는 계층 구조 생성 수단을 구비한다.
상기 계층 구조를 장표 상의 문자열에 이용하는 경우, 보다 상위의 개념에서의 인식, 혹은 인식 결과의 확인 등이 가능하게 된다. 즉 문자열의 인식이나 인식 결과의 확인 등에 필요한 정보량은 보다 억제되게 된다. 그에 의해, 보다 높은 범용성이 보다 용이하게 실현 가능하게 된다.
본 발명을 적용한 시스템에서는, 기재 내용을 인식하기 위한 정보를 디자인이 상이한 개개의 장표마다 등록하지 않고, 폭넓게 장표에 대응할 수 있다.
이하, 본 발명의 실시예에 대해서, 도면을 참조하면서 상세하게 설명한다.
도 1은, 본 실시예에 따른 장표 인식 장치의 기능 구성을 도시하는 도면이다. 그 장표 인식 장치(1)는, 장표를 판독해서 얻어지는 전자화된 장표 화상을 입력하고, 그 장표 화상 상에 존재하는 문자열(1개 이상의 문자로 구성되는 것)을 인식하는 것이다.
그 장표 인식 장치(1)는, 도 1에 도시하는 바와 같이, 스캐너 등에 의해 판독되어 전자화된 장표 화상을 입력하는 입력부(11)와, 입력부(11)가 입력한 장표 화상 상에 존재하는 기재를 그 종류별, 예를 들면 도면, 표, 및 문자(문자열)로 나누어 분리하는 도표문 분리부(12)와, 도표문 분리부(12)에 의해 분리되는 표로부터 괘선을 추출하는 괘선 추출부(13)와, 표를 괘선으로부터 인식하는 셀로 분할하고 해석하는 표 구조 해석부(14)와, 표 내외에 존재하는 문자를 추출하는 텍스트 추출부(15)와, 텍스트 추출부(15)가 추출한 문자를 인식하는 문자 인식부(16)와, 장표의 종별을 인식하기 위한 정보로 되는 문자열을 키워드로서 추출하는 키워드 추출부(17)와, 추출된 키워드를 이용해서 장표 화상이 판독된 장표의 종별을 판정하는 장표 종별 판정부(18)와, 괘선에 의해 셀을 인식할 수 없는 표의 구조를 해석하는 표 구조 해석(무괘선)부(19)와, 표의 논리적인 구조를 해석하여, 인식할 대상의 후보를 추출하는 논리 구조 해석(항목 후보 추출)부(20)와, 표 상의 상세한 해석을 행할 항목을 해석하는 항목 해석부(21)와, 인식할 대상에 할당하는 후보를 확정하는 논리 구조 해석(항목 확정)부(22)와, 인식 결과를 표시 장치 상, 혹은 통신 네트워크 등을 통해서 송신하는 출력부(23)와, 그 인식 결과를 도시하지 않은 데이터베이스에 축적 가능한 데이터베이스 축적부(24)와, 각종 해석에 이용되는 논리 구조 해석 데이터베이스(DB)(25)를 저장하는 기억부(26)를 구비하고 있다.
도 24∼도 30은 각각, 서로 다른 종류의 장표예를 도시하는 도면이고, 도 31∼도 36은 각각, 서로 다른 표제에서 채용되는 디자인예를 도시하는 도면이다. 처음에 도 24∼도 36을 참조해서, 본 실시예에 따른 장표 인식 장치가 인식의 대상으로 하는 장표에 대해서 구체적으로 설명한다.
도 24∼도 30에서, 도 24는 지정된 계좌에의 납입을 의뢰하기 위한 단표, 도 25는 납입필의 세금의 금액을 통지하기 위한 단표, 도 26∼도 28은 각각 물품마다 그 물품에 관계되는 데이터(문자열)를 기입하는 연기형의 납품서, 도 29는 수취인마다 급여의 불입을 의뢰하기 위한 연기형의 불입 의뢰서, 도 30은 수취인마다 급 여의 불입을 의뢰하기 위한 복수표(불입 용지)를 각각 나타내고 있다. 도 24∼도 30으로부터 명확해지는 바와 같이, 동일한 종류로 분류되는 장표에서도 디자인(표 구조)은 장표마다 상이하다. 여기서는, 특별히 언급하지 않는 한, 「종류」란 디자인으로 장표를 구별하는 경우에 이용한다. 단표나 납품서 등의 상위를 나타내는 경우에는 「종별(타입)」 혹은 「용도」를 이용한다. 또한, 장표 화상 상의 「데이터」는, 이용자가 장표 상에 입력한 문자열만을 가리키는 의미로 이용한다.
도 31은, 표기는 상이하지만 동일한 의미를 갖는 표제 문언의 베리에이션을 도시하는 도면이다. 도 31의 (a)∼(e)에 도시하는 바와 같이, 「금액」 「납부 금액」 「급여분」 「소계 금액」 및 「합계 금액」은 지불하거나, 혹은 납부하는 금액을 표현하는 문언으로서 이용되는 경우가 있다.
도 32는, 동일한 표기의 표제 문언의 디자인에 의해 변화하는 의미를 설명하는 도면이다. 그 표제 문언은 「합계」가 상당한다. 그 합계의 의미는 도 32의 (a)에서는 합계 금액이지만, 도 32의 (b)에서는 합계 금액 이외에 합계 항목수(품수)의 의미를 갖고 있다. 도 32의 (c) 중, 「10/10」은 10매철의 장표 중에서 최후의 1매인 것을 나타내고 있다. 그에 의해 도 32의 (c)에서는, 10매철의 전체 장표에서의 합계 금액을 의미하고 있다.
도 33은, 계좌 번호를 입력시키는 표 구조의 베리에이션을 도시하는 도면이다. 도 33의 (a-1) 및 (a-2)는 동일한 표제 문언에서 상이한 금융 기관의 계좌 번호를 입력시키는 경우의 것이다. 계좌 번호로서, 도 33의 (a-1)에서는 우체국, 도 33의 (a-2)에서는 은행 등의 것을 기재하는 것을 상정하고 있다. 도 33의 (b)는, 동일 장표 내에 의뢰인 및 수취인의 계좌 번호를 입력 가능하게 하기 위해서 독립된 2개의 표(단위표 구조)를 채용한 경우의 것이다. 도 33의 (c)는, 동일 장표 내에 복수의 수취인의 계좌 번호를 입력 가능하게 하기 위해서 1개의 표(복수의 단위표 구조를 갖는 표 구조)를 채용한 경우의 것이다. 도 33의 (d)는, 동일한 장표 내에 의뢰인 및 복수의 수취인의 계좌 번호를 입력 가능하게 하기 위해서 1개의 표(복수의 단위표 구조를 갖는 표 구조)를 채용한 경우의 것이다.
도 34는, 표제 문언과 그것에 대응하는 데이터의 위치 관계예를 설명하는 도면이다. 그 표제 문언은 「계좌 번호」이다. 그에 의해 도 34에서는, 표제 문언인 「계좌 번호」가 존재하는 영역과, 데이터인 계좌 번호가 존재하는 영역 사이의 위치 관계의 베리에이션을 나타내고 있다.
입력시키는 1데이터의 표제 문언은 항상 1개라고는 할 수 없다. 예를 들면 도 33의 (b)∼(d)에 도시하는 바와 같이, 표제 문언 「계좌 번호」 이외에 다른 표제 문언 「의뢰인」 혹은 「수취인」이 존재하는 경우가 있다. 도 33의 (b)∼(d)에서는, 논리적인 상하 관계에서, 표제 문언 「의뢰인」 및 「수취인」은 표제 문언 「계좌 번호」의 상위에 배치되어 있다. 장표에서는, 표 구조상, 그러한 표제 문언간의 상하 관계가 존재하는 경우가 있다. 본 실시예에서는, 그 상하 관계(계층 관계)를 인식에 이용하고 있다. 이후, 편의적으로, 최상위에 위치한다고 간주하는 표제 문언은 「표제 DR」, 그 표제 DR의 다음의 계층에 속할 가능성이 생각되는 표제 문언은 「표제 GR」이라고 부르기로 한다. 장표마다 채용되는 표제 문언의 차이를 흡수하기 위해서, 동일한 상황에서 사용될 가능성이 생각되는 표제 문언 을 대표하는 표제 문언(이후 「대표 표제」)을 준비하고 있다. 그 대표 표제는, 중복되지 않도록 하고 있다. 그에 의해 각 대표 표제는, 1개 이상의 표제 문언이 속하는 그룹을 나타내는 식별 정보로서의 기능을 구비하고 있다.
1개 이상의 관련되는 데이터, 예를 들면 수취인, 혹은 의뢰인에 관계되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조로는, 예를 들면 도 33의 (c) 혹은 (d)에 도시하는 바와 같은 단위표 구조로는, 표제 문언 「수취인」 및 「의뢰인」은 표제 DR 혹은 GR로서 취급되며, 표제 문언 「계좌 번호」는 그 하위에 위치하는 대표 표제로서 취급된다. 이것으로부터, 어느 정도의 데이터를 기입할 필요가 있는 표 구조로는, 표제 DR 혹은 GR이 존재하는 것이 보통이다.
도 35 및 도 36은 각각, 표제 GR 및 표제 DR에 주목한 표 구조의 베리에이션을 도시하는 도면이다.
도 35에서는, 표제 GR은 「불입처」가 상당한다. 그 표제 GR 「불입처」는, 도 35의 (a)∼(d)에 도시하는 바와 같이, 타항목, 즉 다른 표제 문언을 포함하는 위치에 배치되거나, 혹은 데이터를 입력하는 입력란이 직접적으로 나타내는 위치에 배치되는 경우가 있다. 또한, 도 35의 (e) 혹은 (f)에 도시하는 바와 같이, 표제 문언으로서 표제 GR 「불입처」를 포함하는 것(도면에서는 「불입처 은행명」)이 채용되는 경우도 있다. 도 35의 (g)에 도시하는 바와 같이, 표제 GR 「불입처」가 존재하지 않는 경우도 있다.
도 36에서는, 표제 DR은 「수취인」이 상당한다. 그 표제 DR 「수취인」은, 표제 GR과는 달리, 도 36의 (a)∼(c)에 도시하는 바와 같이, 표 구조가 상이해도 최상위라고 간주되는 위치에 그 문언 그대로 배치될 가능성이 매우 높은 것이다.
본 실시예에서는, 도 24∼도 36에 도시하는 바와 같이 용도에 따라 상이할 뿐만 아니라, 다양한 디자인이 채용되는 장표를 상정한 인식을 실현시킨다. 도 1을 다시 참조하여, 그것을 실현시키기 위한 동작에 대해서 상세하게 설명한다. 도 1에서, 이중선으로 나타내는 구성 요소에는 본 발명의 특징을 실현시키기 위한 기술이 채용되어 있다. 이것으로부터, 이중선으로 나타내는 구성 요소를 중시하는 형태로 설명한다. 설명상, 편의적으로, 논리 구조 해석 DB(25)의 내용에 대해서는, 납입용 혹은 불입용과 같은 금융 기관에서 사용되는 경우가 많은 장표에 관계되는 것만을 상정한다.
도표문 분리부(12)에 의해 분리된 표를 구성하는 선인 괘선은, 괘선 추출부(13)에 의해 추출된다. 표 구조 해석부(14)는, 괘선의 추출 결과를 이용해서, 표를 셀로 분해해서 구조를 해석한다. 그 셀이란, 사이즈의 개념이 없는 영역이다. 표에서는, 1문자 혹은 문자열이 기재되는 란으로서 이용되고 있을 가능성이 생각되는 영역으로 된다. 그와 같이 셀에서 문자열을 취급함으로써, 문자열을 취급함에 있어서 필요한 정보량은 적어지게 된다. 즉 부하를 경감하면서, 다양한 조작을 보다 용이하게 행할 수 있게 된다.
도 2는, 표 구조 해석부(14)가 실행하는 표 구조 해석 처리의 플로우차트이다. 도 37 및 도 38은, 그 표 구조 해석 처리를 실행함으로써 행하여지는 해석 내용을 설명하는 도면이다. 도 2, 도 37 및 도 38을 참조해서, 표 구조 해석부(14)가 행하는 해석에 대해서 구체적으로 설명한다.
우선, 스텝 S1에서는, 추출된 괘선이 있는지의 여부를 판정한다. 괘선의 추출을 행한 표(이후 「대상표」)가 도 37의 (a-1)에 도시하는 바와 같은 것이었던 경우, 괘선 추출부(13)는 괘선을 추출할 수 없기 때문에, 괘선은 없다고 판정되어, 스텝 S2에서 표는 괘선이 없는 무괘선표라고 판정한 후, 이 표 구조 해석 처리를 종료한다. 그렇지 않은 경우에는, 즉 도 37의 (a-2)∼(a-4) 중 어느 하나와 같은 것이었던 경우에는, 추출된 괘선이 존재하기 때문에, 괘선은 있다고 판정되어, 스텝 S3으로 이행한다.
스텝 S3에서는, 추출된 괘선 중에 세로 괘선이 있는지의 여부를 판정한다. 대상표가 도 37의 (a-2) 혹은 (a-4)에 도시하는 바와 같은 것이었던 경우, 세로 괘선은 있다고 판정되어, 스텝 S5로 이행한다. 그렇지 않은 경우에는, 즉 도 37의 (a-3)에 도시하는 바와 같은 것이었던 경우에는, 세로 괘선은 없다고 판정되어, 스텝 S4에서 임시의 세로 괘선을 대상표에 따라서 생성한 후, 스텝 S7로 이행한다. 그 임시의 세로 괘선은, 도 37의 (b-1) 및 (b-2)에 도시하는 바와 같이, 문자열(1개 이상, 연속되는 문자)의 가로 방향 상의 간격이 어느 정도 넓은 곳에 생성한다.
한편, 스텝 S5에서는, 추출된 괘선 중에 가로 괘선이 있는지의 여부를 판정한다. 대상표가 도 37의 (a-3) 혹은 (a-4)에 도시하는 바와 같은 것이었던 경우, 가로 괘선은 있다고 판정되어, 상기 스텝 S7로 이행한다. 그렇지 않은 경우에는, 즉 도 37의 (a-2)에 도시하는 바와 같은 것이었던 경우에는, 가로 괘선은 없다고 판정되어, 스텝 S6에서 임시의 가로 괘선을 대상표에 따라서 생성한 후, 그 스텝 S7로 이행한다. 그 임시의 가로 괘선은, 임시의 세로 괘선과 마찬가지로, 문자열 의 세로 방향 상의 간격이 어느 정도 넓은 곳에 생성한다.
스텝 S7에서는, 도 37의 (c-1) 혹은 (c-2)에 도시하는 바와 같이, 세로 괘선과 가로 괘선(모두 임시의 괘선을 포함함)이 교차하는 교점을 추출한다. 다음의 스텝 S8에서는, 추출한 교점의 수가 많은지 적은지를 판정한다. 그 판정은, 예를 들면 교점을 연결하는 선으로 나누어지는 사각형 영역의 수와 대상표에 존재하는 문자열의 수를 고려해서 행하여진다. 바꿔 말하면, 1사각형 영역에 1문자열이 대응하는 비율에 주목해서 행하여진다. 그에 의해, 도 37의 (c-2)에 도시하는 바와 같이 교점이 추출된 경우, 교점은 많다고 판정되어, 스텝 S10으로 이행한다. 그렇지 않은 경우에는, 즉 도 37의 (c-1)에 도시하는 바와 같이 교점이 추출된 경우에는, 교점은 적다고 판정되어, 스텝 S9로 이행한다. 그 스텝 S9에서 임시의 괘선을 제거한 후에는 상기 스텝 S2로 이행한다.
스텝 S10에서는, 교점을 연결하는 선으로 나누어지는 사각형 영역을 생성한다. 계속되는 스텝 S11에서는, 사행·왜곡 보정을 행하여, 대상표를 보다 적절한 상태로 한다. 그 후에는, 스텝 S12에서 사각형 영역의 연결 관계의 정밀 조사를 행하고, 스텝 S13에서 그 정밀 조사의 결과를 반영시킨 셀의 생성을 행한 후, 이 표 구조 해석 처리를 종료한다. 이와 같이 해서, 표 구조 해석 처리를 실행함으로써, 장표 화상 상에 존재하는 괘선에 주목하여, 문자열이 배치되는 영역이 셀로서 생성·추출된다.
도 38은, 표 구조에 의해 생성되는 셀을 도시하는 도면이다. 도 38의 (a)∼(e)에 도시하는 바와 같이, 선으로 둘러싸인 사각형 영역은 각각 셀로서 취급되 고, 연결되어 있는지의 여부에 따라서 사각형 영역은 통합된다. 연결 관계의 정밀 조사는, 사각형 영역(셀)의 통합을 특정하기 위해서 행하여진다.
예를 들면 도 38에 도시하는 바와 같이, 관계되는 데이터는 1개의 표 내에 입력시키는 디자인이 채용되는 경우가 많다. 표제 문언(예를 들면 항목명), 혹은 데이터가 입력되는 란간의 위치 관계에는, 데이터를 적절하게 입력할 수 있도록 배려되어 있는 것이 보통이다. 연결 관계를 정밀 조사해서 셀을 생성하는 것은, 그 위치 관계의 특정을 보다 용이하게 하여, 그 위치 관계를 고려한 인식을 행할 수 있도록 하기 위해서이다.
도 1의 텍스트 추출부(15)는, 셀이 생성되어 있으면 셀마다 그 셀 내에 존재하는 문자열을 추출한다. 셀이 생성되어 있지 않은 범위에서도 문자열의 추출을 행한다. 추출한 문자열은, 문자 인식부(16)에 의해 문자로 분할되어 인식된다. 그 인식 결과가 키워드 추출부(17)에 입력된다. 그 키워드 추출부(17) 이후, 문자열로서는 인식 결과가 이용된다.
동일한 데이터를 입력시키기 위한 표제 문언은 장표에 따라 상이한 경우가 있다. 어떠한 이유에 의해 표제 문언의 1문자 이상을 인식할 수 없을 가능성도 있다. 이것으로부터 본 실시예에서는, 장표마다 이용되는 표제 문언뿐만 아니라, 그 표제 문언에 대응하는 대표 표제를 이용해서 표제 문언의 확인을 행하도록 하고 있다. 대표 표제 및 그 대표 표제가 할당되는 표제 문언은, 예를 들면 도 43의 (a)∼(c)에 도시하는 바와 같이 정의된다.
논리 구조 해석 DB(25)에는, 대표 표제마다, 그 대표 표제가 할당되는 표제 문언을 나타내는 정보가 저장되어 있다. 키워드 추출부(17)는, 그 DB(25)를 참조해서, 장표 화상 상에 존재하는 표제 문언을 추출하고, 추출한 표제 문언에 대응하는 대표 표제를 특정한다.
도 3은, 키워드 추출부(17)가 실행하는 키워드 추출 처리의 플로우차트이다. 여기서 도 3을 참조해서, 그 추출 처리에 대해서 상세하게 설명한다.
우선, 스텝 S21에서는, 업종별 DB가 지정되어 있는지의 여부를 판정한다. 업종이 지정되어 있지 않은 경우, 판정은 '아니오'로 되어, 스텝 S22에서 논리 구조 해석 DB(25)를 참조해서, 등록되어 있는 표제 문언을 읽어들인 후, 스텝 S24로 이행한다. 그렇지 않은 경우에는, 즉 업종이 지정되어 있었던 경우에는, 판정은 '예'로 되어, 스텝 S23에서 대응하는 업종별 DB를 참조해서, 등록되어 있는 표제 문언을 읽어들인 후에 스텝 S24로 이행한다. 여기서 읽어들이는 표제 문언의 총수는 N개로 한다.
논리 구조 해석 DB(25)는, 업종을 문제삼지 않는 범용성이 높은 DB이다. 이 때문에, 등록되어 있는 표제 문언은 매우 많다. 그러나, 표제 문언수는, 업종을 한정하면 보다 적어진다. 이것으로부터 본 실시예에서는, 업종별 DB를 준비하여, 불필요한 부하를 경감할 수 있도록 하고 있다. 논리 구조 해석 DB(25)는, 업종별 DB로서 이용할 수 있는 것으로 해도 된다.
스텝 S24에서는, 읽어들인 표제 문언은 대표 표제마다, 표제 문언의 동일 문자 배열순의 문자 단위 소트를 행한다. 계속되는 스텝 S25에서는, 표제 합격점 MTth를 설정한다. 그 후에는 스텝 S26으로 이행한다.
도 39는, 표제 문언의 소트 방법을 도시하는 도면이다. 여기서는, 대표 표제 「금액」이 할당된 표제 문언 중에서 「금액」 「납부 금액」 및 「납부액」이 장표 화상 상에 존재한 경우를 예로 들어, 그들 표제 문언 「금액」 「납부 금액」 및 「납부액」의 소트 방법을 나타내고 있다. 동일한 문자의 동일한 배열의 순번을 중시해서 소트하기 때문에, 1위의 표제 문언을 「납부액」으로 하면, 2위에는 동일한 「납부」를 갖는 「납부 금액」이 소트되고, 3위에는 「금액」이 일치하는 「금액」이 소트된다. 이러한 것으로부터, 도 3 중에 소트 결과에서 표기의 「C1」∼「C6」은 모두 상이한 문자를 나타내고 있다.
도 3에서, 스텝 S26∼S31은, 읽어들인 표제 문언의 총수 N회 반복하여 실행된다. 그에 의해 등록되어 있는 표제 문언마다, 스텝 S26∼S31은 실행된다.
동일한 표제 문언은 복수 존재하는 경우가 있다. 예를 들면 항목명으로서 외에, 설명 등을 위한 코멘트문 중에 존재하는 경우가 있다. 이것으로부터, 그 중의 스텝 S27∼S31은, 탐색에 의해 추출된 표제 문언수(도면 중 「탐색수」라고 표기)분 반복해서 실행된다. 그에 의해, 동일한 표제 문언이어도 그들 사이의 상위를 확인하도록 하고 있다.
스텝 S26에서는, 소트한 표제 문언 중의 1개를 선택하고, 선택한 표제 문언을 탐색한다. 그 탐색에 의해, 발견된 동일한 표제 문언수만큼, 스텝 S27∼S31이 반복해서 실행된다.
장표에 따라서는, 등록한 표제 문언 이외의 문자열을 이용하고 있을 가능성이 있다. 이것으로부터 스텝 S27에서는, 탐색에 의해 추출한 표제 문언과 등록되 어 있는 표제 문언의 일치도를 나타내는 표제 득점 MTn(n은 n번째로 탐색된 표제 문언의 득점인 것을 나타내는 심볼이다. 특히 탐색된 순번을 고려할 필요가 없는 경우에는 「MT」라고도 표기함)을 산출하는 표제 득점 산출 처리를 실행한다. 그 실행 후에는 스텝 S28로 이행한다.
스텝 S28에서는, 산출한 표제 득점 MTn은 표제 합격점 MTth 이상인지의 여부를 판정한다. 그 대소 관계가 충족되어 있는 경우, 판정은 '예'로 되어, 스텝 S29에서 표제 문언이 코멘트문에 포함되어 있을 가능성을 판정하기 위한 코멘트 판정 처리를 실행하고 나서 스텝 S30으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 일련의 처리를 종료한다. 그에 의해, 금회, 대상으로 한 표제 문언은 키워드라고는 간주하지 않는다. 이러한 것으로부터 표제 합격점 MTth는, 추출한 표제 문언 중에서 키워드로는 되지 않는 것을 배제하기 위한 임계값으로서 이용된다.
코멘트 판정 처리에서는, 스텝 S27의 표제 득점 산출 처리에서 산출된 표제 득점 MTn의 갱신이 행하여진다. 스텝 S30에서는, 갱신 후의 표제 득점 MTn으로부터 표제 문언이 코멘트문에 포함되어 있는지의 여부를 판정한다. 예를 들면, 그 표제 득점 MTn이 임계값으로서 설정된 값보다 작은 경우, 판정은 '예'로 되어, 여기서 일련의 처리를 종료한다. 그에 의해, 표제 문언은 키워드라고는 간주하지 않는다. 한편, 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S31에서 표제(키워드) 후보로서 표제 문언을 등록한 후, 일련의 처리를 종료한다.
이와 같이 해서, 탐색에 의해 추출한 표제 문언은, 등록된 표제 문언(이후 「등록 표제 문언」이라고도 표기함)과는 명확하게 상이하지 않거나, 혹은 코멘트문에 포함되어 있다고 간주되지 않는 경우, 그 표제 문언이 추출된 셀을 나타내는 셀 ID, 표제 득점, 그 득점이 얻어진 등록 표제 문언, 및 대표 표제 등의 정보와 함께 등록된다. 그에 의해, 표제 문언에는 복수의 동일한 대표 표제, 즉 동일한 대표 표제가 할당된 복수의 등록 표제 문언이 존재할 가능성이 있다. 표제 문언에 대응하는 대표 표제는 1개이다. 동일한 대표 표제가 할당된 복수의 등록 표제 문언 중으로부터 1개를 선택하는 것을 포함하는 정리는, 스텝 S32 이후에서 행하여진다.
스텝 S32에서는, 탐색에 의해 추출한 표제 문언순으로 결과를 소트한다. 계속되는 스텝 S33에서는, 동일한 표제 문언의 결과를 대표 표제순으로 소트한다. 그 다음으로 이행하는 스텝 S34에서는, 탐색에 의해 추출한 표제 문언 중에 동일한 대표 표제가 할당된 등록 표제 문언이 복수 존재하는 것이 있는지의 여부를 판정한다. 그러한 표제 문언이 존재하는 경우, 판정은 '예'로 되어, 스텝 S35에서 복수의 등록 표제 문언 중으로부터 표제 득점 MT가 최고인 것 이외를 삭제한 후, 이 키워드 추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 키워드 추출 처리를 종료한다. 이와 같이 해서 추출되어 정리된 표제 문언은, 셀 ID나 대표 표제, 표제 득점, 및 등록 표제 문언과 함께 키워드 DB(31)에 등록된다.
도 4는, 상기 스텝 S27로서 실행되는 표제 득점 산출 처리의 플로우차트이다. 여기서 도 4를 참조해서, 그 산출 처리에 대해서 상세하게 설명한다. 도 4 중의 「ML」 및 「MLO」는 각각, 등록 표제 문언의 문자수, 추출된 표제 문언에서 등록 표제 문언과 일치한 문자수를 각각 나타내고 있다.
이 산출 처리에서는, 등록 표제 문언의 문자수 ML별로, 일치 문자수 MLO에 따른 표제 점수 MT의 산출을 행하도록 되어 있다. 그 점수 MT의 초기값은 0이며, 그 점수 MT는 이하와 같이 갱신된다.
문자수 ML이 1이면, 표제 점수 MT로서 일치 문자수 MLO에 100을 승산한 값이 산출된다(S41→S42). 문자수 ML이 2이면, 표제 점수 MT로서, 일치 문자수 MLO가 1이면 70(S41→S43→S44→S45), 그 일치 문자수 MLO가 2이면 100(S41→S43→S44→S46→S47)으로 갱신되고, 그 일치 문자수 MLO가 1 및 2 이외의 수치, 즉 0이면 0인 채로 된다(S41→S43→S44→S46→end). 문자수 ML이 3이면, 표제 점수 MT로서, 일치 문자수 MLO가 2이면 70(S41→S43→S48→S49→S50), 그 일치 문자수 MLO가 3이면 100(S41→S43→S48→S49→S51→S52)으로 갱신되고, 그 일치 문자수 MLO가 1 및 2 이외의 수치, 즉 0이면 0인 채로 된다(S41→S43→S48→S49→S51→end). 문자수 ML이 3보다 크면, 표제 점수 MT로서, 일치 문자수 MLO에 100을 승산한 값을 문자수 ML로 나누어 얻어지는 값(=MLO*100/ML)이 산출된다(S41→S43→S48→S53→S54). 표제 득점 산출 처리는, 표제 점수 MT를 갱신한 후에 종료한다. 이러한 갱신 방법은 일례이며, 특별히 한정되는 것은 아니다.
도 40은, 추출된 표제 문언에서 산출되는 표제 득점 MT예를 도시하는 도면이다. 도 40의 (a)는 대표 표제마다 표제 문언을 소트한 결과, 도 40의 (b-1)은 추출된 표제 문언 「납부?액」 (「?」는 문자 인식에 실패한 문자를 나타냄)의 처리 결과, 도 40의 (b-2)는 추출된 표제 문언 「납부*」(「*」은 내용, 문자수가 불분명한 문자열을 나타냄)의 처리 결과를 각각 나타내고 있다. 도 40의 (b-2)에서는, 동일한 대표 표제가 복수(2개) 존재하고 있다. 도 40의 (b-1) 및 (b-2)에서는, 도 4에 도시하는 표제 득점 산출 처리 내에서 표제 득점 MT가 산출되는 처리 스텝을 아울러 표기하고 있다. 도 40의 (b-1) 혹은 (b-2)에 도시하는 바와 같은 처리 결과는, 도 4의 스텝 S33을 실행함으로써 얻어진다.
도 44는, 도 43의 (c)에 도시하는 내용이 논리 구조 해석 DB(25)에 저장되어 있는 경우에 산출되는 표제 득점 MTn을 설명하는 도면이다. 도 44의 (a)는 대표 표제 「금액」의 인식에 성공한 경우, 도 44의 (b)는 그 1문자의 인식에 실패한 경우를 나타내고 있다.
도 42는, 키워드 DB(31)에 등록되는 내용예를 도시하는 도면이다. 도 42에 도시하는 바와 같이, 탐색에 의해 추출된 표제 문언(도면 중 「탐색 문자열」이라고 표기. 이후, 그 표기도 이용함)에는, 동일한 대표 표제가 할당된 등록 표제 문언이 복수 추출되는 경우가 있다. 그 경우, 표제 득점 MT가 가장 높은 등록 표제 문언만이 남겨진다. 그에 의해, 탐색 문자열 「M1」에서는, 등록 표제 문언 「MG4」 및 「MG5」 중에서 문언 「MG4」만이 남겨지게 된다. 탐색 문자열 「M3」에서는, 등록 표제 문언 「MG3」 및 「MG6」의 득점 MT는 모두 100이며, 등록 표제 문언 「MG7」의 득점 MT는 70이기 때문에, 등록 표제 문언 「MG3」 및 「MG6」의 2개가 남게 된다. 그와 같이 복수의 등록 표제 문언이 남아도 되는 것으로 하고 있는 것은, 처리 대상으로서 불필요하다고 생각되는 것을 생략하는 것을 주안으로 하고 있기 때문이다.
도 5는, 도 3에 도시하는 키워드 추출 처리 내에서 스텝 S29로서 실행되는 코멘트 판정 처리의 플로우차트이다. 다음으로 도 5를 참조해서, 그 판정 처리에 대해서 상세하게 설명한다.
도 41의 (a)∼(d)에 도시하는 바와 같이, 항목명으로 되어 있는 표제 문언 「금액」은, 동일한 틀(셀) 내, 혹은 표 밖에 설명용, 즉 코멘트문으로서 존재하는 경우가 있다. 설명용의 경우, 다른 문자열과 함께 존재하거나(도 41의 (a)∼(d)), 및 색 혹은 크기가 상이하다(도 41의 (c) 혹은 (d))라고 하는 조건 중 적어도 1개를 충족시키고 있는 것이 보통이다. 표제 문언이 코멘트문을 구성하는 것인지의 여부는, 그러한 조건에 주목해서 행하고 있다. 표제 득점 MTn은, 충족시키고 있는 조건에 따라서 갱신된다.
우선 스텝 S62에서는, 「*」 괄호 기호, 혹은 「주의」 등의 코멘트문에 존재할 가능성이 높은 심볼이 표제 문언의 근처에 있는지의 여부를 판정한다. 그러한 심볼이 근처에 있는 경우, 판정은 '예'로 되어, 스텝 S63에서 소정값 CM1을 표제 점수 MTn으로부터 감산한 후, 스텝 S64로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 그 스텝 S64로 이행한다.
스텝 S64∼S69에서는, 마찬가지로, 표제 문언이 충족시키고 있는 조건에 따라서 표제 득점 MTn을 갱신하기 위한 처리가 행하여진다. 그에 의해, 표제 문언의 좌우 상하 중 어느 하나에 문자가 존재하고 있으면 소정값 CM2를 표제 득점 MTn으로부터 감산하고(S64→S65→S66), 표제 문언의 색이 주위의 문자 혹은 괘선의 색과 상이하면 소정값 CM3을 감산하여 판정하고(S64 혹은 S65→S66→S67), 문자 사이즈가 다른 문자와 비교해서 극단적으로(명확하게) 작거나 혹은 크면 소정값 CM4를 감산한다(S66 혹은 S67→S68→S69). 소정값 CM4의 감산, 혹은 스텝 S68에서의 '아니오'의 판정에 의해 스텝 S70으로 이행한다.
스텝 S70에서는, 표제 득점 MTn의 값은 표제 합격점 MTth 미만인지의 여부를 판정한다. 그 대소 관계가 충족되어 있는 경우, 판정은 '예'로 되어, 여기서 코멘트 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S71에서 표제 득점 MTn에 소정값 CM0을 가산한 후, 이 코멘트 판정 처리를 종료한다. 그에 의해, 코멘트문에 포함된다고 간주해서는 안되는 표제 문언에는 표제 득점 MTn을 보다 올리는 조작을 행하고 있다.
키워드 추출부(17)에서는, 상술한 바와 같은 각종 처리가 실행되고, 그 실행 결과로서 얻어진 키워드 및 그것에 관계되는 정보가 키워드 DB(31)에 저장된다. 장표 종별 판별부(18)는, 그 키워드 DB(31)를 참조해서, 장표의 종별(타입)을 판정한다. 그에 의해, 여기서는 장표가 단표, 연기 및 복수표 중 어느 것인지 특정한다.
도 6은, 장표 종별 판별부(18)가 실행하는 장표 종별 판정 처리의 플로우차트이다. 여기서 도 6을 참조해서, 그 판정 처리에 대해서 상세하게 설명한다.
우선, 스텝 S81에서는, 장표 종별이 정의되었는지의 여부를 판정한다. 예를 들면 장표 종별을 오퍼레이터가 지정하였거나, 혹은 장표 종별을 나타내는 정보가 장표 상에 존재하고 있었던 경우, 판정은 '예'로 되어, 스텝 S82에서 장표 종별을 설정한 후, 스텝 S94로 이행한다. 그 어느 쪽도 아닌 경우에는, 판정은 '아니오'로 되어 스텝 S83으로 이행한다.
스텝 S83에서는, 무괘선표인지의 여부를 판정한다. 도 2에 도시하는 표 구조 해석 처리를 실행한 결과, 무괘선표라고 판정한 경우, 판정은 '예'로 되어 스텝 S85로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S84에서 무괘선표의 구조를 판정하기 위한 표 구조 판정 처리를 실행하고 나서, 그 스텝 S85로 이행한다.
스텝 S85에서는, 표제 문언에 주목해서 장표의 종별을 판정하기 위한 표제 문언 판정 처리를 실행한다. 그 실행 후에는, 스텝 S86으로 이행하여, 최대값 MaxSyu를 산출한다. 그 산출 후에는 스텝 S87로 이행한다.
상기 표 구조 판정 처리에서는, 장표의 종별마다, 득점을 산출하기 위한 변수를 준비하고, 그 변수에 대입한 득점을 필요에 따라서 갱신하도록 되어 있다. 그 변수는 복수표에서는 FRT, 단표에서는 TRT, 연기에서는 RPT이다. 표제 문언 판정 처리에서도 필요에 따라서, 그들 변수의 값(득점)을 갱신하도록 되어 있다. 스텝 S86에서의 최대값 MaxSyu의 산출은, 그들 변수 중 예를 들면 변수 FRT 및 RPT의 각 값을 이용해서 행하여진다. 그 산출 방법은, 특별히 한정되는 것은 아니지만, 예를 들면 그들의 값을 가산하는 것도 포함된다.
스텝 S87에서는, 최대값 MaxSyu는 표일 것 같음의 최저점 SyuTh보다 큰지의 여부를 판정한다. 최대값 MaxSyu가 최저점 SyuTh 이하이었던 경우, 판정은 '아니오'로 되어, 스텝 S88에서 종별은 단표로 설정한 후, 상기 스텝 S94로 이행한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S89로 이행한다.
스텝 S89에서는, 최대값 MaxSyu는 변수 PRT의 값인지의 여부를 판정한다. 3개의 변수 중에서 변수 PRT의 값이 가장 컸던 경우, 판정은 '예'로 되어, 스텝 S90에서 종별은 연기로 설정한 후, 상기 스텝 S94로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S91로 이행한다.
스텝 S91에서는, 최대값 MaxSyu는 변수 FRT의 값인지의 여부를 판정한다. 3개의 변수 중에서 변수 FRT의 값이 가장 컸던 경우, 판정은 '예'로 되어, 스텝 S92에서 종별은 복수표로 설정한 후, 상기 스텝 S94로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S93에서 종별은 단표로 설정한 후, 그 스텝 S94로 이행한다.
스텝 S94에서는, 무괘선표인지의 여부를 판정한다. 상기 스텝 S83에서 무괘선표라고 판정한 경우, 판정은 '예'로 되어, 스텝 S95에서 무괘선표의 구조를 해석하기 위한 무괘선표 구조 해석 처리를 실행한 후, 이 장표 종별 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S96에서 셀 보정 처리를 실행한 후, 이 장표 종별 판정 처리를 종료한다.
상술한 바와 같이, 장표는 종별에 따라 특유한 표 구조를 갖고 있다. 이 때문에, 장표의 종별을 판정(특정)함으로써, 표제 문언과 데이터의 대응 관계도 정확하게 특정할 수 있게 된다. 그에 의해 장표는 고정밀도로 인식된다.
여기서 상기 장표 종별 판정 처리 내에서 실행되는 각종 서브 루틴 처리에 대해서, 도 7∼도 9를 참조해서 상세하게 설명한다.
도 7은, 상기 스텝 S84로서 실행되는 표 구조 판정 처리의 플로우차트이다. 처음에 도 7을 참조해서, 그 판정 처리에 대해서 상세하게 설명한다.
이 표 구조 판정 처리에서는, 장표의 종별에 따라 특유한 구조를 셀의 배치에 주목해서 해석하도록 되어 있다. 그 셀의 배치는, 연기에서는 도 45의 (a-1) 혹은 (a-2)에 도시하는 바와 같이, 각 행의 셀이 대략, 혹은 거의 일치하고 있는 경우가 많다. 복수표에서는, 도 45의 (b-1) 혹은 (b-2)에 도시하는 바와 같이, 복수행의 셀의 배치가 반복해서 출현하는 경우가 많다. 단표에서는, 도 45의 (c-1) 혹은 (c-2)에 도시하는 바와 같이, 셀은 일치하고 있는지 않지만 근접해 있거나, 혹은 근접해 있지 않은 경우가 많다. 그러한 장표의 종별에 따라 서로 다른 셀(표제 문언을 갖는 셀을 포함함)의 배치의 특징에 주목해서, 상기 변수 FR1, TR1 및 RP1의 갱신이 행하여진다. 그들의 초기값은 0이다.
우선, 스텝 S101에서는, 행마다, 가로(1행)로 배열되는 셀의 개수 ClYn을 산출한다. 계속되는 스텝 S102에서는, 1행에 배열되는 셀의 평균 개수 ClYave를 산출한다. 다음의 스텝 S103에서는, 행마다, 가로(행) 방향으로 배열되는 셀 중에서, 이웃과 접하는 셀간에 존재하는 각, 즉 인접하는 셀을 나누는 괘선의 개수 KDYn을 산출한다. 그 다음으로 이행하는 스텝 S104에서는, 행마다, 개수 KDYn을 개수 ClYn으로 나눈 값을 셀 어긋남도 ZRY로서 산출한다. 그 산출 후에는 스텝 S105로 이행한다. 스텝 S104에서 산출하는 셀 어긋남도 ZRY는, 1행의 셀 중에서 인접하는 셀이 존재하는 비율을 나타내는 값이다. 그에 의해, 행 방향으로 셀이 일치하고 있는 정도를 나타내고 있다. 행 방향으로 셀이 일치하고 있는지의 여부 를 판정하기 위해서, 임계값 ZRYth를 설정하고 있다.
스텝 S105∼S108에서는, 마찬가지로, 열에 주목해서 각종 개수 및 셀의 어긋남도 ZRT의 산출이 행하여진다.
우선, 스텝 S105에서는, 열마다, 세로(1열)로 배열되는 셀의 개수 ClTn을 산출한다. 계속되는 스텝 S106에서는, 1열에 배열되는 셀의 평균 개수 ClTave를 산출한다. 다음의 스텝 S107에서는, 열마다, 세로(열) 방향으로 배열되는 셀 중에서, 세로 방향 상의 이웃과 접하는 셀간에 존재하는 각, 즉 인접하는 셀을 나누는 괘선의 개수 KDTn을 산출한다. 그 다음으로 이행하는 스텝 S108에서는, 열마다, 개수 KDTn을 개수 ClTn으로 나눈 값을 셀 어긋남도 ZRT로서 산출한다. 그 셀 어긋남도 ZRT는, 열 방향으로 셀이 일치하고 있는 정도를 나타내고 있다. 열 방향으로 셀이 일치하고 있는지의 여부를 판정하기 위해서, 임계값 ZRTth를 설정하고 있다.
상술한 바와 같이 해서 산출되는 셀 어긋남도 ZRY 및 ZRT는 모두, 그 값이 클수록 일치하고 있는 것을 나타내고 있다. 스텝 S108에 계속되는 스텝 S109에서는, 셀 어긋남도 ZRY는 임계값 ZRYth보다 크며, 또한 셀 어긋남도 ZRT는 임계값 ZRTth보다 큰지의 여부를 판정한다. 그들의 대소 관계가 모두 충족되어 있는 경우, 즉 종횡 거의 일치하고 있다고 간주할 수 있는 경우, 판정은 '예'로 되어, 연기의 특징을 갖고 있는 것으로서, 스텝 S110에서 변수 RRT에 지금까지의 값에 소정값 R1을 가산한 값을 대입한 후, 이 표 구조 판정 처리를 종료한다. 그들의 대소 관계 중 1개 이상이 충족되어 있지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S111로 이행한다.
스텝 S111에서는, 행마다의 셀의 개수 ClYn이 2행에서 반복되고 있는지의 여부를 판정한다. 그 반복이 복수 존재하는 경우, 판정은 '예'로 되어, 복수표의 특징을 갖고 있는 것으로서, 스텝 S112에서 변수 FRT에 지금까지의 값에 소정값 F1을 가산한 값을 대입한 후, 이 표 구조 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S113으로 이행한다.
스텝 S113에서는, 행마다의 셀의 개수 ClYn이 3행에서 반복되고 있는지의 여부를 판정한다. 그 반복가 복수 존재하는 경우, 판정은 '예'로 되어, 복수표의 특징을 갖고 있는 것으로서, 스텝 S114에서 변수 FRT에 지금까지의 값에 소정값 F1을 가산한 값을 대입한 후, 이 표 구조 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S115로 이행한다.
스텝 S115에서는, 셀이 근접하고 있는지의 여부를 판정한다. 이 상황에서는, 셀이 근접하고 있다는 것은 도 45의 (c-1)에 도시하는 바와 같은 셀의 배치로 된다. 그에 의해, 도 45의 (c-1)에 도시하는 바와 같은 셀의 배치이었던 경우, 판정은 '예'로 되어, 단표의 특징을 갖고 있는 것으로서, 스텝 S116에서 변수 TRT에 지금까지의 값에 소정값 T1을 가산한 값을 대입한 후, 이 표 구조 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 표 구조 판정 처리를 종료한다.
도 8은, 도 6에 도시하는 장표 종별 판정 처리 내에서 스텝 S85로서 실행되는 표제 문언 판정 처리의 플로우차트이다. 다음으로 도 8을 참조해서, 그 판정 처리에 대해서 상세하게 설명한다.
도 30에 도시하는 바와 같은 복수표에서는, 서로 다른 장소에서 동일한 표제 문언이 동일한 순서로 탐색되기 때문에, 도 46의 (a-1)에 도시하는 바와 같이 키워드가 추출되게 된다. 이에 대하여, 도 24 및 도 25에 도시하는 바와 같은 단표, 및 도 26∼도 29에 도시하는 바와 같은 연기에서는, 도 46의 (a-2)에 도시하는 바와 같이 키워드가 추출되어, 동일한 표제 문언이 다른 셀에 존재하는 것은 드물게 된다.
한편, 복수표에서는 도 46의 (b-1)에 도시하는 바와 같이, 동일한 탐색 문자열이 존재하는 셀의 배치는, 세로 혹은 가로 방향 상, 동일한 위치로 되는 것이 보통이다. 단표 및 연기에서는, 도 46의 (b-2)에 도시하는 바와 같이, 상이한 탐색 문자열이 세로 혹은 가로 방향 상에 배열되어 있는 경우가 있다. 그것은, 연기 쪽이 보다 많이 출현한다. 단표에서는, 도 46의 (b-3)에 도시하는 바와 같이, 탐색 문자열이 존재하는 셀의 위치에 관련성(규칙성)이 없는 경우도 많다. 단표 및 연기에서는, 도 46의 (b-4)에 도시하는 바와 같이, 탐색 문자열을 1개밖에 탐색할 수 없는 경우도 있다. 표제 문언 판정 처리에서는, 그러한 장표의 종별에 따라 상이한 키워드의 추출 결과(표제 문언의 배치)에 주목해서, 변수 FRT, TRT 혹은 RRT의 값을 갱신하도록 되어 있다.
우선, 스텝 S121에서는, 동일한 탐색 문자열이 3개 이상 존재하는지의 여부를 판정한다. 동일한 탐색 문자열이 키워드로서 추출된 경우, 판정은 '예'로 되어, 스텝 S122에서 변수 FRT에 지금까지의 값에 소정값 F2를 가산한 값을 대입한 후, 스텝 S127로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S123으로 이행한다.
스텝 S123에서는, 탐색 문자열로서 추출된 표제 GR 혹은 DR의 종류수가 2 이상이며, 또한 동일한 탐색 문자열이 2개 이상 추출되어 있는지의 여부를 판정한다. 표제 GR 혹은 DR의 종류수가 2 이상이며, 또한 동일한 탐색 문자열이 2개 이상 추출되어 있었던 경우, 판정은 '예'로 되어, 스텝 S124에서 변수 FRT에 지금까지의 값에 소정값 F3을 가산한 값을 대입한 후, 스텝 S127로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S125로 이행한다.
스텝 S125에서는, 동일한 탐색 문자열이 모두 1개인지의 여부를 판정한다. 추출된 탐색 문자열이 서로 상이한 경우, 판정은 '예'로 되어, 스텝 S126에서 변수 TRT 및 RRT에 각각, 지금까지의 값에 소정값 T2 및 R2를 가산한 값을 대입한 후, 스텝 S127로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 그 스텝 S127로 이행한다.
스텝 S127에서는, 동일한 탐색 문자열이 세로 혹은 가로 방향 상, 동일한 배치로 되어 있는지의 여부를 판정한다. 세로 혹은 가로 방향 상의 동일한 위치로부터 동일한 탐색 문자열이 복수 추출된 경우, 판정은 '예'로 되어, 스텝 S128에서 변수 FRT에 지금까지의 값에 소정값 F4를 가산한 값을 대입한 후, 이 표제 문언 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S129로 이행한다.
스텝 S129에서는, 상이한 탐색 문자열이 가로 혹은 세로 방향 상에 배열되어 있는지의 여부를 판정한다. 상이한 탐색 문자열이 그와 같이 배열되어 있었던 경 우, 판정은 '예'로 되어, 스텝 S130에서 변수 TRT 및 RRT에 각각, 지금까지의 값에 소정값 T3 및 R3을 가산한 값을 대입한 후, 이 표제 문언 판정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 표제 문언 판정 처리를 종료한다.
도 9는, 도 6에 도시하는 장표 종별 판정 처리 내에서 스텝 S96으로서 실행되는 셀 보정 처리의 플로우차트이다. 다음으로 도 9을 참조해서, 그 보정 처리에 대해서 상세하게 설명한다.
스텝 S96으로 이행한 단계에서는, 무괘선표를 갖는 장표가 아닌 한, 그 종별은 판정 완료로 된다. 셀 보정 처리에서는, 그 판정 결과에 따라, 셀의 형상 및 배치를 보정하는 것이 행하여진다. 그에 의해, 도 45의 (a-2) 및 (b-2)에 각각 도시하는 바와 같은 셀의 형상·배치는, 도 47(a) 및 (b)에 도시하는 바와 같이 보정된다.
우선, 스텝 S141에서는, 판정한 장표의 종별은 연기인지의 여부를 판정한다. 그 종별이 연기가 아니었던 경우, 판정은 '아니오'로 되어, 스텝 S145로 이행한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S142로 이행한다.
스텝 S142에서는, 탐색 문자열로서 추출된 표제 문언이 배열되는 행 혹은 열을 추출한다(도 46의 (b-2)). 다음의 스텝 S143에서는, 추출한 행 혹은 열이 일직선 상에 배열되도록 보정한다. 그 다음의 스텝 S144에서는, 다른 행 혹은 열도 보정한 행 혹은 열에 맞추어 보정한다. 그 후, 이 셀 보정 처리를 종료한다.
한편, 스텝 S145에서는, 판정한 장표의 종별은 복수표인지의 여부를 판정한 다. 그 종별이 복수표가 아니었던 경우, 판정은 '아니오'로 되어, 여기서 이 셀 보정 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S146으로 이행한다.
스텝 S146에서는, 복수행 단위로, 각 행의 평균의 배열을 산출한다. 계속되는 스텝 S17에서는, 산출한 배열의 평균으로부터 비교적 크게 상이한 행이 있는지의 여부를 판정한다. 그러한 행이 존재하는 경우, 판정은 '예'로 되어, 스텝 S148에서 그 행의 배열을 평균의 것으로 보정한 후, 이 셀 보정 처리를 종료한다. 그렇지 않은 경우에는, 즉 보정이 필요한 행이 존재하지 않는 경우에는, 판정은 '아니오'로 되어, 여기서 이 셀 보정 처리를 종료한다.
도 10은, 도 6에 도시하는 장표 종별 판정 처리 내에서 스텝 S95로서 실행되는 무괘선표 구조 해석 처리의 플로우차트이다. 마지막으로 도 10을 참조해서, 그 해석 처리에 대해서 상세하게 설명한다. 도 1의 표 구조 해석(무괘선)부(19)는, 이 해석 처리를 실행함으로써 실현된다.
이 해석 처리에서는, 탐색 문자열에 주목해서, 그 탐색 문자열을 포함하는 셀을 가상적으로 생성한다(이후, 편의적으로 가상적으로 생성하는 셀을 「가상 셀」이라고 총칭하고, 탐색 문자열의 가상 셀은 「표제 가상 셀」이라고 부름). 생성한 가상 셀의 배치, 각 가상 셀에 존재하는 탐색 문자열로부터, 장표의 종별 판정 결과를 고려해서, 데이터를 포함하는 가상 셀(이후 「데이터 가상 셀」이라고 부름)을 생성한다. 그와 같이 생성한 가상 셀을 실제의 셀로서 설정한다. 도 48은, 그와 같이 해서 셀을 생성하는 과정을 도시하는 도면으로서, 실제의 디자인, 표제 가상 셀을 생성한 단계, 데이터 가상 셀을 생성한 단계, 및 최종적으로 셀을 생성한 단계로 나누어, 그 과정을 도시하고 있다. 도 48의 (a) 및 (b)는 각각 연기 및 복수표의 경우를 각각 도시하고 있다.
우선, 스텝 S151에서는, 탐색 문자열이 추출된 장소에 표제 가상 셀을 생성한다. 다음의 스텝 S152에서는, 표제 가상 셀을 생성한 위치, 각 표제 가상 셀의 탐색 문자열로부터, 장표의 종별이 연기인지의 여부를 판정한다. 상이한 탐색 문자열의 표제 가상 셀이 세로 혹은 가로 방향으로 배열되도록 생성할 수 없었던 경우, 판정은 '아니오'로 되어 스텝 S156으로 이행한다. 그렇지 않은 경우에는, 즉 도 48의 (a)에 도시하는 바와 같이 표제 가상 셀을 생성할 수 있었던 경우에는, 판정은 '예'로 되어 스텝 S153으로 이행한다.
스텝 S153에서는, 표제 가상 셀이 세로 혹은 가로 방향 상 배열되도록, 다른 행 혹은 열을 고려해서, 그 표제 가상 셀을 배치한 행 혹은 열의 가상 셀을 필요에 따라서 생성 혹은 보정한다. 계속되는 스텝 S154에서는, 표제 가상 셀을 배치한 행 혹은 열과는 다른 행 혹은 열에, 데이터 가상 셀을 생성한다. 그 생성이 완료된 후에 이행하는 스텝 S155에서는, 생성한 가상 셀의 배열이 연기로서 보다 적절하게 되도록 보정한다. 그 보정을 행한 후에는 스텝 S161로 이행한다.
스텝 S156에서는, 표제 가상 셀을 생성한 위치, 각 표제 가상 셀의 탐색 문자열로부터, 장표의 종별이 복수표인지의 여부를 판정한다. 탐색 문자열이 동일한 표제 가상 셀을 복수, 세로 혹은 가로 방향의 동일한 위치에 생성할 수 없었던 경우, 판정은 '아니오'로 되어 스텝 S160으로 이행하여, 데이터라고 간주하는 문자열 의 가상 셀을 생성한다. 그 생성 후에는 스텝 S161로 이행한다. 그렇지 않은 경우에는, 즉 도 48의 (b)에 도시하는 바와 같이 표제 가상 셀을 생성할 수 있었던 경우에는, 판정은 '예'로 되어 스텝 S157로 이행한다.
스텝 S157에서는, 가상 셀의 배치 패턴이 반복되는 복수의 행 혹은 열의 영역을 생성한다. 다음의 스텝 S158에서는, 생성한 영역마다 데이터 가상 셀을 생성한다. 그 다음의 스텝 S159에서는, 반복되는 복수의 행 혹은 열, 즉 생성한 영역마다, 평균의 배치 패턴에 맞추어 가상 셀의 배치를 보정한다. 그 후에는 스텝 S161로 이행한다.
스텝 S161에서는, 일치하고 있어야 한다고 간주하고 있는 가상 셀간 의 어긋남의 대소를 판정한다. 그 어긋남이 비교적 작은 경우, 그 취지가 판정되어 스텝 S162로 이행하여, 그 어긋남이 보다 작아지도록 가상 셀의 배치를 보정한다. 그 보정 후에는, 스텝 S163으로 이행해서, 주위의 가상 셀과의 위치 관계를 정밀 조사하여, 배치를 보정할 가상 셀이 있으면 그 배치를 보정한다. 그러한 보정을 행하여, 가상 셀의 배치를 전체적으로 보다 적절한 것으로 조정한 후에는 스텝 S164로 이행하여, 가상 셀을 통상의 셀로서 생성한다. 그 후, 이 무괘선표 구조 해석 처리를 종료한다.
한편, 일치하고 있어야 한다고 간주하고 있는 가상 셀간의 어긋남이 비교적 큰 경우에는, 그 취지가 스텝 S161에서 판정되어 스텝 S165로 이행한다. 그 스텝 S165에서는, 그 어긋남이 존재하는 방향으로 인접하는 가상 셀을 연결시키는 조작을 행한다. 그 후에는 스텝 S164로 이행하여, 가상 셀을 통상의 셀로서 생성한다.
이와 같이 해서, 장표가 무괘선표이어도 셀이 생성된다. 그에 의해 논리 구조 해석(항목 후보 추출)부(20)에서는, 셀에 의해 표현된 장표의 구조를 논리적으로 해석하고, 구조상, 부적절한 개소, 혹은 적절하게 인식할 수 없었다고 생각되는 표제 문언을 추출해서 수정한다. 그 수정에 의해, 괘선이 없는 표 구조이어도, 보다 고정밀도로 장표의 인식, 즉 표제 문언과 데이터의 관계를 인식한다.
도 11은, 논리 구조 해석(항목 후보 추출)부(20)가 실행하는 제1 논리 구조 해석 처리 플로우차트이다. 다음으로 도 11을 참조해서, 논리 구조 해석(항목 후보 추출)부(20)를 실현시키는 그 해석 처리에 대해서 상세하게 설명한다.
우선, 스텝 S171에서는, 탐색에 의해 추출된 표제 문언, 즉 탐색 문자열을 정밀 조사한다. 다음으로 이행하는 스텝 S172에서는, 논리 구조 해석 DB(25)에 등록된 정의로부터, 인식되어 있지 않은 표제 문언이 부족한지의 여부를 판정한다. 그 정의에 의해 인식되어 있어야 한다고 생각되는 표제 문언 중에 인식되어 있지 않은 것이 존재하는 경우, 판정은 '예'로 되어, 스텝 S173에서 불판독 표제 복원 처리, 다음의 스텝 S174에서 셀 보정 처리를 실행하고 나서 스텝 S175로 이행한다. 그렇지 않은 경우에는, 즉 인식되어 있어야 한다고 생각되는 표제 문언이 모두 인식되어 있었던 경우에는, 판정은 '아니오'로 되어, 다음으로 스텝 S175로 이행한다.
여기서, 상기 불판독 표제 복원 처리 및 셀 보정 처리에 대해서 구체적으로 설명한다.
도 12는, 불판독 표제 복원 처리의 플로우차트이다. 이 복원 처리는, 노이 즈, 오염, 혹은 파손 등의 이유에 의해 인식할 수 없었던 표제 문언을 추정해서 추출하기 위한 처리이다. 이 복원 처리에서는, 스텝 S201 및 S202에서 각각 표제 위치 정보에 의한 재추출 처리, 배타 관계 및 데이터 정보에 의한 재추출 처리를 실행하도록 되어 있다.
도 49는, 표제 위치 정보에 의한 재추출 처리의 내용의 예를 설명하는 도면이다. 도 49의 (a)는, 논리 구조 해석 DB(25)에 정의된 내용의 발췌를 나타내고, 항목 「표제 위치」에서 정의되는 것은 표제 문언이 존재할 장표 상의 위치를 나타내는 표제 위치 정보이다. 도 49의 (b)∼(e)는, 도 49의 (a)에 도시하는 내용의 발췌에 맞추어 준비한 도면으로서, 각각 장표 디자인, 그 장표 디자인 상의 표제 위치 정보에 의해 추출되는 문자열, 그 문자열에의 조작, 그 조작에 의해 얻어지는 인식 결과를 각각 나타내고 있다.
도 49의 (b)에서는, 장표의 상부에 위치하는 문자열 「평성 ○○년도 ◇◇◇현 자동차세」 중에서 「세」를 인식할 수 없었던 것을 나타내고 있다. 그러나, 그 문자열은, 도 49의 (a)에 도시하는 발췌의 표제 위치 정보를 참조함으로써 재추출되고, 논리 구조 해석 DB(25)에 의해 도 49의 (d)에 도시하는 조작이 행하여지게 된다. 그 조작에서는, 문자열 「◇◇◇현」은 대표 표제 「세명」에서 포함되지 않는 문언이기 때문에 무시되고, 문자열 「자동차세」는 「세」가 불판독이어도(인식할 수 없어도) 올바르게 추정되게 된다. 문자열 「평성 ○○년도」는 그것에 대응하는 대표 표제 「년」과 관계지어진다. 이 결과, 도 49의 (e)에 도시하는 바와 같이 인식되게 된다.
도 50은, 표제 위치 정보에 의한 재추출 처리의 내용의 다른 예를 설명하는 도면이다. 도 49와 마찬가지로, 도 50의 (a)는, 논리 구조 해석 DB(25)에 정의된 내용의 발췌를 도시하고 있다. 도 50의 (b-1) 및 (b-2)는 각각, 장표 디자인에 의한 처리 내용을 도시하고 있다.
도 50의 (a)에 도시하는 발췌에서는, 표제 위치 정보가 나타내는 위치는 상부 및 하부로 되어 있다. 추출하는 대상으로 되는 문언은 최후가 「시」로 되어 있는 문자열이다. 이 때문에, 도 50의 (b-1)에 도시하는 예에서는, 문자열 「○○○시」가 장표의 상부 및 하부에 각각 존재하기 때문에, 그 문자열 「○○○시」가 재추출되게 된다. 한편, 도 50의 (b-2)에 도시하는 예에서는, 장표의 상부에 존재하는 문자열 「△△△세」는 무시되게 된다. 그에 의해, 장표의 상부 및 하부에는 추출할 문자열은 존재하지 않는다고 간주된다.
도 51은, 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제1 예를 설명하는 도면이다. 도 51의 (a)는 논리 구조 해석 DB(25)에 정의된 내용의 발췌를 도시하고, 도 51의 (b-1) 및 (b-2)는 각각, 동일한 장표 디자인에서 인식 불능의 표제 문언의 수에 따라 상이한 처리 내용을 도시하고 있다.
도 51의 (b-1) 및 (b-2)에 각각 도시하는 장표 디자인은 도 51의 (a)에 도시하는 발췌에 대응한 연기의 것이다. 간단히 하기 위해, 표제 문언은 모두 대표 표제로 하고 있다. 그에 의해 여기서는, 표제 문언은 대표 표제와 동일한 의미로 이용한다. 이것은, 도 52 및 도 53에서도 마찬가지이다. 도 51의 (b-1)에서는 대표 표제 「계좌 번호」 상에 도장이 찍혀 인식 불가능하게 되어 있고, 도 51의 (b-2)에서는 대표 표제 「계좌 번호」 이외에, 대표 표제 「금액」 상에도 도장이 찍혀 인식 불가능하게 되어 있다.
상술한 바와 같이, 대표 표제는 중복되지 않도록 결정한다. 그에 의해 연기에서는, 배열되어 있는 대표 표제는 중복을 금지하는 배타 관계를 성립시킨다. 이것으로부터, 도 51의 (b-1)에 도시하는 예에서는, 논리 구조 해석 DB(25)를 참조해서, 대표 표제 중에서 결여되어 있는 것이 「계좌 번호」의 1개만인 것을 특정할 수 있다. 그에 의해, 인식할 수 없게 되어 있는 표제 문언은 「계좌 번호」라고 정확하게 추정(복원)할 수 있다.
한편, 도 51의 (b-2)에 도시하는 예에서는, 논리 구조 해석 DB(25)를 참조해서, 대표 표제 중에서 결여되어 있는 것이 「계좌 번호」 및 「금액」의 2개인 것을 특정할 수 있다. 그러나, 복수의 대표 표제가 결여되어 있기 때문에, 결여되어 있는 대표 표제가 배치되어 있는 위치까지는 특정할 수 없다. 이것으로부터, 그 위치의 특정에는, 속성, 포맷, 부대 기호의 각 정보를 갖는 데이터 정보를 이용한다.
대표 표제 「계좌 번호」의 데이터 정보는, 그것의 데이터는 7자리의 숫자열이며, 그 데이터에 부대 기호는 첨부되지 않는 것을 나타내고 있다. 대표 표제 「금액」의 데이터 정보에서는, 그것의 데이터는 자릿수가 한정되지 않는 숫자열이고, 그 데이터의 선두(최초)에 문언 「¥」이 첨부되거나, 마지막에 문언 「엔」이 첨부되거나, 혹은 숫자간에 문언 「,」이 배치될 가능성을 나타내고 있다. 이 때 문에, 문언 「¥」이 숫자열의 선두에 첨부된 데이터에 대응하는 쪽의 대표 표제가 「금액」이라고 정확하게 추정(복원)할 수 있다. 그 추정에 의해, 남은 대표 표제는 「계좌 번호」라고 정확하게 추정(복원)하게 된다.
도 52는, 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제2 예를 설명하는 도면이다. 도 52의 (a)는 인식 불능의 표제 문언이 존재하는 장표예, 도 52의 (b)는 논리 구조 해석 DB(25)에 정의된 그 장표에 대응하는 내용을 각각 도시하고 있다.
도 52의 (a)에서는, 대표 표제 「지점명」 및 「계좌 번호」가 모두 미추출로 되어 있다. 그러나, 대표 표제 「지점명」 및 「계좌 번호」의 각 데이터는 각각, 부대 기호로서 「지점」이 첨부되어 있거나, 혹은 숫자열로 되어 있다. 이 때문에, 그러한 데이터의 상위에 의해, 미검출의 대표 표제 「지점명」 및 「계좌 번호」를 모두 정확하게 추정할 수 있게 되어 있다.
이와 같이 표제 문언에 따라서는, 그 정보로서 존재하는 문자열에 「¥」이나 「엔」 혹은 「지점」 등의 특유한 부대 기호(심볼)가 첨부될 가능성이 있다. 그러한 부대 기호가 첨부되는 위치는, 부대 기호에 따라 특유하다. 이것으로부터, 부대 기호 및 그 위치를 나타내는 정보(부대 기호 정보)는, 표제 문언에 대응하는 정보(문자열)를 고정밀도로 특정함에 있어서 유효하다. 그에 의해, 대응하는 문자열에 부대 기호가 첨부될 가능성이 생각되는 표제 문언에는 부대 기호 정보를 준비하고 있다.
복수표에서는, 동일한 대표 표제를 1개 이상 갖는 표 구조가 반복된다. 그 반복되는 표 구조의 부분(「명세 범위」라고도 부름)에는, 동일한 위치에 동일한 대표 표제가 존재한다. 이 때문에, 임의의 명세 범위에서 대표 표제가 추출되어 있지 않은 셀이 있어도, 다른 명세 범위에서 그 위치로부터 대표 표제를 추출하고 있는 경우에는, 도 54에 도시하는 바와 같이, 추출되어 있지 않은 대표 표제를 정확하게 추정할 수 있다. 그러나, 그렇지 않으면, 즉 전체 명세 범위에서 동일한 대표 표제를 추출할 수 없는 것이면, 추출할 수 없었던 대표 표제를 정확하게 추정할 수 있다고는 할 수 없다. 예를 들면 추출할 수 없었던 대표 표제로서 생각되는 것이 1개만이라는 것, 및 추출할 수 없었던 대표 표제의 데이터의 속성이 다른 대표 표제의 데이터의 어떠한 속성과도 상이하다라고 하는 조건 중 어느 하나가 성립하고 있지 않으면 정확한 추정은 불가능하게 된다. 이것으로부터 본 실시예에서는, 미추출의 대표 표제의 정확한 추정이 불가능한 경우, 미추출의 대표 표제에 할당할 대표 표제, 및 그 우선 순위(데이터 위치 순위)를 생성하고, 미추출의 대표 표제에 가능성이 있는 대표 표제를 할당하도록 되어 있다.
도 53은, 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제3 예를 설명하는 도면이다. 그 도 53은, 대표 표제가 갖는 배타 관계 및 데이터 정보를 이용해도 미검출의 대표 표제를 추정할 수 없기 때문에, 데이터 위치 순위를 생성해서 대표 표제를 추정하는 경우의 예를 도시하고 있다. 도 53의 (a)는 인식 불능의 표제 문언이 존재하는 장표예, 도 53의 (b)는 논리 구조 해석 DB(25)에 정의된 그 장표에 대응하는 내용, 및 도 53의 (c)는 생성된 데이터 위치 순위를 각각 도시하고 있다.
도 53의 (a)에서는, 대표 표제 「은행명」 및 「지점명」이 모두 미추출로 되어 있다. 그러나, 대표 표제 「은행명」 및 「지점명」의 각 데이터의 속성은 동일하며, 그들의 데이터를 구별 가능하게 하는 부대 기호는 첨부되어 있지 않다. 이 때문에, 미검출의 대표 표제를 특정하기 위한 정보는 얻어지지 않는 상황으로 되어 있다. 그에 의해, 대표 표제 「은행명」 및 「지점명」을 각각 1위, 2위로 하는 데이터 위치 순위를 생성하고, 그 데이터 위치 순위가 생성된 대표 표제는 미리 정한 규칙에 따라서 미검출의 대표 표제에 각각 할당하도록 하고 있다.
그와 같이 해서, 미검출의 대표 표제에는 어떠한 대표 표제를 할당함으로써, 오퍼레이터는 필요에 따라서 추출된 대표 표제를 수정하면 되게 된다. 이 때문에, 미검출의 대표 표제를 모두 오퍼레이터에 입력시키는 경우와 비교해서, 오퍼레이터의 부하를 보다 경감시킬 수 있다.
도 13은, 도 51∼도 53을 참조하여 설명한 배타 관계 및 데이터 정보에 의한 재추출 처리의 플로우차트이다. 다음으로 도 13을 참조해서, 그 재추출 처리에 대해서 보다 상세하게 설명한다.
우선, 스텝 S211에서는, 검출된 표제 문언이 없는지의 여부를 판정한다. 표제 문언을 1개도 검출할 수 없었던 경우 판정은 '예'로 되어, 여기서 이 재추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S212로 이행한다.
스텝 S212에서는, 장표의 종별은 연기인지의 여부를 판정한다. 장표 종별 판정부(18)의 판정이 연기가 아닌 경우, 판정은 '아니오'로 되어 스텝 S224로 이행 한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S213으로 이행한다.
스텝 S213에서는, 표제 문언이 배열되는 행(표제행)을 추출한다. 다음의 스텝 S214에서는, 논리 구조 해석 DB(25)를 참조해서, 표제행 중에서 추출되어 있지 않은 표제 문언이 1개이며, 또한 표제 문언이 발견되어 있지 않은 데이터 열이 1개인지의 여부를 판정한다. 데이터 열의 표제 문언으로서 생각되는 것이 1개만이었던 경우, 판정은 '예'로 되어, 스텝 S215에서 그 대표 표제를 미검출의 대표 표제의 후보로 확정시킨 후, 이 재추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S216으로 이행한다.
스텝 S216∼S220은, 미검출의 표제 문언수만큼, 실행되는 처리 루프를 형성하고 있다. 그에 의해, 미검출의 표제 문언 중으로부터 1개를 선택하고, 선택한 표제 문언에 주목해서, 그 표제 문언에 대응하는 대표 표제의 특정이 행하여진다.
우선, 스텝 S216에서는, 미검출의 표제 문언을 선택하고, 그 표제 문언이 존재하는 셀 및 그 셀과 대응지어지는 데이터가 존재하는 데이터 열을 추출한다. 다음의 스텝 S217에서는, 데이터 열의 데이터 정보를 추출한다. 그 데이터 정보의 추출 후에는, 스텝 S218로 이행하여, 논리 정보 해석 DB(25)를 참조해서, 대표 표제가 갖는 배타 관계 및 데이터 정보에 주목한 대표 표제의 선출을 행한다. 그 선출은, 도 51 및 도 52를 참조하여 설명한 바와 같이 행하여진다.
스텝 S218에 계속되는 스텝 S219에서는, 선출에 의해 추출된 대표 표제는 1개인지의 여부를 판정한다. 추출할 수 있었던 대표 표제가 1개만이었던 경우, 판정은 '예'로 되어 스텝 S220으로 이행하여, 추출할 수 있었던 대표 표제는 미검출 의 표제 문언의 것이라고 확정시킨 후, 일련의 처리를 종료하고, 상기 스텝 S216으로 되돌아간다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 일련의 처리를 종료한다.
상술한 바와 같은 일련의 처리를 미검출의 표제 문언수만큼 실행하면, 스텝 S221로 이행한다. 그 스텝 S221에서는, 미검출의 표제 문언의 수는 추출된 데이터 열의 수와 동일한지의 여부를 판정한다. 미검출의 표제 문언마다, 그것에 대응지어지는 데이터 열을 추출할 수 없었던 경우, 판정은 '아니오'로 되어, 여기서 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다. 이것은, 미검출이라고 하는 표제 문언의 판정 등에 오류가 있을 가능성이 생각되기 때문이다. 그렇지 않은 경우에는, 판정은 '예'로 되어, 스텝 S222로 이행한다.
스텝 S222에서는, 데이터 위치 순위를 생성하고, 그 순위의 순서대로, 미검출의 표제 문언에 대표 표제를 할당한다. 계속되는 스텝 S223에서는, 할당한 대표 표제를 확정시킨다. 그 후, 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다.
상기 스텝 S212의 판정이 '아니오'로 되어 이행하는 스텝 S224에서는, 장표의 종별은 복수표인지의 여부를 판정한다. 장표 종별 판정부(18)의 판정이 복수표가 아닌 경우, 즉 장표의 종별은 단표라고 판정하고 있었던 경우, 판정은 '아니오'로 되어, 여기서 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S225로 이행한다.
스텝 S225에서는, 반복되는 표 구조의 부분인 명세 범위를 추출한다. 그 추 출 후에 이행하는 스텝 S226에서는, 추출한 명세 범위간에서 미검출의 표제 문언이 모두 일치하고 있지 않은지의 여부, 즉 임의의 명세 범위에서 미검출의 표제 문언은 다른 명세 범위에서 검출되어 있는지의 여부를 판정한다. 명세 범위에 존재하는 표제 문언은 모두 어느 하나의 명세 범위에서 검출할 수 있는 경우, 판정은 '예'로 되어, 스텝 S227에서 미검출의 표제 문언(의 대표 표제)을 도 54에 도시하는 바와 같이 확정한 후, 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S228로 이행한다.
스텝 S228∼S233은, 상술한 스텝 S216∼S220과 마찬가지로, 모든 명세 범위에서 미검출의 표제 문언수만큼, 실행되는 처리 루프를 형성하고 있다. 그에 의해, 미검출의 표제 문언 중으로부터 1개를 선택하고, 선택한 표제 문언에 주목해서, 그 표제 문언에 대응하는 대표 표제의 특정이 행하여진다.
우선, 스텝 S228에서는, 미검출의 표제 문언을 선택하고, 그 표제 문언이 존재하는 셀 및 그 셀과 대응지어지는 데이터를 추출한다. 다음의 스텝 S229에서는, 데이터의 데이터 정보를 추출한다. 그 데이터 정보의 추출 후에는, 스텝 S230으로 이행해서, 논리 정보 해석 DB(25)를 참조하여, 대표 표제가 갖는 배타 관계 및 데이터 정보에 주목한 대표 표제의 선출을 행한다.
스텝 S230에 계속되는 스텝 S231에서는, 선출에 의해 추출된 대표 표제는 1개인지의 여부를 판정한다. 추출할 수 있었던 대표 표제가 1개만이었던 경우, 판정은 '예'로 되어 스텝 S232로 이행하여, 추출할 수 있었던 대표 표제는 미검출의 표제 문언의 것이라고 확정시키고, 계속되는 스텝 S233에서 그 확정 결과를 다른 명세 범위에 반영시킨 후, 일련의 처리를 종료하고, 상기 스텝 S228로 되돌아간다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 일련의 처리를 종료한다.
상술한 바와 같은 일련의 처리를 미검출의 표제 문언수만큼 실행하면, 스텝 S234로 이행한다. 그 스텝 S234에서는, 미검출의 표제 문언의 수는 추출된 데이터의 수와 동일한지의 여부를 판정한다. 미검출의 표제 문언마다, 그것에 대응지어지는 데이터를 추출할 수 없었던 경우, 판정은 '아니오'로 되어, 여기서 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다. 이것은, 미검출로 하는 표제 문언의 판정 등에 오류가 있을 가능성이 생각되기 때문이다. 그렇지 않은 경우에는, 판정은 '예'로 되어, 스텝 S235로 이행한다.
스텝 S235에서는, 데이터 위치 순위를 생성하고, 그 순위의 순서대로, 미검출의 표제 문언에 대표 표제를 할당한다. 계속되는 스텝 S236에서는, 할당한 대표 표제를 확정시킨다. 그 후에 이행하는 스텝 S237에서는, 그 확정 결과를 다른 명세 범위에 반영시킨다. 그 반영을 행한 후, 배타 관계 및 데이터 정보에 의한 재추출 처리를 종료한다.
상술한 바와 같은 서브 루틴 처리를 포함하는 불판독 표제 복원 처리를 실행한 경우, 불판독의 표제 문언에 대표 표제, 혹은 표제 문언이 할당될 가능성이 있다. 이것으로부터, 도 11에 도시하는 스텝 S174에서 실행되는 셀 보정 처리에서는, 불판독 표제 복원 처리의 실행 결과, 즉 인식되어 있지 않은 표제 문언에 대표 표제, 혹은 표제 문언을 할당해서 행하는 복원 결과에 따라서, 도 55에 도시하는 바와 같이 셀을 생성하는 것이 행하여진다. 도 55 중, 인식할 수 없는 표제 문언 은 「표제」라고 표기하고 있다. 셀은, 인식할 수 없어도 생성되어 있는 경우가 있다. 그 경우에는, 도 55의 (a-1)∼(a-3)에 도시하는 바와 같이 데이터의 셀이 새롭게 생성된다. 셀이 생성되어 있지 않은 경우에는, 도 55의 (b-1)∼(b-4)에 도시하는 바와 같이, 표제 문언용, 데이터용의 셀이 새롭게 생성된다.
도 11의 설명으로 되돌아간다.
스텝 S174의 셀 보정 처리를 실행한 후에는, 스텝 S175로 이행하여, 대표 표제, 표제 GR 및 DR 중 어느 하나가 복수 있는지의 여부를 판정한다. 그들 중 적어도 1개가 복수 존재하고 있었던 경우, 판정은 '예'로 되어, 스텝 S176에서 중복 정밀 조사 처리를 실행한 후, 스텝 S177로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 그 스텝 S177로 이행한다. 그 스텝 S177에서는, DR·GR-표제 문언 정밀 조사 처리를 실행하고, 그 실행 후에는 스텝 S178로 이행한다.
여기서, 스텝 S176 및 S177에서 각각 실행되는 서브 루틴 처리에 대해서 보다 상세하게 설명한다.
도 14는, 스텝 S176으로서 실행되는 중복 정밀 조사 처리의 플로우차트이다. 처음에 도 14를 참조해서, 그 정밀 조사 처리에 대해서 구체적으로 설명한다.
표제 DR 및 GR은, 관련되는 1개 이상의 데이터를 입력하는 범위의 표 구조(단위표 구조)에서 1개만 존재하는 것으로서 설정하고 있다. 그 표 구조로는, 동일한 대표 표제는 복수 존재하지 않도록 하고 있다. 이것으로부터, 중복 정밀 조사는, 표제 DR 및 GR과 대표 표제의 대응 관계를 평가(추출)하기 위해서 행하여진다. 표제 DR 혹은 GR이 1개만 존재하는 범위의 표 구조는, 복수표에서는 명세 범 위에 상당하기 때문에 이후 「명세 범위」는 그 표 구조를 가리키는 의미로도 이용하는 것으로 한다.
도 56은, 중복 정밀 조사 처리의 내용을 설명하는 도면이다. 도 56의 (a)는 장표 디자인의 예, 도 56의 (b)는 그 장표 디자인의 예에 대응하는, 논리 구조 해석 DB(25)의 내용, 도 56의 (c)는 논리 구조 해석 DB(25)의 제휴에 의해 갱신한 키워드 추출 결과, 도 56의 (d)는 표제 DR 혹은 GR마다 설정되는 영역(표제 DR·GR 영역), 도 56의 (e)는 중복 정밀 조사 후의 키워드 추출 결과를 각각 나타내고 있다. 표제 DR·GR 영역은, 관련되는 1개 이상의 데이터를 입력하는 표 구조가 존재하는 범위에 상당하고, 그 범위에는 표제 DR 혹은 GR이 1개만 존재한다. 중복 정밀 조사 처리에서는, 그 범위인 표제 DR·GR 영역마다, 그것에 존재하는 대표 표제를 특정함으로써, 표제 DR 혹은 GR과 대표 표제의 대응 관계를 추출한다.
우선, 스텝 S251에서는, 동일한 대표 표제가 복수 있는지의 여부를 판정한다. 동일한 대표 표제는 1개만이었던 경우, 판정은 '아니오'로 되어, 여기서 중복 정밀 조사 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S252로 이행한다.
스텝 S252에서는, 복수 존재하는 대표 표제는 모두 표제 득점 MT가 임계값인 표제 합격점 MTth보다 큰지의 여부를 판정한다. 대표 표제가 모두 키워드라고는 간주할 수 없는 것이었던 경우, 판정은 '아니오'로 되어, 여기서 중복 정밀 조사 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S253으로 이행한다. 그 스텝 S253에서는, 변수 DMn에 대표 표제수를 대입한다. 그 대입 후에는 스텝 S254로 이행한다.
스텝 S254∼S261은, 동일한 추출된 표제 문언(탐색 문자열)수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 그 중의 스텝 S259∼S261은, 그 처리 루프 내에서, 대표 표제수만큼, 반복하여 실행되는 처리 루프를 더 형성하고 있다. 스텝 S254∼S261은, 탐색 문자열로서, 대표 표제만을 대상으로 해서, 1대표 표제의 표제 DR 혹은 GR에 주목하는 형태로 실행된다. 그에 의해, 1개의 표제 DR·GR 영역을 설정하고, 그 영역 내에 존재할 가능성이 생각되는 대표 표제를 평가하도록 되어 있다.
우선, 스텝 S254에서는, 키워드 추출 결과를 이용해서, 논리 구조 해석 DB(25)로부터 대표 표제의 표제 DR 혹은 GR을 추출하는 검색을 행한다. 계속되는 스텝 S255에서는, 표제 DR 혹은 GR의 문언을 장표로부터 추출하고, 다음으로 이행하는 스텝 S256에서는, 그 추출 결과를 이용한 표제 DR·GR 영역의 설정을 행한다. 그 후에는 스텝 S257로 이행하여, 표제 DR·GR 영역 내의 코멘트의 유무를 판정한다. 그 영역 내에 코멘트가 존재하는 경우, 그 취지가 판정되어 스텝 S258로 이행하여, 그 코멘트가 존재하는 코멘트 영역을 표제 DR·GR 영역으로부터 제외한 후, 스텝 S259로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 그 스텝 S259로 이행한다.
스텝 S259에서는, 스텝 S254에서의 검색에 이용한 대표 표제에 주목해서, 키워드 추출에 의해 얻어진 것 중의 1개를 선택하고, 선택한 대표 표제가 존재하는 셀의 ID가 표제 DR·GR 영역 내인지의 여부를 판정한다. 그 셀이 표제 DR·GR 영 역을 구성하고 있었던 경우, 판정은 '예'로 되어, 스텝 S260에서 표제 득점 MTn을, 지금까지의 값에 소정값(도면 중 「표제 DR·GR의 OK점」이라고 표기)을 가산한 값으로 갱신한 후, 중복 정밀 조사 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S261에서 표제 득점 MTn을, 지금까지의 값으로부터 상이한 소정값(도면 중 「표제 DR·GR의 NG점」이라고 표기)을 감산한 값으로 갱신한 후, 중복 정밀 조사 처리를 종료한다. 그와 같이 표제 득점 MTn을 갱신하는 형태로 평가를 행함으로써, 각 셀의 대표 표제(표제 문언)에 대응하는 표제 DR 혹은 GR이 대응지어지게 된다(도 56의 (e)).
도 15는, 상기 스텝 S177로서 실행되는 DR·GR-표제 문언 정밀 조사 처리의 플로우차트이다. 다음으로 도 11을 참조해서, 그 정밀 조사 처리에 대해서 상세하게 설명한다.
표제 DR 및 GR은, 관련되는 1개 이상의 데이터를 입력하는 범위의 표 구조(명세 범위)에서 1개만 존재한다. 그러나, 그 표 구조에 대표 표제, 혹은 대표 표제가 할당된 표제 문언이 반드시 존재한다고는 할 수 없다. 이것으로부터, DR·GR-표제 문언 정밀 조사는, 표에 존재하지 않는 대표 표제를 추정·보충하기 위해서 행하여진다. 그 대표 표제를 추가함으로써, 장표의 내용을 보다 용이하게 오퍼레이터를 이해할 수 있도록 지원할 수 있다. 표제 문언과 데이터의 대응 관계를 자동적으로 생성하기 때문에, 정보 입력을 행할 필요성은 저감된다.
도 57은, DR·GR-표제 문언 정밀 조사 처리의 내용을 설명하는 도면이다. 도 57의 (a) 및 (b)는 각각, 도 57의 (a-1) 및 (b-1)에 장표 디자인(명세 범위)의 예, 도 57의 (a-2) 및 (b-2)에 논리 구조 해석 DB(25)의 내용, 도 57의 (a-3) 및 (b-3)에 장표 디자인으로부터 DB(25)를 이용해서 추정·추가되는 대표 표제를 도시하고 있다. 그 추정·추가되는 대표 표제는 도면 중 「가상 표제」라고 표기하고 있다. 그 가상 표제는, 본래, 장표 상의 셀과는 다른 차원의 연결 관계로 설정한다. 가상 표제를 배치한 셀(2점 쇄선으로 나타내는 셀)은, 표 구조상, 상부에 배치하고 있다. 이것으로부터 DR·GR-표제 문언 정밀 조사 처리에서는, 가상 표제의 특정(작성) 외에, 그 가상 표제와 데이터의 연결 관계의 특정이 행하여진다. 그 DR·GR-표제 문언 정밀 조사 처리에 대해서, 도 15를 참조해서 상세하게 설명한다.
우선, 스텝 S271에서는, 표제 DR 및 GR의 유무를 판정한다. 표제 DR 및 GR 모두 존재하지 않는 경우, 그 취지가 판정되어, 여기서 이 정밀 조사 처리를 종료한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 스텝 S272로 이행해서, 존재하는 표제 DR 혹은 GR에 대표 표제가 존재하는지의 여부를 판정한다. 어느 쪽의 표제 DR 혹은 GR에도 대표 표제가 존재하는 경우, 그 취지가 판정되어, 이 정밀 조사 처리를 종료한다. 그렇지 않은 경우에는, 즉 대표 표제가 존재하지 않는 표제 DR 혹은 GR이 존재하는 경우에는, 그 취지가 판정되어, 스텝 S273에서 변수 Dmn에 대표 표제수를 대입한 후, 스텝 S274로 이행한다. 이 때, 변수 m에 대입되는 대표 표제수는, 예를 들면 대표 표제가 미검출된 표제 DR 혹은 GR의 수이다. 이것은, 대표 표제를 추정(작성)할 표 구조(명세 범위)만을 대상으로 하면 되기 때문이다.
스텝 S274∼S285는, 변수 DMn의 초기값만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 그에 의해, 대표 표제를 추정할 표 구조마다, 대표 표제의 추정을 행하도록 되어 있다.
우선, 스텝 S273a에서는 변수 m에 0을 대입하고, 다음의 스텝 S274에서는, 표제 DR 혹은 GR이 할당된 표제 문언에서 설정되어 있는 데이터 정보 중의 부대 기호를 표 구조(명세 범위) 내에서 탐색한다. 계속되는 스텝 S275에서는, 탐색에 의해 추출할 수 있었던 부대 기호의 유무를 판정한다. 그 부대 기호를 추출할 수 있었던 경우, 그 취지가 판정되어 스텝 S278로 이행한다. 그렇지 않은 경우에는, 즉 부대 기호를 추출할 수 없었거나, 혹은 데이터 정보 중에 부대 기호가 정의되어 있지 않았던 경우에는, 그 취지가 판정되어 스텝 S276으로 이행한다.
스텝 S276에서는, 데이터 위치 순위로부터 가상 표제를 할당하는 데이터 셀의 범위를 추출한다. 그 추출은, 예를 들면 도 57의 (b)에 도시하는 바와 같이, 데이터 위치 순위에 따라서, 데이터가 존재하는 데이터 셀을 추출함으로써 행한다. 계속되는 스텝 S277에서는, 추출한 데이터 셀과 연결시키는 가상 셀을 작성한다. 그 후에는 스텝 S283으로 이행한다.
스텝 S278에서는, 부대 기호는 데이터 정보로 정의된 위치에 배치된 셀이 존재하는지의 여부를 판정한다. 예를 들면 도 57의 (a)에 도시하는 바와 같이, 위치 정의된 마지막에 부대 기호 「은행」이 첨부된 데이터 「ABC 은행」을 갖는 데이터 셀이 존재하는 경우, 대상의 셀은 있다고 판정되어, 스텝 S279에서 그 데이터 셀과 연결시키는 가상 셀을 작성한 후, 스텝 S283으로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어 스텝 S280으로 이행한다. 스텝 S279에서는, 데이터 셀로부터 가상 표제가 일의적으로 특정된다.
스텝 S280에서는, 부대 기호가 첨부된 데이터(문자열) 중에서 대표 표제를 할당 가능한 것을 탐색하고, 대표 표제를 할당 가능한 데이터의 유무를 판정한다. 할당 가능한 데이터가 존재하는 경우, 그 취지가 판정되어, 스텝 S281에서 그 데이터의 셀에 연결시키는 가상 셀을 작성한 후, 스텝 S283으로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 스텝 S282에서 대응하는 표제 득점 MTn을 갱신한 후, 일련의 처리를 종료한다. 대응하는 표제 득점 MTn은, 현재, 대상으로 하고 있는 표 구조(명세 범위)의 표제 DR 혹은 GR의 것이고, 그 득점 MTn의 갱신은, 지금까지의 값으로부터, 후보로 되는 대표 표제가 없는 것을 평가하기 위한 소정값을 감산함으로써 행한다. 그에 의해, 표제 DR 혹은 GR은 표제로서 평가를 낮추게 된다. 스텝 S281에서는, 탐색에 의해 추출한 데이터 셀, 혹은 데이터 위치 순위로부터 가상 표제가 특정된다.
스텝 S283에서는, 작성한 가상 셀에 각각 가상 표제를 설정(작성)한다. 다음의 스텝 S284에서는, 변수 m의 값을 갱신한다. 그 갱신은, 지금까지의 값에, 설정한 가상 표제의 수로부터 1을 뺀 값을 가산함으로써 행한다. 1을 빼고 있는 것은, 표제 DR 혹은 GR에 대하여, 적어도 1대표 표제를 설정한다고 상정하고 있기 때문이다. 그 갱신 후에 이행하는 스텝 S285에서는, 설정한 가상 표제의 표제 득점 MTn으로서 각각, 가상 표제의 초기값으로서 설정한 값인 가상 표제점을 설정한다. 일련의 처리는 그 후에 종료한다.
도 11의 설명으로 되돌아간다.
상기 DR·GR-표제 문언 정밀 조사 처리가 종료되면, 스텝 S178로 이행하여, 장표의 종별은 연기인지의 여부를 판정한다. 장표가 연기이었던 경우, 판정은 '예'로 되어 스텝 S190으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S179로 이행한다.
DR·GR-표제 문언 정밀 조사 처리의 실행에 의해, 장표 상으로부터 키워드로서 추출된 표제 문언 외에, 존재한다고 간주할 표제 문언(대표 표제)이 추출되고, 고려할 표제 문언이 확정된다. 스텝 S179∼S185는, 확정한 표제 문언의 수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 그에 의해, 표제 문언마다 그 평가를 행하도록 되어 있다.
우선, 스텝 S179에서는, 표제 문언 중으로부터 1개를 선택하고, 선택한 표제 문언의 셀(이후, 다른 것과 구별하기 위해서 「대상 셀」이라고 표기) 내에 다른 문자열의 유무를 판정한다. 대상 셀 내는 표제 문언만이었던 경우, 다른 문자열은 없다고 판정되어, 스텝 S182로 이행한다. 그렇지 않은 경우에는, 다른 문자열은 있다고 판정되어, 스텝 S180으로 이행한다.
스텝 S180에서는, 대상 셀 내의 문자열을 행마다 평가하기 위한 점수 DTnm의 초기값으로서, 소정값(도면 중 「동일 셀 내 데이터점」이라고 표기)을 설정한다. 계속되는 스텝 S181에서는, 대상 셀 내로부터 다른 항목명, 혹은 데이터의 후보로 될 수 있는 문자열을 추출하기 위한 셀 내 항목 후보 추출 처리를 실행한다. 그 실행 후에는 스텝 S182로 이행한다. 점수 DTnm의 n 및 m은, n번째의 표제 문언이 존재하는 대상 셀 내에서 m행째의 문자열인 것을 나타내고 있다.
스텝 S182에서는, 우측의 셀에서의 문자의 유무를 판정한다. 대상 셀의 우 측에 위치하는 셀 내에 문자가 존재하는 경우, 문자는 있다고 판정되어, 스텝 S183으로 이행해서, 그 문자가 있는 것을 점수 DTnm에 반영시키기 위한 우측 항목 후보 추출 처리를 실행한다. 그 후에는 스텝 S184로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 그 스텝 S184로 이행한다. 우측에 위치하는 셀에 문자가 있는지의 여부를 점수 DTnm에 반영시키는 것은, 항목명의 우측에 데이터를 입력시키는 디자인이 채용될 가능성이 높기 때문이다.
스텝 S184에서는, 하측의 셀에서의 문자열의 유무를 판정한다. 대상 셀의 하측에 위치하는 셀 내에 문자열이 존재하는 경우, 문자열은 있다고 판정되어, 스텝 S185로 이행해서, 그 문자열이 있는 것을 점수 DTnm에 반영시키기 위한 하측 항목 후보 추출 처리를 실행한다. 그 후에 일련의 처리를 종료한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 여기서 일련의 처리를 종료한다. 하측에 위치하는 셀에 문자열이 있는지의 여부를 점수 DTnm에 반영시키는 것은, 항목명의 하측에 데이터를 입력시키는 디자인도 채용될 가능성이 높기 때문이다.
상술한 바와 같이 해서, 추출된 표제 문언마다 평가가 행하여진다. 그 평가가 모두 완료되면, 스텝 S186으로 이행한다.
표제 문언이나 데이터의 추출은, 도 1의 문자 인식부(16)에 의한 인식 결과를 대상으로 행한다. 문자의 인식은 모두 정확하게 행할 수 있다고는 할 수 없다. 그 인식이 틀려 있으면, 표제 문언의 추출을 적절하게 행할 수 없을 가능성이 있다. 이 때문에 스텝 S186에서는, 인식의 정밀도에 주목해서, 표제 문언의 해석을 행할지의 여부를 판정하기 위한 항목 해석 필요 여부 판정 처리를 실행한다. 그 실행 후에는 스텝 S187로 이행한다. 인식의 정밀도를 판정하기 위한 각종 정보는 문자 인식부(16)로부터 취득한다.
스텝 S187에서는, 항목 해석 필요 여부 판정 처리의 실행 결과가 항목 해석해야 한다고 되어 있는지의 여부를 판정한다. 인식 정밀도가 비교적 낮은 표제 문언이 존재한 경우, 항목 해석은 필요한 것으로 된다. 그 결과, 판정은 '예'로 되어, 스텝 S189에서 필요한 항목 해석을 행한 후, 이 논리 구조 해석 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 논리 구조 해석 처리를 종료한다.
상기 스텝 S178의 판정이 '예'로 되어 이행하는 스텝 S190에서는, 항목명이라고 간주할 표제 문언이 배열되는 표제행을 추출한다. 계속되는 스텝 S191에서는, 표제행에 연속해 있는 데이터 열을 추출한다. 그 후에는 스텝 S192로 이행한다.
스텝 S192 및 S193은, 표제행에 항목명으로서 추출된 표제 문언수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다.
그 처리 루프에서는 우선, 스텝 S192에서 표제행에 존재하는 표제 문언(항목명) 중으로부터 1개를 선택하고, 그 표제 문언에 대응짓는 데이터 열의 셀은 명확하게 사다리형으로 되어 있는, 즉 데이터 열의 셀은 예를 들면 도 45의 (a-1) 혹은 (a-2)에 도시하는 바와 같이 거의 일치하고 있지 않은지의 여부를 판정한다. 도 45의 (a-1) 혹은 (a-2)에 도시하는 바와 같이 대략 일치하고 있는 경우, 판정은 '아니오'로 되어, 스텝 S193에서 셀을 일치시키는 형태로 통합을 행한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '예'로 되어, 여기서 일련의 처리를 종료한다. 표제 문언만큼 반복한 후에는 스텝 S194로 이행한다.
스텝 S194에서는, 표제 문언이 검출된 항목에 상당하는 셀수만큼, 그 셀에 그 밖에 존재하는 표제 문언으로 될 수 있는 문자열을 추출하기 위한 연기 항목 후보 추출 처리를 실행한 후, 스텝 S186으로 이행한다.
다음으로, 상기 스텝 S181, S183, S185, S186 및 S194로서 각각 실행되는 서브 루틴 처리에 대해서 상세하게 설명한다.
도 16은, 상기 스텝 S181로서 실행되는 셀 내 항목 후보 추출 처리의 플로우차트이다. 처음에 도 16을 참조하여, 그 추출 처리에 대해서 상세하게 설명한다. 이 추출 처리는, 대상 셀에만 주목해서 실행된다.
도 58의 (a)∼(e)에 도시하는 바와 같이, 동일한 셀 내에 복수의 구별 가능한 문자열이 존재하는 경우가 있다. 이 셀 내 항목 후보 추출 처리는, 셀 내로부터 다른 항목명, 혹은 데이터의 후보로 될 수 있는 문자열을 추출하기 위해서 실행되는 처리이다. 그 추출은, 후보로 될 수 있는 문자열을 추출하고, 추출한 문자열 중으로부터 불필요로 할 것을 배제하고, 남은 문자열을 필요에 따라서 통합함으로써 행하여진다. 그 통합은, 도 58의 (a)∼(e)에서, 도 58의 (d) 및 (e)에 도시하는 케이스가 상당한다. 그 도 58 중, 「표제」는 이미 추출 완료된 표제 문언을 나타내고 있고, 파선으로 둘러싼 문자열은, 추출된 문자열 혹은 통합한 문자열을 나타내고 있다. 또한 「프리프린트」는, 장표 상에 존재하는 인식 대상 외의 문자열이며, 그 판정은, 예를 들면 색, 문자의 형상, 혹은 내용으로부터 행할 수 있다.
우선, 스텝 S301에서는, 대상 셀 내에 표제 문언이 복수 존재하는지의 여부를 판정한다. 표제 문언이 복수 대상 셀 내에 존재한 경우, 판정은 '예'로 되어 스텝 S302로 이행하여, 복수의 표제 문언 중에서 항목명의 후보로 될 수 있는 것을 추출하기 위한 셀 내 복수 항목 후보 추출 처리를 실행한 후, 이 셀 내 항목 후보 추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S303에서 변수 m에 0을 대입한 후, 스텝 S304로 이행한다.
스텝 S304∼S315는, 표제 문언 이외에 대상 셀 내로부터 추출된 문자열의 수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 그에 의해, 주목하는 문자열을 변경하면서, 문자열마다 데이터로서의 평가를 행하여, 그 점수 DTnm을 필요에 따라서 갱신한다. 여기서는 주목하는 문자열을 「대상 문자열」로 표기한다.
우선, 스텝 S304에서는, 표제 문언으로 입력되는 데이터에 첨부될 가능성이 있는 부대 기호만으로 대상 문자열이 구성되어 있는지의 여부를 판정한다. 그 부대 기호만이 대상 문자열로서 존재하는 경우, 판정은 '예'로 되어, 스텝 S305에서 표제 득점 MTn을 갱신한 후, 일련의 처리를 종료한다. 그 갱신은, 예를 들면 지금까지의 값에 미리 설정의 표제 부대점을 가산함으로써 행하는 것에 의해, 표제 문언일 것 같음을 보다 높게 평가한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S306으로 이행한다.
스텝 S306에서는, 대상 문자열은 프리프린트인지의 여부를 판정한다. 대상 문자열이 프리프린트이었던 경우, 판정은 '예'로 되어, 여기서 일련의 처리를 종료한다. 그에 의해, 도 58의 (a)에 도시하는 예에서는, 프리프린트가 배제되게 된 다. 한편, 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S307로 이행한다.
스텝 S307에서는, 대상 문자열의 속성이 표제 문언으로 입력되는 데이터의 속성과 동일한지의 여부를 판정한다. 그들의 속성이 동일한 경우, 판정은 '예'로 되어, 스텝 S309에서 득점 DTnm을 갱신하고 나서 스텝 S310으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S308에서 대상 문자열은 속성 에러로 설정된 후, 일련의 처리를 종료한다. 득점 DTnm의 갱신은, 지금까지의 값에 미리 정한 값인 셀 내 데이터점을 가산함으로써 행하여진다. 그에 의해, 표제 문언으로 입력되는 데이터로서 보다 높게 평가한다.
스텝 S310에서는, 표제 문언으로 입력되는 데이터에 첨부될 가능성이 있는 부대 기호를 대상 문자열이 포함하고 있는지의 여부를 판정한다. 대상 문자열에 그 부대 기호가 첨부되어 있었던 경우, 판정은 '예'로 되어, 스텝 S311에서 득점 DTnm을 갱신한 후, 스텝 S312로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 다음으로 그 스텝 S312로 이행한다. 스텝 S311에서의 득점 DTnm의 갱신은, 지금까지의 값에 미리 정한 값인 부대점을 가산함으로써 행하여진다. 그에 의해, 데이터로서 보다 높게 평가한다.
스텝 S312에서는, 대상 문자열은 표제 문언으로 입력되는 데이터와 적어도 속성은 동일하기 때문에, 그 데이터의 후보로서 설정한다. 계속되는 스텝 S313에서는, 대상 문자열은 전행(예를 들면 위의 행)과 가까운지의 여부를 판정한다. 도 58의 (d) 및 (e)에 도시하는 문자열 「레이트 은행」, 「×× 거리」 및 「□□동 ◇◇호」 중 어느 하나에 대응하는 위치에 대상 문자열이 존재한 경우, 판정은 '예'로 되어, 스텝 S314에서 전행의 문자열과 대상 문자열을 1개의 문자열로 통합한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S315에서 변수 m의 값을 인크리먼트한 후, 일련의 처리를 종료한다.
이와 같이 해서, 대상 문자열은 데이터 후보로서의 평가가 행하여지고, 필요에 따라서 다른 문자열과 통합된다. 그러한 처리를 모든 문자열에 대해 행한 후에 스텝 S316으로 이행한다. 이 때 변수 m에는, 대상 셀 내에서 데이터 후보로서 고려할 문자열의 수가 대입되어 있다.
스텝 S316에서는, 데이터 후보로 되는 문자열이 없는지의 여부를 판정한다. 스텝 S312까지 이행한 문자열이 존재하지 않는 경우, 판정은 '예'로 되어 스텝 S322로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S317로 이행한다. 그 S317에서는, 데이터 후보로 되는 문자열이 1개인지의 여부를 판정한다. 그 문자열이 1개만이었던 경우, 판정은 '예'로 되어 스텝 S322로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S318로 이행한다.
스텝 S318에서는, 지금까지의 값으로부터 미리 설정한 분할점을 감산함으로써, 각 문자열의 득점 DTnm을 갱신한다. 계속되는 스텝 S319에서는, 변수 m이 나타내는 수만큼의 문자열을 통합한다(도 58의 (a), (d), (e)). 그 다음으로 이행하는 스텝 S320에서는, 변수 m의 값을 인크리먼트한다. 그 인크리먼트 후에는, 스텝 S321에서 상기 동일 셀 내 데이터점을 득점 DTnm으로 설정하고 나서 스텝 S322로 이행한다.
스텝 S322에서는, 통합한 m개의 문자열 중에 데이터의 부대 기호를 갖는 것이 있었는지의 여부를 판정한다. 그 부대 기호를 갖는 문자열이 존재한 경우, 판정은 '예'로 되어 스텝 S323으로 이행하여, 지금까지의 값에 상기 부대점을 가산함으로써, 각 문자열의 득점 DTnm을 갱신한다. 그 후에는 스텝 S324로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 그 스텝 S324로 이행한다.
스텝 S324에서는, 통합한 m개의 문자열 중에 속성 에러가 설정된 것의 유무를 판정한다. 속성 에러가 설정된 문자열이 존재하는 경우, 속성 에러가 설정된 문자열은 있다고 판정되어, 스텝 S325로 이행하여, 지금까지의 값에 미리 정한 속성 에러점을 감산함으로써, 각 문자열의 득점 DTnm을 갱신한다. 그 후에 셀 내 항목 후보 추출 처리를 종료한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 여기서 셀 내 항목 후보 추출 처리를 종료한다.
여기서, 상기 스텝 S302로서 실행되는 셀 내 복수 항목 후보 추출 처리에 대해서, 도 17에 도시하는 플로우차트를 참조해서 상세하게 설명한다. 그 추출 처리는, 상술한 바와 같이, 복수의 표제 문언 중에서 항목명의 후보로 될 수 있는 것을 추출하기 위해서 실행된다.
도 59의 (a)∼(d)에 도시하는 바와 같이 「표제 1」 및 「표제 2」의 2개의 표제 문언을 포함하는 복수의 문자열이 1셀 내에 존재하는 경우, 표제 문언 이외의 문자열은 도 60의 (a)∼(d)에 도시하는 바와 같이 추출된다. 즉 예를 들면 도 59의 (a)에 도시하는 예에서는, 도 60의 (a)에 도시하는 바와 같이, 2개의 「프리프린트」, 「○○○○○」 「△△△△」 「은행」 및 「지점」이 추출된다. 다른 도 59의 (b)∼(d)에서도 마찬가지로, 도 60의 (b)∼(d)에서 파선에 의해 둘러싼 문자열이 추출된다. 도 61의 (a)∼(d)에 도시하는 바와 같이 가상 셀은, 추출한 문자열이 표제 문언과는 함께 되지 않도록 생성된다. 그 생성 후에는, 도 58을 참조하여 설명한 바와 같이, 불필요로 할 문자열은 제외하고, 남은 문자열을 필요에 따라서 통합한다. 그에 의해 도 59의 (a)∼(d)에 도시하는 예에서는, 최종적으로 도 62(a)∼(d)에 도시하는 문자열이 데이터 후보로서 얻어지게 된다. 셀 내 복수 항목 후보 추출 처리는, 그러한 조작을 실현시킨다.
우선, 스텝 S351에서는, 변수 HKm에 표제 문언이 배열되는 방향을 나타내는 값을 대입한다. 그 대입 후에는 스텝 S352로 이행한다.
스텝 S352∼S356은, 표제 문언 이외에 대상 셀 내로부터 추출된 문자열의 수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 스텝 S352∼S358 중에서 스텝 S353∼S358은 표제 문언수만큼, 반복하여 실행되는 처리 루프를 형성하고 있다. 그에 의해, 주목하는 문자열을 변경하면서, 문자열마다 각 표제 문언을 고려하여 데이터로서의 평가를 행한다. 여기서는 주목하는 문자열은 「대상 문자열」이라고 표기한다.
우선, 스텝 S352에서는, 대상 문자열이 프리프린트이면 제거한다. 다음으로 이행하는 스텝 S353에서는, 표제 문언으로 입력되는 데이터에 첨부될 가능성이 있는 부대 기호만으로 대상 문자열이 구성되어 있는지의 여부를 판정한다. 그 부대 기호만이 대상 문자열로서 존재하는 경우, 판정은 '예'로 되어, 스텝 S354에서 부대 기호의 존재를 설정한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판 정은 '아니오'로 되어 스텝 S355로 이행한다.
스텝 S355에서는, 대상 문자열의 속성을 표제 문언으로 입력되는 데이터의 속성과 비교한다. 그들의 속성이 동일한 경우, 그 취지가 판정되어, 스텝 S356에서 이전의 문자열과 거리가 가까운지의 여부를 판정한다. 그것과 거리가 가까운 경우, 판정은 Yes로 되고, 스텝 S357에서 전행의 계속의 문자열로 되기 때문에, 이것과 통합한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 스텝 S358에서 대상 문자열을 새롭게 데이터 후보로 설정한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 일련의 처리를 종료한다. 그에 의해, 표제 문언별로, 대상 문자열을 데이터 후보로 할지의 여부의 확인을 행하고, 그 확인이 종료됨으로써 스텝 S361로 이행한다.
스텝 S361에서는, 문자열 중의 데이터 후보의 유무를 판정한다. 어느 하나의 문자열이 데이터 후보로 되어 있던 경우, 데이터 후보는 있다고 판정되어, 스텝 S362로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 스텝 S368로 이행한다.
스텝 S362에서는, 데이터 후보와 그것에 대응짓고 있는 표제 문언의 배열 관계를 나타내는 정보를 획득한다. 다음의 스텝 S363에서는, 표제 문언과 데이터 후보가 배열되는 방향을 판정한다. 도 59의 (d)에 도시하는 바와 같이 그들이 모두 동일한 방향으로 배열되어 있었던 경우, 배열은 동일하다고 판정되어, 스텝 S364에서 표제 문언용의 가상 셀을 도 61의 (d)에 도시하는 바와 같이 생성한 후, 스텝 S365로 이행한다. 그렇지 않은 경우에는, 즉 도 59의 (a)∼(c) 중 어느 하나와 같 이 표제 문언과 데이터 후보가 배열되어 있었던 경우에는, 배열되는 방향은 수직이라고 판정되어, 스텝 S365로 이행한다.
스텝 S365에서는, 도 61의 (a)∼(c) 중 어느 하나에 도시하는 바와 같이 가상 셀을 생성한다. 계속되는 스텝 S366에서는, 대상 셀 내의 문자열을 행마다 평가하기 위한 점수 DTnm의 초기값으로서, 상기 동일 셀 내 데이터점을 설정한다. 다음으로 이행하는 스텝 S367에서는, 표제 문언수만큼, 도 16의 셀 내 항목 후보 추출 처리를 실행한다. 그 실행 후, 이 셀 내 복수 항목 후보 추출 처리를 종료한다. 그 셀 내 항목 후보 추출 처리에서 대상으로 하는 셀은, 표제 문언을 포함하고 있지 않은 셀이다.
도 18은, 도 11에 도시하는 제1 논리 구조 해석 처리 내에서 스텝 S183으로서 실행되는 우측 항목 후보 추출 처리의 플로우차트이다. 다음으로 도 18을 참조해서, 그 추출 처리에 대해서 상세하게 설명한다.
우선, 스텝 S401에서는, 대상 셀 내에 표제 문언은 1개만인지의 여부를 판정한다. 2개 이상의 표제 문언이 존재하고 있는 경우, 판정은 '아니오'로 되어 스텝 S408로 이행한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S402로 이행한다.
스텝 S402에서는, 표제 문언이 포함되는 대상 셀의 우측에 복수의 셀이 존재하는 것의 유무를 판정한다. 그 복수의 셀이 존재하는 경우에는, 판정은 있음으로 되어 스텝 S403으로 이행한다. 그렇지 않은 경우에는, 판정은 없음으로 되어, 여기서 우측 항목 후보 추출 처리를 종료한다.
우측에 있는 복수의 셀은 모두 동일한 형상이라고는 할 수 없다. 또한, 동일한 라인 상에 정확하게 일치하고 있다라고도 할 수 없다. 이것으로부터, 도 63∼도 65에 도시하는 바와 같이 본 실시예에서는, 복수의 셀의 형상이나 및 배열에 따라서, 비교적 평균으로부터 상이한 셀(사다리 셀)을 추출해서 보정하도록 하고 있다. 스텝 S403에서는, 그 보정을 실현시키는, 사다리 셀 추출 처리를 실행한다. 그 실행 후에는, 스텝 S404에서 대상 셀 내의 문자열을 행마다 평가하기 위한 점수 DTnm의 초기값으로서, 미리 정한 우측 복수 셀 내 데이터점을 설정하고, 스텝 S405에서 도 16의 셀 내 항목 후보 추출 처리를 실행한다. 그 실행 후, 이 우측 항목 후보 추출 처리를 종료한다.
도 58과 같이, 표제를 포함하는 셀 내에 데이터 후보로 되는 문자열이 존재할 가능성이 있기 때문에, 상기 스텝 S401의 판정이 '예'로 된 경우, 스텝 S406 및 S407이 실행된다. 그 스텝 S406에서는, 대상 셀 내의 문자열을 행마다 평가하기 위한 점수 DTnm의 초기값으로서, 미리 정한 우측 셀 내 데이터점을 설정하고, 스텝 S407에서 도 16의 셀 내 항목 후보 추출 처리를 실행한다. 그 실행 후, 이 우측 항목 후보 추출 처리를 종료한다. 이와 같이 점수 DTnm의 초기값을 변화시켜 셀 내 항목 후보 추출 처리를 실행하는 것은, 대상 셀의 우측에 셀이 복수 배열되어 있는지의 여부에 따라, 대상 셀 내에 데이터 후보로 되는 문자열이 존재할 확률이 상이하기 때문이다.
상기 스텝 S401의 판정이 '아니오'로 되어 이행하는 스텝 S408에서는, 대상 셀 내의 문자열을 행마다 평가하기 위한 점수 DTnm의 초기값으로서, 미리 정한 우 측 셀 내 복수 데이터점을 설정한다. 계속되는 스텝 S409에서는, 도 17의 셀 내 복수 항목 후보 추출 처리를 실행한다. 그 실행 후, 이 우측 항목 후보 추출 처리를 종료한다.
도 19는, 도 11에 도시하는 제1 논리 구조 해석 처리 내에서 스텝 S185로서 실행되는 하측 항목 후보 추출 처리의 플로우차트이다.
이 추출 처리에서는, 점수 DTnm에 설정하는 초기값 등이 상이한 것 이외에, 상술한 우측 항목 후보 추출 처리와 마찬가지이다. 이 때문에, 상세한 설명은 생략한다. 스텝 S453으로 이행하는 것은, 표제 문언과 데이터의 위치 관계가 도 34의 (4)에 도시하는 바와 같은 것으로 되어 있는 경우이다.
여기서 도 18 및 도 19의 스텝 S403 및 S453으로서 실행되는 사다리 셀 추출 처리에 대해서, 도 20에 도시하는 플로우차트를 참조해서 상세하게 설명한다.
우선, 스텝 S501에서는, 표제 문언이 셀 내에 있는지의 여부를 판정한다. 표제 문언의 셀이 생성되어 있지 않은 경우, 판정은 '아니오'로 되어 스텝 S507로 이행한다. 그렇지 않은 경우에는, 판정은 '예'로 되어 스텝 S502로 이행한다.
스텝 S502에서는, 변수 Hmd에 표제 문언의 셀의 높이를 대입한다(도 64A의 (a)). 계속되는 스텝 S503에서는, 각 셀의 높이로부터 평균의 높이를 산출하고, 그 다음의 스텝 S504에서는 각 셀의 폭으로부터 평균의 폭을 산출한다. 평균의 높이 및 폭의 산출은, 예를 들면 각 셀의 높이 및 폭을 이용해서 평균을 구하고, 그 평균으로부터 크게 상이한 셀을 제외한 셀만을 이용해서 재차 평균을 구함으로써 행한다. 그와 같이 해서 높이 및 폭의 평균을 구한 후, 스텝 S505로 이행한다.
스텝 S505에서는, 산출한 평균의 높이 및 폭을 이용해서, 보정할 셀의 크기를 보정하고, 보정한 셀의 범위에, 마진분인 문자 존재 범위를 부가한다. 다음의 스텝 S506에서는, 보정한 셀의 범위에 문자 존재 범위를 부가해서 얻어지는 영역을 사다리 셀 범위로서 산출한다. 그 후, 사다리 셀 추출 처리를 종료한다.
상기 스텝 S501의 판정이 '아니오'로 되어 이행하는 스텝 S507에서는, 표제 문언의 우측의 셀의 유무를 판정한다. 그 우측에 셀이 존재하지 않는 경우, 판정은 없음으로 되어 스텝 S508로 이행한다. 그렇지 않은 경우에는, 판정은 있음으로 되어, 스텝 S503으로 이행해서, 그 우측의 셀(그 셀의 더 우측에 위치하는 1개 이상의 셀이 있으면 그들 셀을 포함함)로부터 (평균의) 높이를 산출한다. 그 후에 이행하는 스텝 S504이어도 마찬가지로 해서 (평균의) 셀의 폭을 산출한다. 그 후에 스텝 S505로 이행함으로써, 도 64A의 (c) 혹은 도 64B의 (c)에 도시하는 바와 같은 조작이 실현된다.
스텝 S508에서는, 표제 문언의 문자의 높이 Hmdm을 기준으로 해서 정한, 데이터로서 입력되는 문자의 크기의 상정 범위를 나타내는 계수를 그 높이 Hmdm에 승산하고, 그 승산 결과를 변수 Hmd에 대입한다. 다음의 스텝 S509에서는, 부대 정보, 즉 부대 기호 및 그 위치 및 우측에 위치하는 표제 문언의 셀로부터, 데이터라고 간주하는 범위의 종단의 검지를 행한다. 또한, 셀 높이가 상하 모두 양방 비어져 나와 있는 경우(도 64B의 (a)의 7) 양방 비어져 나옴), 데이터라고 간주하는 범위의 종단으로 하는 검지를 행한다. 그 검지를 행한 후에는, 스텝 S510에서 가상 셀을 생성한 후, 스텝 S505로 이행한다. 그에 의해, 도 65에 도시하는 바와 같은 조작을 실현시킨다.
도 11에 도시하는 제1 논리 구조 해석 처리 내에서 실행되는 서브 루틴 처리의 설명으로 되돌아간다.
도 21은, 도 11에 도시하는 제1 논리 구조 해석 처리 내에서 스텝 S194로서 실행되는 연기 항목 후보 추출 처리의 플로우차트이다. 다음으로 도 21을 참조해서, 그 추출 처리에 대해서 상세하게 설명한다.
우선, 스텝 S551에서는, 대상 셀 내에 표제 문언은 1개만인지의 여부를 판정한다. 표제 문언이 1개만이었던 경우, 판정은 '예'로 되어 스텝 S558로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S552로 이행한다.
스텝 S552에서는, 표제 문언이 가로로 배열되어 있는지의 여부를 판정한다. 표제 문언이 배열되어 있는 방향이 가로이었던 경우, 판정은 '예'로 되어 스텝 S556으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S553으로 이행한다.
스텝 S553에서는, 대상으로 하는 표제 문언의 셀이 존재하는 행을 특정하고, 다음의 스텝 S554에서는, 그 행의 데이터라고 간주하는 문자열을 추출한다. 그 후에는 스텝 S555로 이행해서, 도 17에 도시하는 셀 내 복수 항목 후보 추출 처리를 실행한 후, 이 연기 항목 후보 추출 처리를 종료한다. 스텝 S556으로 이행한 경우에는, 그 스텝 S556에서 대상으로 하는 표제 문언의 셀이 존재하는 열을 특정하고, 다음의 스텝 S557에서 그 열의 데이터라고 간주하는 문자열을 추출하고 나서, 이 스텝 S555로 이행한다. 그에 의해, 도 66∼도 68의 (b)∼(f)에 도시하는 바와 같 은 조작이 실현된다.
상기 스텝 S551의 판정이 '예'로 되어 이행하는 스텝 S558에서는, 도 16에 도시하는 셀 내 항목 후보 추출 처리를 실행한다. 그 실행에 의해, 도 66∼도 68의 (a)∼(c)에 도시하는 바와 같은 조작이 실현된다.
스텝 S558에 계속되는 스텝 S559에서는, 표제 항목이 배열되는 방향과 동일한 방향으로 배열되어 있는 표제 항목(셀)수분의 데이터 셀에 상당하는 전체 명세 중에, 그 배열되어 있는 방향과 직교하는 방향으로 복수의 데이터가 존재하는 것이 있는지의 여부를 판정한다. 복수행 혹은 복수열에 걸쳐 문자열이 존재하는 데이터 셀이 있는 경우, 판정은 '예'로 되어, 스텝 S560에서 데이터가 1행 혹은 1열로 되도록 명세를 분할한 후, 이 연기 항목 후보 추출 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 추출 처리를 종료한다. 도 69는, 명세 분할을 설명하는 도면으로서, 도 69에 도시하는 바와 같은 조작은 스텝 S560의 실행에 의해 실현된다.
도 22는, 도 11에 도시하는 제1 논리 구조 해석 처리 내에서 스텝 S186으로서 실행되는 항목 해석 필요 여부 판정 처리의 플로우차트이다. 마지막으로 도 22를 참조해서, 그 판정 처리에 대해서 상세하게 설명한다. 이 판정 처리는, 문자 인식부(16)로부터, 문자의 인식의 정확도를 나타내는 문자 확신도, 문자의 수기 활자 판별률 TK를 전체 문자분 취득해서 실행된다. 도면 중 「MJth」 「TKth」는 각각, 문자 인식이 정확하다고 간주하는 문자 확신도의 임계값, 수기인지의 여부를 판별하기 위한 임계값을 나타내고 있다.
이 판정 처리에서는, 각 데이터 후보에는 대응지어지는 표제 문언이 존재하기 때문에, 스텝 S601∼S605는 데이터 후보수만큼 반복해서 실행된다. 스텝 S601∼S605 중에서 스텝 S601은, 대상으로 하는 표제 문언의 문자수만큼 반복해서 실행된다. 그에 의해, 각 표제 문언에서는, 그 표제 문언을 구성하는 문자 중에서 문자 확신도가 임계값 MJth보다 낮은 것이 존재하는 것, 틀에 접촉하고 있는 문자가 있는 것, 가타카나의 「ル」를 「ノ」와 「レ」로 분리하는 등과 같이, 구성 요소를 분리시켜도 인식 가능한 문자가 있는 것, 및 수기 활자 판별률 TK가 임계값 TKth보다 작은 문자가 있는 것 중 어느 하나의 조건을 충족시키고 있는 경우, 항목 해석은 필요로 된다. 또한, 도 20에 도시하는 사다리 셀 추출 처리를 실행한 경우에도 필요로 된다. 이것으로부터, 필요로 하는 항목 해석을 항목 해석부(21)에 실행시켜, 보다 정밀도가 높은 표제 문언의 인식 결과가 논리 구조 해석(항목 확정)부(22)에 전달되게 된다.
도 23은, 논리 구조 해석(항목 확정)부(22)가 실행하는 제2 논리 구조 해석 처리의 플로우차트이다. 다음으로 도 23을 참조해서, 그 해석 처리에 대해서 상세하게 설명한다. 도면 중 「DTmin」 「HKT」 「εm」 「εd」 및 「Jn」은 각각, 데이터일 것 같음의 최저점, 즉 데이터라고 간주하는 득점 DTnm의 임계값, 표제 문언의 최종적인 평가점, 평가점을 산출하기 위해서 표제 득점 MTn에 승산되는 계수, 평가점을 산출하기 위해서 득점 DTnm에 승산되는 계수, 상위 데이터 후보수를 각각 나타내고 있다.
스텝 S651∼S664는, 1표제 문언마다, 그 데이터 후보수만큼 반복해서 실행되 는 처리 루프를 형성하고 있다. 그에 의해, 평가점은 모든 데이터 후보를 고려해서 산출하도록 되어 있다.
우선, 스텝 S651에서는, 대상으로 하는 표제 문언에 대응지은 셀에 데이터 후보가 미기입으로 되어 있는지의 여부를 판정한다. 그 데이터 후보가 미기입이었던 경우, 판정은 '예'로 되어, 스텝 S652에서 최종 평가점 HKT를 산출하고, 또한 스텝 S653에서 데이터 후보가 미기입인 것을 등록한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S654로 이행한다. 스텝 S652에서의 최종 평가점 HKT의 산출은, 표제 득점 MTn에 계수 εm을 승산하고, 그 승산 결과에 미리 정한 미기입 데이터점을 가산(=MTn*εm+미기입 데이터점)함으로써 행하여진다.
스텝 S654에서는, 대상 표제 문언에 대한 항목 해석의 실시의 유무를 판정한다. 도 11의 스텝 S189에서 실행한 항목 해석 처리에서 대상 표제 문언의 항목 해석을 행하고 있었던 경우, 항목 해석은 행하였다고 판정되어, 스텝 S655로 이행한다. 그렇지 않은 경우에는, 그 취지가 판정되어, 스텝 S664로 이행한다. 이것으로부터, 스텝 S655∼S663에서는, 항목 해석의 결과를 반영시키기 위한 처리가 실행된다.
스텝 S655에서는, 득점 DTnm은 임계값 DTmin보다 작은지의 여부를 판정한다. 그 대소 관계가 성립하고 있었던 경우, 판정은 '예'로 되어, 스텝 S656으로 이행해서, 데이터가 존재하지 않는 것을 나타내기 위한 취소선으로 하는 데이터 후보로서 등록한 후, 일련의 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S657로 이행하여, 대상으로 하는 데이터 후보에 항목 해석에 의해 부대 기호가 복원되었는지의 여부를 판정한다. 데이터 후보에 첨부된 부대 기호의 존재가 항목 해석에 의해 판명된 경우, 판정은 '예'로 되어 스텝 S658로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S661로 이행한다.
스텝 S658에서는, 복원된 부대 기호는 올바른지의 여부를 판정한다. 대상 표제 문언으로부터 특정되는 부대 기호와는 상이하거나, 부대 기호의 위치가 상이하다는 등의 이유로 부대 기호가 올바르지 않은 경우, 판정은 '아니오'로 되어, 스텝 S660에서 득점 DTnm을 갱신하고 나서 스텝 S661로 이행한다. 그 어느 쪽도 아닌 경우에는, 판정은 '예'로 되어, 스텝 S659에서 득점 DTnm을 갱신하고 나서 스텝 S661로 이행한다. 스텝 S660 및 S659에서의 득점 DTnm의 갱신은 각각, 지금까지의 값에 미리 정한 부대점을 감산 및 가산함으로써 행하여진다. 그에 의해, 부대 기호가 올바르면 득점 DTnm을 보다 높게 하고, 올바르지 않으면 득점 DRnm을 낮추도록 하고 있다.
스텝 S661에서는, 기입된 데이터 후보의 속성은 대상 표제 문언으로부터 특정되는 속성과 일치하고 있는지의 여부를 판정한다. 그들의 속성이 일치하고 있는 경우, 판정은 OK로 되고, 스텝 S663에서 득점 DTnm을 갱신한 후, 스텝 S664로 이행한다. 그렇지 않은 경우에는, 판정은 NG로 되고, 스텝 S662에서 득점 DTnm을 갱신하고 나서 그 스텝 S664로 이행한다. 스텝 S663 및 S662에서의 득점 DTnm의 갱신은 각각, 지금까지의 값에 미리 정한 속성 OK점을 가산 및 감산함으로써 행하여진다. 그에 의해, 속성에 문제가 없으면 득점 DTnm을 보다 높게 하고, 문제가 있으 면 득점 DRnm을 낮추도록 하고 있다.
스텝 S664에서는, 평가점 HKT의 산출을 행한다. 그 산출은, 표제 득점 MTn에 계수 εm을 승산한 결과에, 득점 DTnm과 계수 εd의 승산 결과를 가산(=MTn*εm+DTnm*εd)함으로써 행하여진다. 그 산출을 행한 후에 일련의 처리가 종료된다.
상술한 바와 같은 처리를 표제 문언마다 데이터 후보 수만큼 실행한 후에 이행하는 스텝 S665에서는, 장표의 종별이 연기인지의 여부를 판정한다. 그 종별이 연기이었던 경우, 판정은 '예'로 되어 스텝 S674로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S666으로 이행한다.
스텝 S665로 이행한 시점에서는, 각 표제 문언의 평가점 HKT는 모두 산출 완료로 되어 있다. 그에 의해 스텝 S666에서는, 대표 표제마다 표제 문언을 평가점 HKT순으로 소트한다. 다음의 스텝 S667에서는, 평가점 HKT순의 소트에 맞추어, 상위 Jn위까지의 표제 문언에 대응지어진 데이터 후보를 추출한다. 그 후에는 스텝 S668로 이행해서, 추출한 데이터 후보 중에 상이한 대표 표제에 대응지어지는 데이터 후보가 중복되어 있는지의 여부를 판정한다. 그 데이터 후보의 중복이 발생하고 있었던 경우, 판정은 '예'로 되어 스텝 S671로 이행하여, 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 해석 처리를 종료한다.
상술한 바와 같이, 각 명세 범위(관련하는 데이터 입력용의 표 구조)에서는 대표 표제는 중복되지 않도록 논리 구조 해석 DB(25)를 작성하고 있다. 이것으로부터 데이터 후보의 중복은, 스텝 S666에서 행한 표제 문언의 소트에 부적절한 개소가 존재하는 것을 의미한다.
스텝 S671에서는, 중복되어 있는 데이터 후보에 각각 대응지어진 표제 문언은 동위인지의 여부를 판정한다. 그들 표제 문언의 평가점 HKT가 동일한 값이었던 경우, 판정은 '예'로 되어, 스텝 S672에서 표제 득점 MTn이 큰 쪽을 상위로 하고, 계속되는 스텝 S673에서 상위 쪽에는 평가점 HKT의 가점, 하위 쪽에는 평가점 HKT의 감점을 행한 후, 스텝 S669로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 그 스텝 S672로 이행하여, 중복되는 데이터 후보에 각각 대응지어진 표제 문언의 평가점 HKT를 갱신한다.
상술한 바와 같은 갱신에 의해, 중복되는 데이터 후보가 모두 선택될 가능성이 저감된다. 그에 의해, 문제점이 발생하는 것은 억제되게 된다.
스텝 S669에서는, 평가점 HKT의 조작을 행하였기 때문에, 재차 평가점 HKT순으로 표제 문언의 소트를 행한다. 그 다음으로 이행하는 스텝 S670에서는, 평가점 HKT순의 재소트에 맞추어, 상위 Jn위까지의 표제 문언에 대응지어진 데이터 후보를 재추출한다. 그 후에, 이 해석 처리를 종료한다.
상기 스텝 S665의 판정이 '예'로 되어 이행하는 스텝 S674에서는, 1명세의 모든 셀에서 속성이 NG이었었는의 여부를 판정한다. 1명세의 모든 셀에 데이터 후보로 될 수 있는 문자열이 존재하지 않는 경우, 예를 들면 기입한 데이터가 무효인 것을 나타내기 위해서 데이터 상에 선을 긋거나, 오염 등 때문에 데이터를 기입하지 않았거나, 혹은 낙서와 같은 기입이 있는 등과 같은 경우, 그 모든 셀에서 상기 스텝 S655의 판정이 '예'로 된다. 즉 도 70에 도시하는 바와 같이, 1명세의 모든 셀이 취소선의 후보로 된다. 이 때문에, 그러한 경우, 판정은 '예'로 되어, 스텝 S675에서 1명세의 모두를 취소선으로 삭제한 후, 이 해석 처리를 종료한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 여기서 이 해석 처리를 종료한다.
도 71은, 상기 제2 논리 구조 해석 처리의 실행에 의해 얻어지는 인식 결과를 설명하는 도면이다. 도 71은 단표를 예로 들어 인식 결과를 설명하는 것이다. 도 71의 (a)는 입력된 장표 화상으로서, 문자 「괴」 및 「액」이 인식 불가능하게 되어 있는 것을 나타내고 있다. 도 71의 (b)는 표제 득점 MTn으로부터 추출되는 표제 문언이 「금?」 「금?」 및 「금)」인 것을 나타내고 있다. 도 71의 (c)는 문자 「괴」를 인식할 수 없기 때문에 「금?」이라고 취급되는 표제 문언에서 대응짓기 가능한 데이터 후보를 나타내고 있다. 도 71의 (d)는, 대응짓기 가능한 데이터 후보 「○○○엔」에 의해 표제 문언 「금?」이 대표 표제 「금액」으로 인식되고, 그 데이터가 「○○○엔」으로 확정된 것을 나타내고 있다.
도 72는 실제의 장표의 인식 결과를 도시하는 도면이다. 도 72의 (a)∼(f)는 각각, 서로 다른 장표에서의 인식 결과를 도시하고 있다. 그 도 72의 (a)∼(f)로부터, 대응 관계를 포함시켜, 표제 문언, 그 데이터를 정확하게 인식할 수 있는 것을 알 수 있다.
도 73은, 도 1에 도시하는 본 실시예에 따른 장표 인식 장치를 실현 가능한 컴퓨터의 구성도이다.
도 73에 도시하는 컴퓨터는, CPU(61), 메모리(62), 입력 장치(63), 출력 장치(64), 외부 기억 장치(65), 매체 구동 장치(66), 및 네트워크 접속 장치(67)를 갖고, 이들이 버스(68)에 의해 서로 접속된 구성으로 되어 있다. 도 73에 도시하 는 구성은 일례이며, 이것에 한정되는 것은 아니다.
CPU(61)는, 그 컴퓨터 전체의 제어를 행한다.
메모리(62)는, 프로그램 실행, 데이터 갱신 등의 시에, 외부 기억 장치(65)(혹은 가반형의 기록 매체 MD)에 기억되어 있는 프로그램 혹은 데이터를 일시적으로 저장하는 예를 들면 RAM이다. CPU(61)는, 프로그램을 메모리(62)에 읽어내어 실행함으로써, 전체의 제어를 행한다.
입력 장치(63)는, 예를 들면, 키보드, 마우스 등의 입력 장치, 혹은 스캐너 등의 화상 판독 장치와 접속된 인터페이스이다. 입력 장치에 대한 유저의 조작을 검출하고, 그 검출 결과를 CPU(61)에 통지한다.
출력 장치(64)는, 예를 들면 표시 장치와 접속된 표시 제어 장치, 혹은 그들을 갖는 것이다. CPU(61)의 제어에 의해 보내어져 오는 데이터를 표시 장치 상에 출력시킨다.
네트워크 접속 장치(67)는, 예를 들면 인트라넷이나 인터넷 등의 네트워크를 통해서, 외부 장치와 통신을 행하기 위한 것이다. 그 외부 장치는, 화상 판독 장치이어도 되고, 그 화상 판독 장치와 접속된 것이어도 된다. 외부 기억 장치(65)는, 예를 들면 하드디스크 장치이다. 주로 각종 데이터나 프로그램의 보존에 이용된다.
기억 매체 구동 장치(66)는, 광 디스크나 광 자기 디스크 등의 가반형의 기록 매체 MD에 액세스하는 것이다.
본 실시예에 따른 장표 인식 장치(1)는, 그것에 필요한 기능을 탑재한 프로 그램(이후 「장표 인식 소프트」라고 부름)을 CPU(61)가 실행함으로써 실현된다. 그 인식 소프트는, 기록 매체 MD에 기록해서 배포해도 되거나, 혹은 네트워크 접속 장치(67)에 의해 취득할 수 있도록 해도 된다. 여기서는, 외부 기억 장치(65)에 인식 소프트 및 논리 구조 해석 DB(25)가 모두 저장되어 있다고 상정한다.
상술한 바와 같은 상정에서는, 입력부(11)는 예를 들면 CPU(61), 메모리(62), 입력 장치(63), 외부 기억 장치(65), 네트워크 접속 장치(67), 및 버스(68)에 의해 실현된다. 출력부(23)는, 예를 들면 CPU(61), 메모리(62), 출력 장치(64), 외부 기억 장치(65), 네트워크 접속 장치(67), 및 버스(68)에 의해 실현된다. 데이터베이스 축적부(24)는, 예를 들면 CPU(61), 메모리(62), 외부 기억 장치(65), 및 버스(68)에 의해 실현된다. 메모리(26)는 외부 기억 장치(65)에 상당한다. 다른 것은, 예를 들면 CPU(61), 메모리(62), 외부 기억 장치(65), 및 버스(68)에 의해 실현된다.
도 74는, 본 실시예에 따른 데이터베이스 작성 장치의 기능 구성도이다.
상기 장표 인식 장치(1)는, 논리 구조 해석 DB(25)를 참조해서, 장표의 인식을 행한다. 이 데이터베이스(DB) 작성 지원 장치(700)는, 그 해석 DB(25)의 작성을 지원하기 위한 것이다.
논리 구조 해석 DB(25)에서는, 표제 문언을 계층 구조로 관리함과 함께, 관련되는 데이터의 입력에 이용하는 것이 가능한 표 구조(단위표 구조)로 관리한다. 그에 의해, 장표 상, 1개의 표로서 취급되는 범위(명세 범위(표제 DR·GR 영역))의 인식은, 표 구조로 관리하는 정보를 이용해서 행할 수 있도록 되어 있다.
계층 구조로의 관리에서는, 표제 문언으로서 생각되는 문자열을 정의하고, 그 상위에 동일한 표 구조로는 중복되지 않는 배타 관계를 갖는 대표 표제를 정의하고, 그 상위에 표제 DR 혹은 GR을 정의한다. 동일한 대표 표제가 할당된 표제 문언에서는, 그 표제 문언으로 입력되는 데이터에 관계되는 데이터 정보를 공유화시킨다. 그러한 계층 구조를 채용함으로써, 표 구조를 등록하지 않아도, 표 구조 내의 표제 문언과 입력된 데이터의 대응 관계를 고정밀도로 인식할 수 있다. 또한, 표제 문언을 인식할 수 없어도, 그 표제 문언의 대체로 되는 대표 표제(논리적인 정합성이 유지되는 표제 문언)를 이용할 수 있다. 그에 의해, 표제 문언을 올바르게 인식할 수 없어도, 논리적으로 대표 표제를 이용한 적절한 해석을 행할 수 있도록 되어 있다. 인식할 수 없는 부분이 존재하고 있었다고 해도, 그 부분을 정확하게 추정할 수도 있다. 따라서, 문자 인식의 정밀도가 낮은 것에 의한 악영향은 억제되게 되어, 논리적으로 적절한 해석은 보다 고정밀도로 행할 수 있게 된다. 표제 문언이 적은 표 구조로는, 표기되어 있지 않은 표제 문언(대표 표제 등)을 추가하여, 장표의 내용을 보다 용이하게 이해할 수 있도록 할 수도 있다. 이들로부터, 표 구조의 등록은 하지 않아도 된다고 하는 것 외에, 장표 인식을 적절하게 행할 수 있는 장표의 범위가 넓고(오염이나 구김 등에 의한 악영향을 저감할 수 있음), 장표 상에 없는 정보까지 제공 가능하다고 하는 효과가 얻어지게 된다. 이들은, 상술한 장표 인식 장치(1)의 설명에 의해 명확하다.
이러한 것을 가능하게 하는 해석 DB(25)의 작성을 지원하는 작성 지원 장치(700)는, 도 74에 도시하는 바와 같이, 표제 문언이나 데이터 정보 등의 입력에 이용되는 표제·데이터 정보 입력부(701)와, 입력된 표제 문언 및 데이터 정보로부터 대표 표제를 작성하는 대표 표제 작성부(702)와, 계층간의 표제 관계의 입력에 이용되는 표제 관계 입력부(703)와, 입력한 표제 관계로부터 계층마다 표제 문언을 생성하는 표제 관계 생성부(704)와, 논리 구조 해석 DB(25)에 대하여, 입력한 정보나 생성한 정보를 출력해서 등록하는 DB 출력부(705)를 구비하고 있다.
그들 각 부(701∼705)는, 도 73에 도시하는 구성에서 각 부(701∼705)를 실현시키는 프로그램 및 논리 구조 해석 DB(25)가 외부 기억 장치(65)에 저장되어 있다고 하는 상정에서는, 표제·데이터 정보 입력부(701), 표제 관계 입력부(704) 및 DB 출력부(705)는 모두, 예를 들면 CPU(61), 메모리(62), 입력 장치(63), 외부 기억 장치(65), 네트워크 접속 장치(67), 및 버스(68)에 의해 실현된다. 그들 이외에는, 예를 들면 CPU(61), 메모리(62), 외부 기억 장치(65), 및 버스(68)에 의해 실현된다.
도 75는, 대표 표제를 작성하는 처리의 흐름을 설명하는 플로우차트이다. 다음으로 도 75를 참조해서, 대표 표제를 작성할 때까지의 오퍼레이터의 조작, 및 그 조작에 따라서 실행되는 처리에 대해서 상세하게 설명한다. 그 도 75에서는, 설명상, 편의적으로 1표 구조(베리에이션을 포함함)분의 정보를 해석 DB(25)에 등록하는 것을 상정해서 처리의 흐름을 도시하고 있다. 이것은, 후술하는 도 76에서도 마찬가지이다.
우선, 스텝 S701에서는, 오퍼레이터가 입력을 지시한 표제 문언을 읽어들인다. 다음의 스텝 S702에서는, 오꾸리가나를 제거한 표제 문언을 자동적으로 추가 한다. 그 다음의 스텝 S703에서는, 표제 문언을 문자 단위로 소트한다. 그 소트 후에 이행하는 스텝 S704에서는, 입력된 표제 문언 중으로부터 대표 표제를 가설정한다. 그 가설정한 대표 표제를 예를 들면 표시 장치 상에 표시시킨 후, 스텝 S705로 이행한다.
오퍼레이터는 가설정의 대표 표제를 확인하고, 필요에 따라서 수정을 행한다. 그에 의해 스텝 S705에서는, 오퍼레이터의 지시에 따라서, 대표 표제의 가설정을 필요에 따라서 변경한다. 그 변경의 종료를 오퍼레이터가 지시함으로써 스텝 S706으로 이행하여, 대표 표제를 확정시킨다. 그 후의 스텝 S707∼S710에서는, 표제 문언수만큼, 표제 위치 및 데이터 정보의 입력, 입력한 정보의 설정 등을 행한다. 그러한 정보의 입력·설정이 종료됨으로써 스텝 S711로 이행한다. 그 이행 시에는, 논리 구조 해석 DB(25)에 저장되는 정보로서, 도 77의 (a)에 도시하는 바와 같은 것이 축적된다.
스텝 S711에서는, 대표 표제간에서의 문언이 중복되어 있는지의 여부를 판정한다. 중복되어 있는 문언이 존재한 경우, 판정은 '예'로 되어, 스텝 S712로 이행해서, 중복되어 있는 문언의 확인 및 필요에 따른 수정을 오퍼레이터에 요구한다. 그에 의해, 그 요구에 따른 대응을 오퍼레이터가 행함으로써 스텝 S713으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 그 스텝 S713으로 이행한다. 도 77은 중복되어 있는 문언의 예를 도시하고 있다.
스텝 S713에서는, 표 형식의 정의를 행할지의 여부를 판정한다. 그 정의를 행해야 하였던 경우, 판정은 '예'로 되어, 스텝 S714에서 표 형식의 입력을 오퍼레 이터에 재촉하여, 그 입력을 행한다. 그 입력 후에는 스텝 S715에서 표 형식을 정의하고 나서 스텝 S716으로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 그 스텝 S716으로 이행한다.
도 78은, 표 형식의 정의 및 그 정의에 대응하는 장표 디자인(표 구조)을 설명하는 도면이다. 도 78에서는, 예를 들면 도 78의 (a-1)은 도 78의 (b-1)에 대응하고 있고, 그 대응 관계는 괄호 내의 수치로 나타내고 있다. 도 78에 도시하는 바와 같이, 정의하는 표 형식은 1개 이상의 장표 디자인에 대응 가능하게 되어 있다.
스텝 S716에서는, 데이터 정형을 행할지의 여부를 판정한다. 그 데이터 정형을 행해야 하였던 경우, 판정은 '예'로 되어, 스텝 S717에서 데이터 정형 정보의 입력을 오퍼레이터에 재촉하여, 그 정보의 입력을 행한다. 그 입력 후에는, 스텝 S718에서 데이터 정형을 정의하고, 스텝 S719에서 지금까지 축적한 정보를 해석 DB(25)에 기입한 후, 일련의 처리를 종료한다.
도 79는, 데이터 정형의 정의 및 그 정의에 의해 행하여지는 데이터 정형을 설명하는 도면이다. 도 79의 (a)는 정의 내용, 도 79의 (b-1)∼(b-4)는 각각 장표 디자인마다 행해지는 데이터 정형을 나타내고 있다.
도 76은, 표제 관계를 생성하는 처리의 흐름을 설명하는 플로우차트이다. 다음으로 도 76을 참조해서, 표제 관계를 생성할 때까지의 오퍼레이터의 조작, 및 그 조작에 따라서 실행되는 처리에 대해서 상세하게 설명한다. 그 도 76에서는, 도 75의 처리를 실행함으로써 논리 구조 해석 DB(25)에 저장된 정보가 존재하는 것 을 전제로 한다.
우선, 스텝 S751에서는, 도 80에 유저 입력 데이터로서 도시하는 바와 같이, 오퍼레이터가 입력하는 대표 표제 페어를 읽어들인다. 계속되는 스텝 S752에서는, 중복되는 대표 표제 페어가 있는지의 여부를 판정한다. 대표 표제 페어에 중복되어 있는 것이 있었던 경우, 판정은 '예'로 되어, 스텝 S753에서 1개만을 남기고 다른 것은 삭제한 후, 스텝 S754로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어, 그 스텝 S754로 이행한다.
스텝 S754에서는, 논리 구조 해석 DB(25)로부터 필요한 정보를 읽어들인다. 그 후에 이행하는 스텝 S755에서는, 읽어들인 정보로 정의되어 있는 표제 문언 중에 대표 표제 페어에서 표시되어 있는 것이 있는지의 여부를 판정한다. 표제 문언 중에, 대표 표제 페어에서 대표 표제로 된 것이 있는 경우, 판정은 '예'로 되어, 스텝 S756에서 그 표제 문언을 대표 표제로 수정한 후, 스텝 S757로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 스텝 S757로 이행한다.
대표 표제 페어에서는, 도 80에 유저 입력 데이터로서 도시하는 바와 같이, 2개의 대표 표제의 위치적인 관계를 「상측/좌측」, 및 「하측/우측」의 위치로 지정하도록 되어 있다. 즉 2개의 대표 표제는 서로 다른 위치를 지정하는 형태로 입력된다. 그들의 위치는 상하 관계를 나타내고 있고, 「상측/좌측」은 「하측/우측」보다 상위로 되어 있다. 그에 의해 스텝 S757에서는, 「상측/좌측」의 대표 표제를 우선하는 형태, 즉 「상측/좌측」의 대표 표제는 동일하게 유지한 채로 「하측/우측」의 대표 표제의 전체 종류를 소트한다. 그에 의해 도 80의 유저 입력 데 이터는 소트 후의 상태를 도시하고 있다.
스텝 S757에 계속되는 스텝 S758에서는, 대표 표제간의 관련짓기를 생성한다. 그 관련짓기는, 도 80에 도시하는 바와 같이, 대표 표제간에서 최상위로 할 대표 표제, 최상위의 다음의 상위로 할 대표 표제 등을 특정하는 작업이다. 그에 의해, 번호가 1∼6인 대표 표제 페어에서는, 대표 표제 「불입처」가 최상위로 되고, 다음으로 상위의 대표 표제는 「은행명」 「지점명」 「종목」 및 「계좌 번호」의 4개로 된다. 데이터 위치 순위는, 소트순으로 설정되어 있다. 그와 같이 관련짓기를 생성한 후에는 스텝 S759로 이행한다.
스텝 S759에서는, 관련짓기 중에 모순이 있는지의 여부를 판정한다. 도 80의 유저 입력 데이터에서 번호가 30, 31인 대표 표제 페어에 의해 생성되는 관련짓기는, 2개의 대표 표제간에 2개의 상하 관계가 존재하고 있는 것을 나타내는 것으로 된다. 이 때문에, 그러한 관련짓기는 모순이 존재하는 것으로서, 판정은 '예'로 되어, 스텝 S760에서 모순된 관련짓기의 제시 및 그 수정을 오퍼레이터에 재촉하게 된다. 그 수정, 예를 들면 대표 표제 페어의 재입력을 오퍼레이터가 행함으로써, 오퍼레이터의 수정 결과를 반영시킨 관련짓기를 재생성한 후, 스텝 S760으로부터 스텝 S761로 이행한다.
스텝 S761에서는, 표제 GR 관계를 생성한다. 표제 GR은 대표 표제의 상위에 위치시키는 대표 표제이며, 표제 GR 관계는, 보다 상위의 표제 GR과 그 다음에 상위의 대표 표제의 관계를 가리키고 있다. 도 80에 도시하는 예에서는, 대표 표제 「불입처」는 그것보다도 상위에 위치 결정되는 대표 표제 「수취인」이 존재하기 때문에, 표제 GR로 된다. 표제 DR은 표제 GR보다 더욱 상위에 위치 결정되는 대표 표제이기 때문에, 표제 DR은 「수취인」으로 된다. 그 표제 DR과 그 다음에 상위의 대표 표제의 관계가 표제 DR 관계이다.
스텝 S761에 계속되는 스텝 S762에서는, 생성된 상이한 표제 관계에서 동일한 표제 GR이 존재하는지의 여부를 판정한다. 상이한 표제 관계에서 표제 GR이 중복되어 있었던 경우, 판정은 '예'로 되어 스텝 S763으로 이행하여, 중복되지 않도록 표제 GR, 그 표제 GR로 한 대표 표제를 변경(RENAME)한다. 그 후, 스텝 S764로 이행한다. 그렇지 않은 경우에는, 판정은 '아니오'로 되어 그 스텝 S764로 이행한다.
스텝 S764에서는, 상기 표제 DR 관계를 생성한다. 그 생성 후에는 스텝 S765로 이행해서, 장표 디자인을 작성한다.
도 81은, 표제 GR 관계의 정의에 의해 생성되는 장표 디자인을 설명하는 도면이다. 도 81의 (a-1)∼(a-4)는 각각, 도 81의 (a-1)은 생성된 표제 GR 관계, 도 81의 (a-2)는 생성된 표제 GR 관계에 맞는 장표 디자인의 베리에이션, 도 81의 (a-3)은 실제로 판독된 장표 디자인, 도 81의 (a-4)는 도 81의 (a-3)의 장표 디자인에서 각 대표 표제에 대응지어지는 데이터를 각각 도시하고 있다. 도면 중의 「1」∼「4」는 데이터 위치 순위를 나타내고 있다. 또한 도 81의 (b-1)은 생성된 표제 GR 관계, 도 81의 (b-2)는 생성된 표제 GR 관계에 맞는 장표 디자인의 베리에이션을 각각 도시하고 있다.
도 82는, 표제 GR 관계에 의해 장표 디자인으로부터 생성되는 표제 관계를 설명하는 도면으로서, 도 82의 (a)∼(g)에 각각 상이한 예를 도시하고 있다.
상술한 바와 같이, 표제 문언이 존재하지 않거나, 혹은 인식할 수 없는 것에 의해 표 구조로부터 미검출의 표제 문언이 있었던 경우, 데이터 후보에는 데이터 위치 순위에 따라서 대표 표제가 할당된다. 장표 디자인을 작성하여 오퍼레이터에 확인시키는 것은 이 때문이다. 즉 장표 디자인을 통하여 부적절한 부분을 확인시키기 위해서이다. 생성한 표제 관계는, 상황에 따라, 미검출의 표제 문언에 할당하는 대표 표제의 결정에 이용된다. 도 82에 도시하는 예는 모두, 표제 문언의 인식 결과에 따라서 생성되는 표제 관계이며, 그 표제 관계는 도 1의 논리 구조 해석(항목 후보 추출)부(20)에 의한 수정의 대상으로 된다.
도 83은, 표제 DR 관계의 정의에 의해 생성되는 장표 디자인을 설명하는 도면이다. 도 84는, 표제 DR 관계에 의해 장표 디자인으로부터 생성되는 표제 관계를 설명하는 도면이다. 도 83 및 도 84로부터 명확해지는 바와 같이, 표제 DR 관계에서도 표제 GR 관계와 마찬가지의 것이 실시 가능하게 되어 있다.
또한, 본 실시예에서는, 장표를 대상으로 하고 있지만, 대응지어지는 정보가 표 구조로 배치된 형태로 되어 있는 매체이면 장표 이외의 것이어도 된다. 또한, 세부에 대해서는 다양한 변형이 가능하다.
도 1은 본 실시예에 따른 장표 인식 장치의 기능 구성을 도시하는 도면.
도 2는 표 구조 해석 처리의 플로우차트.
도 3은 키워드 추출 처리의 플로우차트.
도 4는 표제 득점 산출 처리의 플로우차트.
도 5는 코멘트 판정 처리의 플로우차트.
도 6은 장표 종별 판정 처리의 플로우차트.
도 7은 표 구조 판정 처리의 플로우차트.
도 8은 표제 문언 판정 처리의 플로우차트.
도 9는 셀 보정 처리의 플로우차트.
도 10은 무괘선표의 표 구조 해석 처리의 플로우차트.
도 11은 제1 논리 구조 해석 처리의 플로우차트.
도 12는 불판독 표제 복원 처리의 플로우차트.
도 13은 배타 관계 및 데이터 정보에 의한 재추출 처리의 플로우차트.
도 14는 중복 정밀 조사 처리의 플로우차트.
도 15는 DR·GR-표제 문언 정밀 조사 처리의 플로우차트.
도 16은 셀 내 항목 후보 추출 처리의 플로우차트.
도 17은 셀 내 복수 항목 후보 추출 처리의 플로우차트.
도 18은 우측 항목 후보 추출 처리의 플로우차트.
도 19는 하측 항목 후보 추출 처리의 플로우차트.
도 20은 사다리 셀 추출 처리의 플로우차트.
도 21은 연기 항목 후보 추출 처리의 플로우차트.
도 22는 항목 해석 필요 여부 판정 처리의 플로우차트.
도 23은 제2 논리 구조 해석 처리의 플로우차트.
도 24는 장표예를 도시하는 도면(그 1).
도 25는 장표예를 도시하는 도면(그 2).
도 26은 장표예를 도시하는 도면(그 3).
도 27은 장표예를 도시하는 도면(그 4).
도 28은 장표예를 도시하는 도면(그 5).
도 29는 장표예를 도시하는 도면(그 6).
도 30은 장표예를 도시하는 도면(그 7).
도 31은 동일한 위치를 갖는 표제 문언의 베리에이션을 도시하는 도면.
도 32는 동일한 표기의 표제 문언의 디자인에 의해 변화하는 의미를 설명하는 도면.
도 33은 계좌 번호를 입력시키는 표 구조의 베리에이션을 도시하는 도면.
도 34는 표제 문언과 그것에 대응하는 데이터의 위치 관계예를 설명하는 도면.
도 35는 표제 GR 및 표제 DR에 주목한 표 구조의 베리에이션을 도시하는 도면(그 1).
도 36은 표제 GR 및 표제 DR에 주목한 표 구조의 베리에이션을 도시하는 도 면(그 2).
도 37은 표 구조 해석 처리를 실행함으로써 행하여지는 해석 내용을 설명하는 도면(그 1).
도 38은 표 구조에 의해 생성되는 셀을 도시하는 도면.
도 39는 표제 문언의 소트 방법을 도시하는 도면.
도 40은 추출된 표제 문언에서 산출되는 표제 득점예를 도시하는 도면.
도 41은 코멘트문의 예를 설명하는 도면.
도 42는 키워드 DB(31)에 등록되는 내용예를 도시하는 도면.
도 43은 추출된 표제 문언에서 산출되는 표제 득점예를 도시하는 도면.
도 44는 도 43의 (c)에 도시하는 내용이 논리 구조 해석 DB(25)에 저장되어 있는 경우에 산출되는 표제 득점 MTn을 설명하는 도면.
도 45는 장표의 종별에 따라 생성되는 셀의 상위를 설명하는 도면.
도 46은 표제 문언의 배치에 의한 장표 종별의 판정 방법을 설명하는 도면.
도 47은 장표 종별의 판정 결과에 의해 행하여지는 셀 보정을 설명하는 도면.
도 48은 무괘선표로부터 생성되는 가상 셀을 설명하는 도면.
도 49는 표제 위치 정보에 의한 재추출 처리의 내용의 예를 도시하는 도면.
도 50은 표제 위치 정보에 의한 재추출 처리의 내용의 다른 예를 도시하는 도면.
도 51은 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제1 예를 설명하는 도면.
도 52는 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제2 예를 설명하는 도면.
도 53은 배타 관계 및 데이터 정보에 의한 재추출 처리에서 실시하는 표제 문언의 재추출의 제3 예를 설명하는 도면.
도 54는 표제 문언의 복원 방법을 설명하는 도면.
도 55는 표제 문언의 복원 결과에 따라서 행하는 셀 보정을 설명하는 도면.
도 56은 중복 정밀 조사 처리의 내용을 설명하는 도면.
도 57은 DR·GR-표제 문언 정밀 조사 처리의 내용을 설명하는 도면.
도 58은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 1).
도 59는 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 2).
도 60은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 3).
도 61은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 4).
도 62는 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 5).
도 63은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 6).
도 64a는 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 7).
도 64b는 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 8).
도 65는 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 9).
도 66은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 10).
도 67은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 11).
도 68은 셀 내로부터 다른 문자열을 추출하는 방법을 설명하는 도면(그 12).
도 69는 명세 분할을 설명하는 도면.
도 70은 취소선에 의한 삭제를 설명하는 도면.
도 71은 제2 논리 구조 해석 처리의 실행에 의해 얻어지는 인식 결과를 설명하는 도면.
도 72는 실제의 장표의 인식 결과를 도시하는 도면.
도 73은 본 실시예에 따른 장표 인식 장치를 실현 가능한 컴퓨터의 구성도.
도 74는 본 실시예에 따른 데이터베이스 작성 지원 장치의 기능 구성을 도시하는 도면.
도 75는 대표 표제를 작성하는 처리의 흐름을 설명하는 플로우차트.
도 76은 표제 관계를 생성하는 처리의 흐름을 설명하는 플로우차트.
도 77은 중복되어 있는 문언의 예를 도시하는 도면.
도 78은 표 형식의 정의 및 그 정의에 대응하는 장표 디자인(표 구조)을 설명하는 도면.
도 79는 데이터 정형의 정의 및 그 정의에 의해 행하여지는 데이터 정형을 설명하는 도면.
도 80은 표제 관계의 생성 방법을 설명하는 도면.
도 81은 표제 GR 관계에 의해 생성되는 장표 디자인을 설명하는 도면.
도 82는 표제 GR 관계에 의해 장표 디자인으로부터 생성되는 표제 관계를 설명하는 도면.
도 83은 표제 DR 관계에 의해 생성되는 장표 디자인을 설명하는 도면.
도 84는 표제 DR 관계에 의해 장표 디자인으로부터 생성되는 표제 관계를 설명하는 도면.
<도면의 주요 부분에 대한 부호의 설명>
11 : 입력부
12 : 도표문 분리부
13 : 괘선 추출부
14 : 표 구조 해석부
15 : 텍스트 추출부
16 : 문자 인식부
17 : 키워드 추출부
18 : 장표 종별 판정부
19 : 표 구조 해석(무괘선)부
20 : 논리 구조 해석(항목 후보 추출)부
21 : 항목 해석부
22 : 논리 구조 해석(항목 확정)부
23 : 출력부
24 : 데이터베이스 축적부
25 : 논리 구조 해석 DB 
26 : 메모리
701 : 표제·데이터 정보 입력부
702 : 대표 표제 작성부
703 : 표제 관계 입력부
704 : 표제 관계 생성부
705 : DB 출력부

Claims (30)

  1. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치에 있어서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과,
    상기 화상 취득 수단이 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과,
    상기 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과,
    상기 문자열 추출 수단이 복수의 표제 문언을 추출한 경우에, 그 문자열 추출 수단이 추출한 각각의 표제 문언 및 그 각각의 표제 문언의 상기 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 수단과,
    상기 표 구조 판정 수단에 의한 상기 표 구조의 판정 결과를 이용해서, 상기 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단
    을 구비하는 것을 특징으로 하는 장표 인식 장치.
  2. 제1항에 있어서,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 저장한 기억 수단을 구비하고,
    상기 표 구조 판정 수단은, 상기 기억 수단에 저장된 데이터베이스를 참조해서, 상기 장표 화상 상에 존재하는 전체의 표 구조를 판정하는 것을 특징으로 하는 장표 인식 장치.
  3. 제2항에 있어서,
    상기 계층 구조는, 1개 이상의 표제 문언이 정의되는 제1 층, 그 제1 층에서 정의된 표제 문언을 대표하고, 다른 표제 문언으로 치환 가능한 표제 문언인 제1 대표 표제가 정의된 제2 층, 및 상기 표 구조로 그 제1 대표 표제의 상위에 위치하는 표제 문언인 제2 대표 표제가 정의되는 제3 층을 포함하고,
    상기 표 구조 판정 수단은, 상기 문자열 추출 수단에 의한 상기 제2 대표 표제의 추출 결과에 기초해서, 그 제2 대표 표제를 갖는 상기 단위표 구조의 범위를 설정하고, 그 설정한 범위 내에서 추출되어 있는 다른 표제 문언의 평가를 행하여, 그 단위표 구조에 존재하는 표제 문언을 특정하는 것을 특징으로 하는 장표 인식 장치.
  4. 제2항에 있어서,
    상기 계층 구조는, 1개 이상의 표제 문언이 정의되는 제1 층, 그 제1 층에서 정의된 표제 문언을 대표하고, 다른 표제 문언과 치환 가능한 표제 문언인 제1 대표 표제가 정의된 제2 층, 및 상기 표 구조로 그 제1 대표 표제의 상위에 위치하는 표제 문언인 제2 대표 표제가 정의되는 제3 층을 포함하고,
    상기 문자열 추출 수단에 의한 상기 제2 대표 표제의 추출 결과에 기초해서, 그 제2 대표 표제를 갖는 상기 단위표 구조의 범위를 설정하고, 그 설정한 범위 내에서 추출되어 있는 다른 표제 문언과 치환 가능한 상기 제1 대표 표제, 및 그 단위표 구조로 상기 표제 문언과는 상이한 문자열로서 인식되는 데이터에 주목해서, 그 단위표 구조에 추가할 제1 대표 표제를 특정하여 추가하는 표제 추가 수단을 더 구비하는 것을 특징으로 하는 장표 인식 장치.
  5. 제1항에 있어서,
    상기 문자열 추출 수단이 추출한 표제 문언 및 상기 표 구조 판정 수단이 판정한 표 구조에 기초해서, 그 문자열 인식 수단이 인식하고 있지 않은 표제 문언이 존재하는 상기 장표 화상 상의 위치를 특정하는 위치 특정 수단과,
    상기 위치 특정 수단이 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 수단을 더 구비하는 것을 특징으로 하는 장표 인식 장치.
  6. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치에 있어서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과,
    상기 화상 취득 수단이 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과,
    상기 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과,
    상기 문자열 추출 수단이 추출한 결과에 기초해서, 상기 문자열 인식 수단이 인식하고 있지 않은 표제 문언이 존재하는 상기 장표 화상 상의 위치를 특정하는 위치 특정 수단과,
    상기 위치 특정 수단이 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 수단과,
    상기 문언 생성 수단이 생성한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단
    을 구비하는 것을 특징으로 하는 장표 인식 장치.
  7. 제6항에 있어서,
    상기 문자열 추출 수단이 추출한 표제 문언 및 상기 표제 문언의 상기 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 수단을 더 구비하고,
    상기 위치 특정 수단은, 상기 표 구조 판정 수단의 판별 결과를 이용해서 상기 위치의 특정을 행하고,
    상기 문언 생성 수단은, 상기 표 구조 판정 수단의 판별 결과로부터, 상기 위치에 존재할 표제 문언을 생성하는 것을 특징으로 하는 장표 인식 장치.
  8. 제7항에 있어서,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 저장한 기억 수단을 구비하고,
    상기 표 구조 판정 수단은, 상기 기억 수단에 저장된 데이터베이스를 참조해서, 상기 장표 화상 상에 존재하는 전체의 표 구조를 판정하는 것을 특징으로 하는 장표 인식 장치.
  9. 제8항에 있어서,
    상기 계층 구조는, 1개 이상의 표제 문언이 정의되는 제1 층, 그 제1 층에서 정의된 표제 문언을 대표하고, 다른 표제 문언과 치환 가능한 표제 문언인 제1 대표 표제가 정의된 제2 층, 및 상기 표 구조로 그 제1 대표 표제의 상위에 위치하는 표제 문언인 제2 대표 표제가 정의되는 제3 층을 포함하고,
    상기 표 구조 판정 수단은, 상기 문자열 추출 수단에 의한 상기 제2 대표 표제의 추출 결과에 기초해서, 그 제2 대표 표제를 갖는 상기 단위표 구조의 범위를 설정하고, 그 설정한 범위 내에서 추출되어 있는 다른 표제 문언의 평가를 행하여, 그 단위표 구조에 존재하는 표제 문언을 특정하는 것을 특징으로 하는 장표 인식 장치.
  10. 제8항에 있어서,
    상기 계층 구조는, 1개 이상의 표제 문언이 정의되는 제1 층, 그 제1 층에서 정의된 표제 문언을 대표하고, 다른 표제 문언과 치환 가능한 표제 문언인 제1 대표 표제가 정의된 제2 층, 및 상기 표 구조로 그 제1 대표 표제의 상위에 위치하는 표제 문언인 제2 대표 표제가 정의되는 제3 층을 포함하고,
    상기 위치 특정 수단은, 상기 문자열 추출 수단에 의한 상기 제2 대표 표제의 추출 결과에 기초해서, 그 제2 대표 표제를 갖는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 다른 표제 문언과 치환 가능한 상기 제1 대표 표제, 및 그 단위표 구조로 데이터로서 인식되는 문자열에 주목해서, 상기 위치를 그 범위 내에서 특정하고,
    상기 문언 생성 수단은, 상기 위치 특정 수단이 상기 범위 내에서 특정한 위치에 추가할 제1 대표 표제를 특정함으로써, 상기 표제 문언을 생성하는 것을 특징으로 하는 장표 인식 장치.
  11. 제10항에 있어서,
    상기 제1 대표 표제는, 상기 단위표 구조마다 중복되지 않는 배타 관계를 갖고,
    상기 문언 생성 수단은, 상기 배타 관계를 이용해서, 상기 범위 내에서 인식되어 있는 제1 대표 표제와는 상이한 제1 대표 표제를 특정하는 것을 특징으로 하는 장표 인식 장치.
  12. 제11항에 있어서,
    상기 데이터베이스는, 상기 단위표 구조 상에 기입되는 데이터에 관한 데이터 정보가 정의되고,
    상기 문언 생성 수단은, 상기 배타 관계 및 상기 데이터 정보를 이용해서, 상기 범위 내에서 인식되어 있는 제1 대표 표제와는 상이한 제1 대표 표제를 특정하는 것을 특징으로 하는 장표 인식 장치.
  13. 제6항에 있어서,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 저장한 기억 수단과,
    상기 문자열 추출 수단에 의한 상기 표제 문언의 추출 결과에 기초해서, 그 표제 문언을 갖는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 표제 문언, 및 그 단위표 구조로 데이터로서 인식되는 문자열에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 수단을 더 구비하는 것을 특징으로 하는 장표 인식 장치.
  14. 제6항에 있어서,
    상기 문자열 인식 수단의 인식 결과를 이용해서, 상기 문자열이 포함되는 영 역인 셀을 생성하는 셀 생성 수단을 구비하고,
    상기 위치 특정 수단은, 상기 셀 생성 수단이 생성한 셀 단위로 상기 위치의 특정을 행하는 것을 특징으로 하는 장표 인식 장치.
  15. 제6항에 있어서,
    상기 문자열이 포함되는 영역인 셀을 생성하는 셀 생성 수단과,
    상기 셀 생성 수단이 생성한 셀 중에서, 상기 장표 상에 데이터로서 기입되는 문자열용이며, 또한 동일한 방향 상에 연속하는 복수의 셀을 대상으로 보정을 행하는 셀 보정 수단을 더 구비하는 것을 특징으로 하는 장표 인식 장치.
  16. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치에 있어서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 저장한 기억 수단과,
    상기 화상 취득 수단이 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과,
    상기 기억 수단에 저장된 데이터베이스를 참조해서, 상기 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추 출 수단과,
    상기 문자열 추출 수단에 의한 추출 결과에 기초해서, 상기 장표 화상 상에 존재하는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 표제 문언, 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 수단과,
    상기 표제 추가 수단이 추가한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단
    을 구비하는 것을 특징으로 하는 장표 인식 장치.
  17. 제16항에 있어서,
    상기 계층 구조는, 1개 이상의 표제 문언이 정의되는 제1 층, 그 제1 층에서 정의된 표제 문언을 대표하고, 다른 표제 문언과 치환 가능한 표제 문언인 제1 대표 표제가 정의된 제2 층, 및 상기 표 구조로 그 제1 대표 표제의 상위에 위치하는 표제 문언인 제2 대표 표제가 정의되는 제3 층을 포함하고,
    상기 표제 추가 수단은, 상기 문자열 추출 수단에 의한 상기 제2 대표 표제의 추출 결과에 기초해서, 그 제2 대표 표제를 갖는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 제1 대표 표제, 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 제1 대표 표제를 추가하는 것을 특징으로 하는 장표 인식 장치.
  18. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치에 있어서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 수단과,
    상기 화상 취득 수단이 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 수단과,
    상기 문자열 인식 수단이 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 수단과,
    상기 문자열 추출 수단이 복수의 표제 문언을 추출한 경우에, 그 문자열 추출 수단이 추출한 각각의 표제 문언 및 그 각각의 표제 문언의 상기 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 수단과,
    상기 문자열 추출 수단에 의한 추출 결과에 기초해서, 상기 문자열 인식 수단이 인식하고 있지 않은 표제 문언이 존재하는 상기 장표 화상 상의 위치를 특정하는 위치 특정 수단과,
    상기 위치 특정 수단이 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 수단과,
    상기 문자열 추출 수단에 의한 추출 결과에 기초해서, 상기 표 구조 판정 수단이 판정한 표 구조 중으로부터, 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조의 범위를 각각 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 표제 문언 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 수단과,
    상기 표 구조 판정 수단에 의한 상기 표 구조의 판정 결과를 이용해서, 상기 문언 생성 수단이 생성한 표제 문언 및 상기 표제 추가 수단이 추가한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 수단이 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 수단
    을 구비하는 것을 특징으로 하는 장표 인식 장치.
  19. 제1항, 제6항, 제16항 또는 제18항 중 어느 한 항에 있어서,
    상기 대응 관계 특정 수단은, 상기 표제 문언별로 정의된, 그 표제 문언의 정보로서 존재하는 문자열에 첨부될 가능성이 있는 심볼에 관한 부대 정보를 참조해서, 상기 대응 관계를 특정하는 것을 특징으로 하는 장표 인식 장치.
  20. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하기 위한 방법으로서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 공정과,
    상기 화상 취득 공정에서 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 공정과,
    상기 문자열 인식 공정에서 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 공정과,
    상기 문자열 추출 공정에서 복수의 표제 문언을 추출한 경우에, 그 문자열 추출 공정에서 추출한 각각의 표제 문언 및 그 각각의 표제 문언의 상기 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 공정과,
    상기 표 구조 판정 공정에서의 상기 표 구조의 판정 결과를 이용해서, 상기 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 공정에서 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 공정
    을 갖는 것을 특징으로 하는 장표 인식 방법.
  21. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하기 위한 방법으로서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 공정과,
    상기 화상 취득 공정에서 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 공정과,
    상기 문자열 인식 공정에서 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 공정과,
    상기 문자열 추출 공정에서 추출한 결과에 기초해서, 상기 문자열 인식 공정에서 인식하고 있지 않은 표제 문언이 존재하는 상기 장표 화상 상의 위치를 특정하는 위치 특정 공정과,
    상기 위치 특정 공정에서 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 공정과,
    상기 문언 생성 공정에서 생성한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 공정에서 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 공정
    을 갖는 것을 특징으로 하는 장표 인식 방법.
  22. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하기 위한 방법으로서,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 공정과,
    상기 화상 취득 공정에서 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 공정과,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 참조해서, 상기 문자열 인식 공정에서 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 공정과,
    상기 문자열 추출 공정에서의 추출 결과에 기초해서, 상기 장표 화상 상에 존재하는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 표제 문언 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 공정과,
    상기 표제 추가 공정에서 추가한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 공정에서 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 공정
    을 갖는 것을 특징으로 하는 장표 인식 방법.
  23. 제1항, 제6항, 제16항 또는 제18항 중 어느 한 항의 장표 인식 장치에 의한 상기 장표 상의 문자열의 인식에 이용하는 것이 가능한 데이터베이스의 작성을 지원하는 장치로서,
    상기 표제 문언을 입력하는 문언 입력 수단과,
    상기 문언 입력 수단이 입력한 표제 문언 사이의 계층 구조를 생성하는 계층 구조 생성 수단
    을 구비하는 것을 특징으로 하는 데이터베이스 작성 지원 장치.
  24. 제23항에 있어서,
    상기 문언 입력 수단은, 상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 2개 이상의 표제 문언 및 그 2개 이상의 표제 문언간의 계층 관계를 입력 단위로서 입력하고,
    상기 계층 구조 생성 수단은, 상기 입력 단위간에서 공통되는 표제 문언, 및 각 입력 단위로 나타내어져 있는 계층 관계에 기초해서, 3층 이상의 계층 구조를 생성하는 것을 특징으로 하는 데이터베이스 작성 지원 장치.
  25. 제24항에 있어서,
    상기 계층 구조 생성 수단이 생성한 표제 문언 사이의 계층 구조에 대응하는 상기 단위표 구조의 디자인 화상을 생성해서 출력하는 화상 생성 수단을 더 구비하는 것을 특징으로 하는 데이터베이스 작성 지원 장치.
  26. 제1항, 제6항, 제16항 또는 제18항 중 어느 한 항의 장표 인식 장치에 의한 상기 장표 상의 문자열의 인식에 이용하는 것이 가능한 데이터베이스의 작성을 컴퓨터에 의해 지원하는 방법으로서,
    상기 표제 문언을 입력하는 문언 입력 공정과,
    상기 문언 입력 공정에서 입력된 표제 문언 사이의 계층 구조를 생성하는 계층 구조 생성 공정
    을 갖는 것을 특징으로 하는 데이터베이스 작성 지원 방법.
  27. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치로서 이용하는 것이 가능한 컴퓨터에,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 기능과,
    상기 화상 취득 기능에 의해 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 기능과,
    상기 문자열 인식 기능에 의해 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 기능과,
    상기 문자열 추출 기능에 의해 추출한 표제 문언 및 상기 표제 문언의 상기 장표 화상 상의 배치에 기초해서, 그 장표 화상 상에 존재하는 표 구조를 판정하는 표 구조 판정 기능과,
    상기 표 구조 판정 기능에 의한 상기 표 구조의 판정 결과를 이용해서, 상기 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 기능에 의해 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
  28. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치로서 이용하는 것이 가능한 컴퓨터에,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 기능과,
    상기 화상 취득 기능에 의해 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 기능과,
    상기 문자열 인식 기능에 의해 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 기능과,
    상기 문자열 추출 기능에 의해 추출한 결과에 기초해서, 상기 문자열 인식 기능에서 인식하고 있지 않은 표제 문언이 존재하는 상기 장표 화상 상의 위치를 특정하는 위치 특정 기능과,
    상기 위치 특정 기능에 의해 특정한 위치에 존재할 표제 문언을 생성하는 문언 생성 기능과,
    상기 문언 생성 기능에 의해 생성한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 기능에 의해 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
  29. 장표 상에 임의의 표 구조로 존재하는 문자열의 인식을 행하는 장표 인식 장치로서 이용하는 것이 가능한 컴퓨터에,
    상기 장표의 전자화된 장표 화상을 취득하는 화상 취득 기능과,
    상기 화상 취득 기능에 의해 취득한 상기 장표 화상 상에 존재하는 문자열을 인식하는 문자열 인식 기능과,
    상기 장표 상에 1개 이상의 관련되는 데이터를 기입하는 단위로 되는 표 구조인 단위표 구조마다, 그 단위표 구조로 출현할 가능성이 있는 표제 문언이 계층 구조로 정의되어 있는 데이터베이스를 참조해서, 상기 문자열 인식 기능에 의해 인식한 문자열 중으로부터 미리 정한 문자열인 표제 문언을 추출하는 문자열 추출 기능과,
    상기 문자열 추출 기능에 의한 추출 결과에 기초해서, 상기 장표 화상 상에 존재하는 상기 단위표 구조의 범위를 추출하고, 그 추출한 범위 내에서 인식되어 있는 상기 표제 문언 및 그 단위표 구조로 데이터로서 인식되는 문자열 중 적어도 한 쪽에 주목해서, 그 데이터에 대응하는 표제 문언을 추가하는 표제 추가 기능과,
    상기 표제 추가 기능에 의해 추가한 표제 문언을 포함시켜, 그 표제 문언과 그 표제 문언 이외에 상기 문자열 인식 수단에 의해 인식하고 있는 문자열 사이의 대응 관계를 특정하는 대응 관계 특정 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
  30. 제1항, 제6항, 제16항 또는 제18항 중 어느 한 항의 장표 인식 장치에 의한 상기 장표 상의 문자열의 인식에 이용하는 것이 가능한 데이터베이스의 작성을 지원하는 데이터베이스 작성 지원 장치로서 이용하는 것이 가능한 컴퓨터에,
    상기 표제 문언을 입력하는 문언 입력 기능과,
    상기 문언 입력 기능에 의해 입력된 표제 문언 사이의 계층 구조를 생성하는 계층 구조 생성 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
KR1020090054110A 2008-06-20 2009-06-17 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체 KR101083557B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008162110A JP4825243B2 (ja) 2008-06-20 2008-06-20 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
JPJP-P-2008-162110 2008-06-20

Publications (2)

Publication Number Publication Date
KR20090132521A KR20090132521A (ko) 2009-12-30
KR101083557B1 true KR101083557B1 (ko) 2011-11-14

Family

ID=41090303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090054110A KR101083557B1 (ko) 2008-06-20 2009-06-17 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체

Country Status (5)

Country Link
US (1) US8891871B2 (ko)
EP (1) EP2136316A3 (ko)
JP (1) JP4825243B2 (ko)
KR (1) KR101083557B1 (ko)
CN (1) CN101685498B (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4825243B2 (ja) * 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
US9152617B2 (en) * 2010-03-11 2015-10-06 A2iA S.A. System and method for processing objects
JP5561856B2 (ja) * 2010-05-24 2014-07-30 株式会社Pfu 帳票作成装置、帳票作成プログラム、および帳票作成方法
JP2012043008A (ja) * 2010-08-12 2012-03-01 Oki Electric Ind Co Ltd イメージ処理装置、及び、当該イメージ処理装置を実現するプログラム
CN102750541B (zh) * 2011-04-22 2015-07-08 北京文通科技有限公司 一种文档图像分类识别方法及装置
JP5664481B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 表構造自動認識プログラム、表構造自動認識方法及び表構造自動認識装置
JP5566971B2 (ja) * 2011-07-29 2014-08-06 富士通フロンテック株式会社 情報処理プログラム、情報処理装置および文字認識方法
JP5824309B2 (ja) * 2011-10-03 2015-11-25 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
JP6091093B2 (ja) * 2012-06-14 2017-03-08 株式会社エヌ・ティ・ティ・データ 文書変換装置、文書変換方法および文書変換プログラム
US9449031B2 (en) * 2013-02-28 2016-09-20 Ricoh Company, Ltd. Sorting and filtering a table with image data and symbolic data in a single cell
KR20160060499A (ko) * 2014-11-20 2016-05-30 삼성전자주식회사 화상독취장치 및 그의 제어 방법
RU2679209C2 (ru) * 2014-12-15 2019-02-06 Общество с ограниченной ответственностью "Аби Продакшн" Обработка электронных документов для распознавания инвойсов
CN105069898B (zh) * 2015-07-15 2018-03-30 广州敦和信息技术有限公司 一种发票字条自动定位的方法及装置
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
CN106406682A (zh) * 2016-09-29 2017-02-15 广州鹤互联网科技有限公司 一种签核文件选择生成方法及装置
CN106846008B (zh) * 2016-12-27 2021-06-29 北京五八信息技术有限公司 营业执照验证方法及装置
US10171696B2 (en) * 2017-01-09 2019-01-01 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method for recognizing characters in character string regions and table regions on a medium
CN107392195B (zh) * 2017-07-25 2020-10-23 深圳市迪比科电子科技有限公司 一种智能书写系统
CN107808154B (zh) * 2017-12-08 2021-03-30 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN110858196B (zh) * 2018-08-21 2022-04-12 湖南共睹互联网科技有限责任公司 交易保障平台的数据库建立方法及装置
JPWO2020044537A1 (ja) * 2018-08-31 2021-03-18 株式会社Pfu 画像照合装置、画像照合方法、及びプログラム
CN109815954A (zh) * 2019-01-31 2019-05-28 科大讯飞股份有限公司 增值税发票图像的方向校正方法、装置、设备及存储介质
CN110633660B (zh) * 2019-08-30 2022-05-31 盈盛智创科技(广州)有限公司 一种文档识别的方法、设备和存储介质
JP2021043478A (ja) 2019-09-06 2021-03-18 キヤノン株式会社 情報処理装置、その制御方法及びプログラム
JP7439435B2 (ja) 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2021114211A (ja) * 2020-01-21 2021-08-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2021186642A1 (ja) * 2020-03-18 2021-09-23 株式会社Pfu 画像処理装置、制御方法及び制御プログラム
CN111563498B (zh) * 2020-04-30 2024-01-19 广东小天才科技有限公司 一种题目收集的方法、装置、电子设备及存储介质
US11335110B2 (en) 2020-08-05 2022-05-17 Verizon Patent And Licensing Inc. Systems and methods for processing a table of information in a document
KR20230013849A (ko) * 2021-07-20 2023-01-27 네이버 주식회사 테이블에 포함된 정보를 인식하는 문자 인식 에러에 강인한 글자 인식 방법 및 시스템

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0388019A (ja) 1989-08-31 1991-04-12 Toshiba Corp データ処理装置
JP3215176B2 (ja) * 1992-09-07 2001-10-02 株式会社東芝 文書画像処理装置及び文書画像処理方法
JP3463008B2 (ja) * 1995-07-31 2003-11-05 富士通株式会社 媒体処理方法及び媒体処理装置
DE69637073T2 (de) * 1995-07-31 2007-08-30 Fujitsu Ltd., Kawasaki Prozessor und verarbeitungsverfahren für dokumente
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents
JPH09274634A (ja) 1996-04-03 1997-10-21 Oki Electric Ind Co Ltd 文字認識装置
JPH10116314A (ja) 1996-10-09 1998-05-06 Oki Electric Ind Co Ltd 表処理方法及び表処理装置
JPH11110479A (ja) 1997-10-02 1999-04-23 Canon Inc 文字処理方法及び装置及び記憶媒体
JP3525997B2 (ja) * 1997-12-01 2004-05-10 富士通株式会社 文字認識方法
JP3912463B2 (ja) * 1998-09-29 2007-05-09 富士ゼロックス株式会社 論理構造抽出装置及び論理構造抽出方法
US6412012B1 (en) * 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
JP3465667B2 (ja) 1999-02-22 2003-11-10 株式会社日立製作所 自動取引システム及び取引方法
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2000259653A (ja) * 1999-03-09 2000-09-22 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
US6594641B1 (en) * 1999-04-16 2003-07-15 Reshare Corporation Computer facilitated product selling system
JP4450888B2 (ja) * 1999-05-28 2010-04-14 富士通株式会社 帳票認識方法
US20030027635A1 (en) * 2001-08-03 2003-02-06 Walker Jay S. Method and apparatus for generating directives for personnel
US20030042319A1 (en) 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
US20050055272A1 (en) * 2003-09-10 2005-03-10 Sears Brands Llc Method and system for providing benefits to retail consumers
US20050149414A1 (en) * 2003-12-30 2005-07-07 Kimberly-Clark Worldwide, Inc. RFID system and method for managing out-of-stock items
JP3923474B2 (ja) 2004-01-23 2007-05-30 沖電気工業株式会社 文字読み取り装置
US20050288990A1 (en) * 2004-06-24 2005-12-29 International Business Machines Corporation Computer-implemented method, system and program product for modeling a consumer decision process
US20060036484A1 (en) * 2004-08-13 2006-02-16 Michael Voticky Method of providing recyclable, immediately-redeemable award points
JP2004334913A (ja) 2004-08-19 2004-11-25 Matsushita Electric Ind Co Ltd 帳票認識装置及び帳票認識方法
JP2006134106A (ja) 2004-11-05 2006-05-25 Hammock:Kk 帳票認識システム、帳票認識方法及びコンピュータプログラム
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
JP4825243B2 (ja) * 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2010003155A (ja) 2010-01-07
US20100008578A1 (en) 2010-01-14
CN101685498B (zh) 2016-04-20
EP2136316A2 (en) 2009-12-23
EP2136316A3 (en) 2013-10-23
KR20090132521A (ko) 2009-12-30
JP4825243B2 (ja) 2011-11-30
US8891871B2 (en) 2014-11-18
CN101685498A (zh) 2010-03-31

Similar Documents

Publication Publication Date Title
KR101083557B1 (ko) 장표 인식 장치, 방법, 데이터베이스 작성 장치, 방법, 및 기록 매체
US20210365678A1 (en) Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal
US8023745B2 (en) Systems, methods, and computer-readable media for fast neighborhood determinations in dynamic environments
JP4820382B2 (ja) ノードリンクダイアグラムに構造認識を提供する方法
JP5284662B2 (ja) ペンコンピュータシステム内にノードリンクダイアグラムを生成および編集する方法および装置
KR930009639B1 (ko) 화상데이타를 이용하는 문서데이타 처리방법 및 장치
Esser et al. Automatic indexing of scanned documents: a layout-based approach
US20080025618A1 (en) Form processing method, form processing device, and computer product
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
JP2749020B2 (ja) ダイアグラム認識システム
JP4998220B2 (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
Cui et al. A mixed-initiative approach to reusing infographic charts
US9798711B2 (en) Method and system for generating a graphical organization of a page
JPH10240958A (ja) 画像から管理情報を抽出する管理情報抽出装置および方法
Lin et al. Graph-based information block detection in infographic with gestalt organization principles
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
JPH1173472A (ja) フォーマット情報登録方法及びocrシステム
JP4302595B2 (ja) フォーム識別装置
JP4405604B2 (ja) 情報処理装置及び定義方法
JP6322291B2 (ja) 文書処理装置および項目抽出方法
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
Raveaux et al. A local evaluation of vectorized documents by means of polygon assignments and matching
KR100886657B1 (ko) 선체 블록용 치수품질 검사기준 문서 작성 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141021

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee