KR102465524B1 - 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램 - Google Patents

문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램 Download PDF

Info

Publication number
KR102465524B1
KR102465524B1 KR1020217000508A KR20217000508A KR102465524B1 KR 102465524 B1 KR102465524 B1 KR 102465524B1 KR 1020217000508 A KR1020217000508 A KR 1020217000508A KR 20217000508 A KR20217000508 A KR 20217000508A KR 102465524 B1 KR102465524 B1 KR 102465524B1
Authority
KR
South Korea
Prior art keywords
character
candidate
characters
similar
storage unit
Prior art date
Application number
KR1020217000508A
Other languages
English (en)
Other versions
KR20210032380A (ko
Inventor
준 키타미
Original Assignee
가부시키가이샤 히타치 시스테무즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 히타치 시스테무즈 filed Critical 가부시키가이샤 히타치 시스테무즈
Priority to KR1020227038076A priority Critical patent/KR102572500B1/ko
Publication of KR20210032380A publication Critical patent/KR20210032380A/ko
Application granted granted Critical
Publication of KR102465524B1 publication Critical patent/KR102465524B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

유사한 문자열 후보를 보다 적절하게 제안하는 기술을 제공한다.
문자 후보 제안 장치로서, 문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와, 실존하는 문자열을 기억하는 실존 문자 기억부와, 하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리부와, 수신한 문자와 외관이 유사한 문자의 후보를 유사 문자 기억부와 대조하는 것으로 특정하고, 외관이 유사한 문자의 후보의 조합 중 실존 문자 기억부에 기억된 실존하는 문자열과 대조하는 대조처리부와, 대조처리부에 의한 대조의 결과 히트한 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리부;를 구비한다.

Description

문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램
본 발명은 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램에 관한 것이다. 본 발명은 2019년 9월 9일에 출원된 일본국 특허의 출원번호 2019-163641의 우선권을 주장하고, 문헌의 참조에 의한 적용이 인정되는 지정국에 대해서는 그 출원에 기재된 내용은 참조에 의해 본 출원에 적용된다.
특허문헌 1에는 "정보 처리 장치는 화상 데이터로부터 문자열을 추출하는 문자 추출부(224)와, 입력 문자에 대응하는 1 또는 2 이상의 변환 후보 문자를 포함하는 변환 후보 리스트를 작성하는 리스트 작성부(244)와, 상기 변환 후보 리스트에 포함되는 상기 1 또는 2 이상의 변환 후보 문자와, 상기 문자 추출부에 의해 추출된 문자열과의 비교에 기초하여 변환 대상의 문자를 특정하는 특정부(248)와, 상기 특정부에 의해 특정된 상기 변환 대상의 문자를 포함하는 표시 화면을 생성하는 표시 제어부(252);를 구비한다"는 것에 대해 기재되어 있다.
특허문헌 1 일본 특개 2018-163413 호 공보
상기 기술은 문자의 후보를 제시할 수 있지만, 문자의 인식을 잘못하면 적절한 결과를 얻는 것이 어렵다.
본 발명의 목적은 유사한 문자열 후보를 보다 적절하게 제안하는 기술을 제공하는 것에 있다.
본원은 상기 과제의 적어도 일부를 해결하는 수단을 복수 포함하고 있는데 그 예를 든다면 이하와 같다. 본 발명의 일 태양에 따른 정보 처리 장치는 문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와, 실존하는 문자열을 기억하는 실존 문자 기억부와, 하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리부와, 수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리부와, 상기 대조 처리부에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리부;를 구비한다.
또한 예를 들어, 상기의 문자 후보 제안 장치는 상기 후보 문자를 출력 후 상기 수탁 처리부가 수신한 상기 문자 중 어느 하나와 유사한 문자를 접수하면, 상기 유사 문자 기억부에 기억되어 있지 않은 유사 관계이면 상기 유사 문자 기억부에 기억시키는 유사 문자 등록 처리부를 구비하는 것이어도 좋다.
또한 예를 들어, 상기의 문자 후보 제안 장치는 상기 실존 문자 기억부에는 실존하는 인명의 문자열이 저장되어 있으며, 상기 수탁 처리부는 안출할 상기 문자 후보로서 인명의 안출를 수탁하고, 상기 후보 문자 송신 처리부는 상기 외관이 유사한 문자의 후보의 조합을 인명의 후보 문자로서 출력하는 것이어도 좋다.
또한 예를 들어, 상기의 문자 후보 제안 장치에 있어서, 상기 실존하는 인명의 문자열은 성과 이름이 구분되어 있으며, 수신한 상기 문자를 성과 이름으로 구분하여 상기 대조 처리부에서 대조시키는 성명 판별 처리부를 구비하는 것이어도 좋다.
또한 예를 들어, 상기의 문자 후보 제안 장치로서, 상기 성명 판별 처리부는 수신한 상기 문자에 대해 성과 이름을 나누는 위치를 변화시켜 성과 이름으로 구분한 조합을 특정하고, 각 조합의 성과 이름의 양쪽에 대해 상기 대조 처리부에 의한 대조의 결과 히트를 얻은 경우에 상기 후보 문자로 하는 것을 특징으로 하는 것이어도 좋다.
또한 예를 들어, 상기의 문자 후보 제안 장치로서, 상기 후보 문자 송신 처리부는 상기 후보 문자를 출현 빈도에 따라 정렬하여 출력하는 것을 특징으로 하는 것이어도 좋다.
또한 예를 들어, 상기의 문자 후보 제안 장치로서, 상기 수탁 처리부가 수신하는 상기 문자는 필기 문자를 판독하여 인식한 문자인 것을 특징으로 하는 것이어도 좋다.
또한, 본 발명의 다른 태양에 따른 필기 문자 식별 시스템은 문자 후보 제안 장치와, 상기 문자 후보 제안 장치와 네트워크를 통해 통신 가능하게 접속되는 업무 단말과, 상기 업무 단말로부터의 지시에 따라 필기 문자를 판독하는 판독 장치;를 포함하는 필기 문자 식별 시스템에 있어서, 상기 업무 단말은 상기 판독 장치로부터 상기 필기 문자를 취득하여 문자 인식을 실시하는 문자 인식부와, 상기 문자 인식부에 의해 인식된 문자를 상기 문자 후보 제안 장치로 송신하여 문자 후보의 제안을 위탁하는 위탁 처리부와, 상기 문자 후보 제안 장치로부터 출력된 문자 후보를 표시하는 육안 확인 처리부;를 구비하며, 상기 문자 후보 제안 장치는 문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와, 실존하는 문자열을 기억하는 실존 문자 기억부와, 하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리부와, 수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리부와, 상기 대조 처리부에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리부;를 구비하는 것을 특징으로 한다.
또한, 본 발명의 다른 태양에 따른 필기 문자 식별 방법은 문자 후보 제안 장치와, 상기 문자 후보 제안 장치와 네트워크를 통해 통신 가능하게 접속되는 업무 단말과, 상기 업무 단말로부터의 지시에 따라 필기 문자를 판독하는 판독 장치;를 포함하는 필기 문자 식별 시스템에 의한 필기 문자 식별 방법에 있어서, 상기 업무 단말은 상기 판독 장치로부터 상기 필기 문자를 취득하여 문자 인식을 실시하는 문자 인식 단계와, 상기 문자 인식 단계에서 인식된 문자를 상기 문자 후보 제안 장치로 송신하여 문자 후보의 제안을 위탁하는 위탁 처리 단계와, 상기 문자 후보 제안 장치로부터 출력된 문자 후보를 표시하는 육안 확인 처리 단계;를 실행하고, 상기 문자 후보 제안 장치는 문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와, 실존하는 문자열을 기억하는 실존 문자 기억부;를 구비하며, 하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리 단계와, 수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리 단계와, 상기 대조 처리 단계에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리 단계;를 실행하는 것을 특징으로 한다.
또한, 본 발명의 다른 태양에 따른 프로그램은 컴퓨터에 필기 문자의 식별을 지원시키는 처리를 실시하게 하는 프로그램으로서, 상기 컴퓨터는 문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와, 실존하는 문자열을 기억하는 실존 문자 기억부와, 처리부;를 구비하며, 상기 처리부에 하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리 단계와, 수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리 단계와, 상기 대조 처리 단계에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리 단계;를 실시하게 하는 것을 특징으로 한다.
본 발명에 따르면, 문장의 내용을 적절하게 평가할 수 있는 기술을 제공할 수 있다.
상기한 이외의 과제, 구성 및 효과는 이하의 실시 형태의 설명에 의해 밝혀진다.
도 1은 실시 형태에 따른 필기 문자 식별 시스템의 개요를 예시하는 블록도이다.
도 2는 필기 문자 식별 시스템의 구성의 예를 나타내는 도이다.
도 3은 수령 데이터 기억부의 데이터 구조예를 나타내는 도이다.
도 4는 성씨 기억부의 데이터 구조예를 나타내는 도이다.
도 5는 이름 기억부의 데이터 구조예를 나타내는 도이다.
도 6은 유사 문자 기억부의 데이터 구조예를 나타내는 도이다.
도 7은 후보 문자 기억부의 데이터 구조예를 나타내는 도이다.
도 8은 문자 기억부의 데이터 구조예를 나타내는 도이다.
도 9는 화상 기억부의 데이터 구조예를 나타내는 도이다.
도 10은 문자 후보 제안 장치의 하드웨어 구성예를 나타내는 도이다.
도 11은 필기 문자 인식의 전체 처리 흐름의 예를 나타내는 도이다.
도 12는 성명 구분 대조 처리의 흐름의 예를 나타내는 도이다.
도 13은 후보 문자 수령 처리의 흐름의 예를 나타내는 도이다.
도 14는 유사 문자 등록 처리의 흐름의 예를 나타내는 도이다.
도 15는 후보 제시 화면의 예를 나타내는 도이다.
도 16은 성씨 후보 제시예를 나타내는 도이다.
이하에, 본 발명의 일 태양에 따른 실시 형태를 적용한 필기 문자 식별 시스템(1)에 대하여 도면을 참조하여 설명한다. 이하의 실시의 형태에 있어서는 편의상 그 필요가 있을 때는 복수의 섹션 또는 실시의 형태로 분할하여 설명하지만, 특별히 명시한 경우를 제외하고 그들은 서로 무관계한 것은 아니며, 한쪽은 다른 쪽의 일부 또는 전부의 변형예, 상세, 보충 설명 등의 관계에 있다.
또한, 이하의 실시의 형태에 있어서, 요소의 수 등(개수, 수치, 양, 범위 등을 포함한다)을 언급하는 경우, 특별히 명시한 경우 및 원리적으로 명확하게 특정한 수에 한정되는 경우 등을 제외하고 그 특정의 수에 한정되는 것은 아니며, 특정한 수 이상이어도 이하여도 좋다.
또한, 이하의 실시의 형태에 있어서, 그 구성 요소(요소 단계 등도 포함한다)는 특별히 명시한 경우 및 원리적으로 명확하게 필수하다고 생각되는 경우 등을 제외하고 반드시 필수의 것은 아니라는 것은 말할 것도 없다.
마찬가지로, 이하의 실시의 형태에 있어서, 구성 요소 등의 형상, 위치 관계 등을 언급할 때는 특별히 명시한 경우 및 원리적으로 명확하게 그렇지 않다고 생각되는 경우 등을 제외하고 실질적으로 그 형상 등에 근사 또는 유사한 것 등을 포함하는 것으로 한다. 이는 상기 수치 및 범위에 대해서도 마찬가지이다.
또한, 실시의 형태를 설명하기 위한 전체 도면에 있어서, 동일한 부재에는 원칙적으로 동일한 부호를 부여하고, 그 반복 설명은 생략한다.
도 1은 본 실시 형태에 따른 필기 문자 식별 시스템의 개요를 예시하는 블록도이다. 필기 문자 식별 시스템(1)은 이용자가 업무 단말(200)을 이용하여 브라우저 등을 통해 문자 후보 제안 장치(100)에 접속하여 이용하지만, 이에 한정되지 않으며, 문자 후보 제안 장치(100)의 각 기능이 애플리케이션 소프트웨어로서 업무 단말(200)에 탑재되는 것이어도 좋다.
또한, 업무 단말(200)로부터 문자 후보 제안 장치(100)에 접속할 때에는 LAN(Local Area Network), WAN(Wide Area Network), 인터넷, 휴대 전화망 등, 혹은 이들이 복합된 통신망인 네트워크(50)를 통해 접속된다. 당해 네트워크는 휴대 전화 통신망 등의 무선 통신망 상의 VPN(Virtual Private Network) 등이어도 좋다.
필기 문자 식별 시스템(1)의 응용예를 들면, 필기 문자 식별 시스템(1)은 소정의 서면(예를 들어, 보험 신청서나 은행 계좌 개설 신청서 등, 성명을 소정의 양식에 따라 필기로 입력하는 서면)의 취급을 수반하는 업무 시스템 등이 있다.
그 때에는, 이용자는 소정의 서면의 소정의 란에 성명을 필기로 써넣을 것이 예상되지만, 대량의 서면을 사무처리하기 위해서는 컴퓨터 처리에 의한 대량의 정보 처리를 개재시키는 편이 효율성의 면에서 장점이 크기 때문에 일반적으로는 성명 등의 필기의 기술은 OCR(Optical Character Recognition)에 의해 디지털화되는 경우가 많다.
여기서, 종이 문서의 문자 데이터 전자화 기술은 향상되고 있지만, 오독이나 불독(不讀)이 일정한 비율로 발생하고, 모든 필기 문자를 완전히 인식할 수 있는 기술은 존재하지 않는다. 그렇기 때문에 최종적으로 사람의 육안에 의한 문자 일치 확인을 실시하고 있지만, 이 육안 작업은 문서의 문자 데이터 전자화 비용의 삭감을 저해하는 요인의 하나가 되고 있다. 구체적으로는, 성명을 판독한 경우 성씨, 이름 등의 성명에 관한 데이터베이스와 대조하여 문자의 인식률의 향상을 도모하는 방식이 도입되고 있지만, 판독이 어려운 문자나 혼동되기 쉬운 문자도 있어, 오독이 발생하고 있거나 육안으로 확인하는 비용이 여전히 소용된다.
즉, 판독한 문자에 오독이 포함되는 경우, 예를 들어 맞는 성씨 "川本"을 OCR 등의 문자 인식 엔진이 "小木"으로 오독한 경우, 오(誤)인 "小木"에 대해 각 데이터베이스와의 대조를 실시하기 때문에 정(正)인 "川本"의 후보 순위가 열후, 또는 후보 누락될 가능성이 있다.
또한, 성씨 부분과 이름 부분의 기입란을 각각 명확하게 하지 않고 성명을 풀 네임(full name)으로 기입하는 서식을 이용하는 경우에는, 맞는 성씨의 식별이 이루어지지 않으면 오독의 발생조차 인식하지 못하는 경우도 있다. 예를 들어 "小山田伸"(오·야마·다·신)이라는 풀 네임의 "田"을 "由"로 오독하면 성씨를 "小山"(코·야마)으로 인식하고, "由"로 시작되는 "由伸"(요시·노부) 등의 이름을 후보로 해버릴 가능성이 있다.
이들을 감안하여, 본원은 OCR 등의 문자 인식 엔진에서 판독한 문자가 오(誤)인 것도 전제로 성씨와 이름에 관한 DB와의 대조에 더하여 과거에 OCR 등의 문자 인식 엔진에서 오독이 많았던 문자의 정보를 기록한 유사 문자와 대조한다. 이에 따라 오독이 발생하기 쉬운 문자를 포함한 판독 문자의 후보의 범위를 적절하게 넓히고, 열후 또는 후보 누락의 가능성이 있는 문자도 후보로 하는 동시에 성씨와 이름의 판별 처리를 실시한 후에 후보 문자의 선별을 실시한다. 또한, 이 유사 문자는 문자의 육안 확인 작업을 통해 항상 새로운 유사 문자 정보가 축적될 수 있는 것으로 함으로써 문자 인식의 정밀도 향상을 꾀한다.
본 실시 형태에 따른 업무 단말(200)은 그러한 소정의 서면을 디지털화하는 업무에 이용되는 단말이다. 판독 장치(300)는 스캐너나 촬상 장치 등이며, 업무 단말(200)로부터의 지시에 따라 소정의 서면을 화상 등에 의해 판독하고, 판독한 필기 문자 화상을 업무 단말(200)로 전달한다.
당해 업무에서는 업무 단말(200)은 필기 문자 화상을 받으면 OCR에 의해 디지털화하여 문자열 정보로 변환시키고, 변환시킨 문자열을 문자 후보 제안 장치(100)로 송신하여 문자 후보 제안 장치(100)로부터 안출된 후보 문자를 받는다. 그리고 업무 단말(200)은 후보 문자를 선택적으로 표시하고, 이용자로부터 선택받은 후보 문자를 디지털화 정보로서 이용한다.
또한, 판독 장치(300)는 스캐너에 한정되는 것은 아니며, 카메라가 부착된 휴대전화 단말, 카메라가 부착된 태블릿 단말 등의 화상을 데이터로서 판독 가능한 기기여도 상관 없으며, 네트워크(50)를 통해 업무 단말(200)과 통신 가능하게 접속되는 구성이어도 좋다.
또한, 판독 장치(300)는 필수의 장치는 아니며, 문자 후보 제안 장치(100) 또는 업무 단말(200)이 네트워크(50)를 통해 다른 장치로부터 이미 판독한 화상 데이터나 문자 인식을 실시한 데이터를 수신하고, 문자 후보를 제안하는 것이어도 좋다.
도 2는 필기 문자 식별 시스템의 구성의 예를 나타내는 도이다. 문자 후보 제안 장치(100)는 기억부(110)와, 처리부(120)와, 통신부(130);가 서로 버스 등으로 통신 가능하게 접속된다.
기억부(110)에는 수령 데이터 기억부(111)와, 실존 문자 기억부(112)와, 유사 문자 기억부(115)와, 후보 문자 기억부(116);가 포함된다. 실존 문자 기억부(112)에는 실존하는 인명이나 고유 명사 등의 문자열이 저장된다. 예를 들면, 실존 문자 기억부(112)에는 성씨 기억부(113)와, 이름 기억부(114);가 포함된다. 예를 들면, 일본인의 성씨는 30만 종류 이상 있는 것으로 알려져 있으며, 그 실존이 확인되어 있는 성씨가 성씨 기억부(113)에 저장된다.
도 3은 수령 데이터 기억부의 데이터 구조예를 나타내는 도이다. 수령 데이터 기억부(111)에는 수탁일(111A)과, 의뢰 기업 ID(111B)와, 문서 번호(111C)와, 문자 식별 번호(111D)와, 인식 문자 코드(111E);가 포함된다. 수탁일(111A)은 업무 단말(200)로부터 문자 후보 제안의 의뢰를 수탁한 날을 특정하는 정보이다. 의뢰 기업 ID(111B)는 문자 후보 제안을 의뢰한 기업을 특정하는 정보이다. 문서 번호(111C)는 문자 후보 제안의 의뢰 대상이 된 문서(문서의 화상 데이터)를 특정하는 정보이다. 문자 식별 번호(111D)는 인식 대상의 문서에 포함되는 개개의 문자를 특정하는 정보이다. 인식 문자 코드(111E)는 개개의 문자를 외관으로부터 인식한 결과 얻어진 문자의 문자 코드이다.
도 4는 성씨 기억부의 데이터 구조예를 나타내는 도이다. 성씨 기억부(113)에는 성씨 식별자(113A)와, 성씨(113B)와, 문자수(113C)와, 출현 빈도(113D);가 포함된다. 성씨 식별자(113A)는 성씨를 다른 성씨로부터 식별하는 정보이다. 성씨(113B)는 성씨의 표기 정보이다. 문자수(113C)는 성씨의 표기 상의 문자수이다. 출현 빈도(113D)는 성씨의 총체 중에서의 출현 빈도이다.
도 5는 이름 기억부의 데이터 구조예를 나타내는 도이다. 이름 기억부(114)에는 이름 식별자(114A)와, 이름(114B)과, 문자수(114C)와, 출현 빈도(114D);가 포함된다. 이름 식별자(114A)는 이름을 다른 이름으로부터 식별하는 정보이다. 이름(114B)은 이름의 표기 정보이다. 문자수(114C)는 이름의 표기 상의 문자수이다. 출현 빈도(114D)는 이름의 총체 중에서의 출현 빈도이다.
도 6은 유사 문자 기억부의 데이터 구조예를 나타내는 도이다. 유사 문자 기억부(115)에는 문자 코드(115A)와, 유사 문자 코드(115B)와, 출현 빈도(115C)와, 기억일(115D);이 포함된다. 문자 코드(115A)는 서로 유사 관계에 있는 문자 중 기준으로 하는 문자의 코드이다. 유사 문자 코드(115B)는 문자 코드(115A)로 특정되는 문자와 외관상 유사한 문자 코드이다. 출현 빈도(115C)는 문자의 사용에 있어서 유사 관계로서 출현하는 빈도이다. 기억일(115D)은 유사 관계로서 기억된 날을 특정하는 정보이다.
도 7은 후보 문자 기억부의 데이터 구조예를 나타내는 도이다. 후보 문자 기억부(116)에는 문자 식별 번호(116A)와, 후보 문자 코드(116B);가 포함된다. 문자 식별 번호(116A)는 인식 대상의 문서에 포함되는 개개의 문자를 특정하는 정보이다. 후보 문자 코드(116B)는 OCR로 인식된 문자와는 다른 문자 후보로서, 유사하며, 또한, 실존하는 문자의 코드이다.
처리부(120)에는 수탁 처리부(121)와, 성명 판별 처리부(122)와, 대조 처리부(123)와, 유사 문자 등록 처리부(124)와, 후보 문자 송신 처리부(125);가 포함된다.
수탁 처리부(121)는 업무 단말(200)로부터의 문자 후보의 제안 의뢰를 수탁한다. 성명 판별 처리부(122)는 복수의 문자열의 문자 후보의 제안을 받은 경우에 성명의 구분 위치를 한 문자씩 변화시켜 나눈 성과 이름의 조합을 특정하여 성명으로서 성립하는지 여부를 판별한다. 대조 처리부(123)는 실존 문자 기억부(112)와 대조하고 실존하는 문자 후보인지 여부를 판정한다. 유사 문자 등록 처리부(124)는 미등록의 유사 관계로서 업무 단말(200)로부터 보고된 문자를 유사 문자 기억부(115)에 등록한다. 후보 문자 송신 처리부(125)는 대조 처리부(123)에 의한 대조의 결과 히트한 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력한다. 구체적으로는 후보 문자 송신 처리부(125)는 후보 문자 기억부(116)에 저장된 후보를 업무 단말(200)에 출력(송신)하는 것으로 안출을 실현한다. 통신부(130)는 네트워크(50)를 통해 다른 장치와 통신을 실시한다.
업무 단말(200)은 기억부(210)와, 처리부(220)와, 통신부(230);가 서로 버스 등으로 통신 가능하게 접속된다.
기억부(210)에는 문자 기억부(211)와, 후보 문자 기억부(212)와, 화상 기억부(213);가 포함된다.
도 8은 문자 기억부의 데이터 구조예를 나타내는 도이다. 문자 기억부(211)에는 화상 데이터 번호(211A)와, 판독일(211B)과, 문자 식별 번호(211C)와, 화상(211D);이 포함된다.
화상 데이터 번호(211A)는 판독 장치(300)가 판독한 문자열의 화상을 특정하는 정보이다. 판독일(211B)은 판독 장치(300)가 문서를 판독한 날을 특정하는 정보이다. 문자 식별 번호(211C)는 인식 대상의 문서에 포함되는 개개의 문자를 특정하는 정보이다. 화상(211D)은 문자 식별 번호(211C)로 특정되는 문자 단독의 화상 데이터(판독 장치(300)가 판독한 화상의 일부)를 특정하는 정보이다.
도 9는 화상 기억부의 데이터 구조예를 나타내는 도이다. 화상 기억부(213)에는 화상 데이터 번호(213A)와, 문서 번호(213B)와, 판독일(213C)과, 화상(213D);이 포함된다.
화상 데이터 번호(213A)는 판독 장치(300)가 판독한 문자열의 화상을 특정하는 정보이다. 문서 번호(213B)는 문자 후보 제안의 의뢰 대상이 된 문서(문서의 화상 데이터)를 특정하는 정보이다. 판독일(213C)은 판독 장치(300)가 문서를 판독한 날을 특정하는 정보이다. 화상(213D)은 판독 장치(300)가 판독한 화상을 특정하는 정보이다.
처리부(220)에는 문자 인식부(221)와, 위탁 처리부(222)와, 육안 확인 처리부(223)와, 유사 문자 보고 처리부(224);가 포함된다. 문자 인식부(221)는 소위 OCR의 엔진이며, 판독 장치(300)로부터 취득한 필기 문자 화상을 해석하여 문자를 인식한다.
위탁 처리부(222)는 문자 인식부(221)에 의한 오독에 기인하는 재작업이나 절차의 오류를 배제하기 위해 문자 후보 제안 장치(100)에 정밀도가 높은 후보 문자의 제안을 위탁한다.
육안 확인 처리부(223)는 문자 후보 제안 장치(100)로부터 출력된 문자 후보의 각각을 육안으로 확인할 수 있도록 선택적으로 표시하고, 이용자로부터 후보 중 어느 하나의 선택을 접수한다.
유사 문자 보고 처리부(224)는 이용자가 유사한 문자인 것으로 인식한 문자의 입력을 접수하고 문자 후보 제안 장치(100)에 유사 문자로서 등록하도록 보고한다.
통신부(230)는 네트워크(50)를 통해 다른 장치와 통신을 실시한다.
그 외에 업무 단말(200)은 도시하지 않지만, 이용자로부터의 입력을 접수하는 입력부와, 화면이나 장표 등의 각종 출력 정보를 출력하는 출력부;를 구비한다. 예를 들어, 입력부는 타이핑이나 터치, 플릭 입력 등의 각종 접촉 입력 혹은 음성 입력 또는 시선 입력 등의 각종 입력을 접수한다.
도 10은 문자 후보 제안 장치(100)의 하드웨어 구성예를 나타내는 도이다. 문자 후보 제안 장치(100)는 소위 서버 장치, 워크 스테이션, 개인용 컴퓨터, 스마트폰 혹은 태블릿 단말의 케이스에 의해 실현되는 하드웨어 구성을 구비한다. 문자 후보 제안 장치(100)는 연산 장치(101)와, 주기억 장치(102)와, 보조 기억 장치(103)와, 통신 장치(104)와, 각 장치를 연결하는 버스(107);를 구비한다. 업무 단말(200)에 대해서도 마찬가지이다. 또한 그 외에 업무 단말(200)은 터치 패널이나 키보드, 마이크, 디스플레이 등의 입출력 장치를 구비한다.
연산 장치(101)는 예를 들면 CPU(Central Processing Unit) 등의 연산 장치이다.
주기억 장치(102)는 예를 들면 RAM(Random Access Memory) 등의 메모리 장치이다.
보조 기억 장치(103)는 디지털 정보를 기억 가능한 소위 하드 디스크(Hard Disk Drive)나 SSD(Solid State Drive) 혹은 플래시 메모리 등의 비휘발성 기억 장치이다.
통신 장치(104)는 네트워크 카드 등의 유선 통신 장치 혹은 무선 통신 장치이다.
상기한 문자 후보 제안 장치(100)의 수탁 처리부(121)와, 성명 판별 처리부(122)와, 대조 처리부(123)와, 유사 문자 등록 처리부(124)와, 후보 문자 송신 처리부(125);는 연산 장치(101)에 처리를 실시하게 하는 프로그램에 의해 실현된다. 이 프로그램은 주기억 장치(102), 보조 기억 장치(103) 또는 도시되지 않는 ROM 장치 내에 기억되고, 실행에 있어서 주기억 장치(102) 상에 로드되고, 연산 장치(101)에 의해 실행된다.
또한, 문자 후보 제안 장치(100)의 기억부(110)는 주기억 장치(102) 및 보조 기억 장치(103)에 의해 실현된다. 또한, 통신부(130)는 통신 장치(104)에 의해 실현된다. 이상이 문자 후보 제안 장치(100)의 하드웨어 구성예이다.
문자 후보 제안 장치(100)의 구성은 처리 내용에 따라 더 많은 구성 요소로 분류할 수도 있다. 또한, 하나의 구성 요소가 더 많은 처리를 실행하도록 분류할 수도 있다.
또한, 각 처리부(수탁 처리부(121)와, 성명 판별 처리부(122)와, 대조 처리부(123)와, 유사 문자 등록 처리부(124)와, 후보 문자 송신 처리부(125))는 각각의 기능을 실현하는 전용의 하드웨어(ASIC, GPU 등)에 의해 구축되어도 좋다. 또한, 각 처리부의 처리가 하나의 하드웨어로 실행되어도 좋고, 복수의 하드웨어로 실행되어도 좋다.
다음으로, 본 실시 형태에 있어서의 필기 문자 식별 시스템(1)의 동작을 설명한다.
도 11은 필기 문자 인식의 전체 처리 흐름의 예를 나타내는 도이다. 필기 문자 인식 처리는 이용자가 업무 단말(200)로부터 개시를 지시하는 것에 의해 기동된다.
우선, 업무 단말(200)은 판독 장치(300)에 문서의 화상 데이터의 판독을 요구한다(단계 S10). 구체적으로는, 문자 인식부(221)는 판독 장치(300)에 스캔 혹은 촬영의 개시를 지시한다.
판독 장치(300)는 업무 단말(200)로부터의 요구을 받고 당해 문서의 화상을 판독하고, 화상 데이터를 작성하여 업무 단말(200)로 응답한다(단계 S11).
업무 단말(200)의 문자 인식부(221)는 판독 장치(300)로부터 화상 데이터를 수령하고, 화상 기억부(213)에 기억하고, OCR 엔진으로 문자 인식 처리를 실행한다(단계 S12). 그리고 인식한 문자 데이터를 문자 기억부(211)에 저장한다(단계 S13). 또한, 이 OCR 엔진은 업무 단말(200)이 접속 가능한 네트워크 상에 놓여져 있는 PC 단말, 서버 단말 등에 실장되고, 업무 단말(200)로부터 문자 인식 처리를 지시하는 것으로 실행하는 구성이어도 좋다.
그리고 업무 단말(200)에서는 인식한 문자를 위탁 처리부(222)가 문자 후보 제안 장치(100)에 대해 송신하고, 문자 후보의 제안 처리를 위탁한다(단계 S14).
그리고 문자 후보 제안 장치(100)의 수탁 처리부(121)는 업무 단말(200)로부터 인식한 문자를 수령하여 수령 데이터 기억부(111)에 저장한다(단계 S15).
그리고 대조 처리부(123)가, 수령한 문자 데이터를 실존 문자 기억부(112)와, 유사 문자 기억부(115)와 대조한다(단계 S16).
그리고 대조 처리부(123)가, 후보 문자를 선별하고, 후보 문자 기억부(116)에 저장한다(단계 S17).
그리고 후보 문자 송신 처리부(125)가, 후보 문자를 업무 단말(200)로 송신한다(단계 S18).
업무 단말(200)의 위탁 처리부(222)는 후보 문자를 수령하고, 후보 문자 기억부(212)에 저장한다(단계 S19).
그리고 육안 확인 처리부(223)는 후보 문자와 화상 기억부의 화상을 대비하는 화면을 출력한다(단계 S20). 보다 구체적으로는, 예를 들어, 당해 화면에는 판독 장치(300)에 의해 판독한 필기 문자 화상과, 그 후보 문자가 선택 입력 가능하도록 복수 표시된다.
이용자로부터 유사 문자의 등록 지시를 접수하면, 유사 문자 보고 처리부(224)는 후보 문자 이외에 단일 문자로 유사한 문자가 있으면 입력을 접수하고, 문자 후보 제안 장치(100)로 응답한다(단계 S21).
문자 후보 제안 장치(100)의 유사 문자 등록 처리부(124)는 유사 문자를 수령하고, 유사 문자 기억부(115)에 미저장인 경우에는 저장한다(단계 S22).
이상이 필기 문자 인식의 전체 처리 흐름의 예이다. 필기 문자 인식의 전체 처리에 의하면, 유사한 문자열 후보를 보다 적절하게 제안할 수 있다.
도 12는 성명 구분 대조 처리의 흐름의 예를 나타내는 도이다. 성명 구분 대조 처리는 필기 문자 인식의 전체 처리 흐름 중의 단계 S16 내지 S18의 처리를 일련으로서 실시하는 처리의 예이다.
우선, 성명 판별 처리부(122)는 총 문자수(n)를 특정한다(단계 S1601). 예를 들어, "小山田伸"의 성명이 후보 제시의 대상이 되는 문자열인 경우에는 성명 판별 처리부(122)는 "小" "山" "田" "伸"의 각 한자를 한 문자로 하고 총 문자수(n)를 "4"로 특정한다.
그리고 성명 판별 처리부(122)는 선두로부터 d(d는 1 이상 n 미만, 초기값 1)문자를 성씨로 하고 나머지 문자를 이름으로 하도록 분해한다(단계 S1602).
대조 처리부(123)는 성씨를 구성하는 문자를 한 글자씩 분해하여 유사 문자 기억부(115)와 대조하고, 유사한 문자의 조합을 성씨 기억부(113)와 대조하여 실재하는 성씨 후보를 선출한다(단계 S1603).
그리고 성명 판별 처리부(122)는 유사 문자 기억부(115)에 해당한 성씨 후보가 없었는지 여부를 판정한다(단계 S1604). 성씨 후보가 없었던 경우(단계 S1604에서 "Yes"의 경우)에는 성명 판별 처리부(122)는 제어를 후술하는 단계 S1611로 진행시킨다.
성씨 후보가 있었던 경우(단계 S1604에서 "No"의 경우)에는 성명 판별 처리부(122)는 당해 성씨 후보에는 성씨 기억부(113)에 하나라도 해당하는 것이 있었는지 여부를 판정한다(단계 S1605). 성씨 기억부(113)에 해당하는 것이 없었던 경우(단계 S1605에서 "No"의 경우)에는 성명 판별 처리부(122)는 제어를 후술하는 단계 S1611로 진행시키다.
성씨 후보에 성씨 기억부(113)에 해당하는 성씨가 있었던 경우(단계 S1605에서 "Yes"의 경우)에는 성명 판별 처리부(122)는 선출한 모든 성씨 후보를 일시 보관한다(단계 S1606).
그리고 대조 처리부(123)는 이름을 구성하는 문자를 한 글자씩 분해하여 유사 문자 기억부(115)와 대조하고, 유사한 문자의 조합을 이름 기억부(114)와 대조하여 실재하는 이름 후보를 선출한다(단계 S1607).
그리고 성명 판별 처리부(122)는 유사 문자 기억부(115)에 해당한 이름 후보가 없었는지 여부를 판정한다(단계 S1608). 이름 후보가 없었던 경우(단계 S1608에서 "Yes"의 경우)에는 성명 판별 처리부(122)는 제어를 후술하는 단계 S1611로 진행시킨다.
이름 후보가 있었던 경우(단계 S1608에서 "No"의 경우)에는 성명 판별 처리부(122)는 당해 이름 후보에는 이름 기억부(114)에 하나라도 해당하는 것이 있었는지 여부를 판정한다(단계 S1609). 이름 기억부(114)에 해당하는 것이 없었던 경우(단계 S1609에서 "No"의 경우)에는 성명 판별 처리부(122)는 제어를 후술하는 단계 S1611로 진행시킨다.
이름 후보에 이름 기억부(114)에 해당하는 이름이 있었던 경우(단계 S1609에서 "Yes"의 경우)에는 성명 판별 처리부(122)는 선출한 모든 이름 후보를 일시 보관한다(단계 S1610).
그리고 성명 판별 처리부(122)는 성씨의 문자수(d)를 인크리멘트(+1)한다(단계 S1611).
그리고 성명 판별 처리부(122)는 성씨의 문자수(d)가 총 문자수(n)와 일치하는지 여부를 판정한다(단계 S1612). 일치하지 않는 경우(단계 S1612에서 "No"의 경우)에는 성명 판별 처리부(122)는 제어를 단계 S1602로 되돌린다.
성씨의 문자수(d)가 총 문자수(n)와 일치하는 경우(단계 S1612에서 "Yes"의 경우)에는 성명 판별 처리부(122)는 일시 보관한 성씨 후보 및 이름 후보(성씨 길이 + 이름 길이가 총 문자수(n)와 일치하는 것)의 조가 있는지 여부 즉, 결과로서 히트한 성명의 조합이 있는지 여부를 판정한다(단계 S1613).
일시 보관한 성씨 후보 및 이름 후보(성씨 길이 + 이름 길이가 총 문자수(n)와 일치하는 것)의 조가 없는 경우(단계 S1613에서 "No"의 경우)에는 후보 문자 송신 처리부(125)는 업무 단말(200)에 대해 판별 불능을 통지한다(단계 S1614).
일시 보관한 성씨 후보 및 이름 후보(성씨 길이 + 이름 길이가 총 문자수(n)와 일치하는 것)의 조가 있는 경우(단계 S1613에서 "Yes"의 경우)에는 후보 문자 송신 처리부(125)는 업무 단말(200)에 대해 문자 후보를 송신한다(단계 S1801). 그 때, 후보 문자 송신 처리부(125)는 일시 보관한 성씨 후보 및 이름 후보의 조마다 출현 빈도의 순서에 따라 정렬시켜 송신한다. 즉, 후보 문자 송신 처리부(125)는 출현 빈도가 높은 문자로 구성되어 있는 성씨 후보 및 이름 후보의 순서로 송신한다.
이상이 성명 구분 대조 처리의 흐름의 예이다. 성명 구분 대조 처리에 의하면, 하나 이상의 문자로 이루어지는 성명에 대해 성명의 구분 위치를 바꾸어 각각의 유사 문자를 적용하고, 실존하는 후보를 특정할 수 있다. 예를 들면, 상기의 "小山田伸"의 성명의 경우 "田"과 "由"가 유사 문자이며, 두 문자의 성씨 "小山"과 나머지 부분의 이름 "由伸"으로 하는 후보와, 세 문자의 성씨 "小山田"과 나머지 부분의 이름 "伸"으로 하는 후보;를 포함하는 후보 문자를 특정할 수 있다.
도 13은 후보 문자 수령 처리의 흐름의 예를 나타내는 도이다. 후보 문자 수령 처리는 필기 문자 인식의 전체 처리 흐름 중의 단계 S19 내지 S21의 처리를 일련으로서 실시하는 처리의 예이다.
우선, 위탁 처리부(222)는 수령한 후보 문자를 후보 문자 기억부(212)에 기억시킨다(단계 S191).
그리고 육안 확인 처리부(223)는 후보 문자와 필기 문자 화상을 확인 표시한다(단계 S201). 이 확인 표시의 화면예에 대해서는 후술한다.
그리고 육안 확인 처리부(223)는 후보 문자의 선택 입력을 접수한다(단계 S202). 이에 따라 필기 문자의 디지털화를 확정한다.
또한, 유사 문자 보고 처리부(224)는 새로운 유사 문자의 입력이 있는지 여부를 판정한다(단계 S211). 새로운 유사 문자의 입력이 없는 경우(단계 S211에서 "No"의 경우)에는 유사 문자 보고 처리부(224)는 후보 문자 수령 처리를 종료시킨다.
새로운 유사 문자의 입력이 있는 경우(단계 S211에서 "Yes"의 경우)에는 유사 문자 보고 처리부(224)는 문자 후보 제안 장치(100)에 대해 새로운 유사 문자가 되는 정보를 송신한다(단계 S212).
이상이 후보 문자 수령 처리의 흐름의 예이다. 후보 문자 수령 처리에 의하면, 문자 후보 제안 장치(100)로부터 후보 문자를 수령하고 필기 문자와 대비하면서 후보를 선택 입력 가능하게 된다. 또한, 유사 문자를 발견했을 경우에 문자 후보 제안 장치(100)로 보고하고, 새롭게 유사 문자로서 등록하도록 의뢰할 수 있다.
도 14는 유사 문자 등록 처리의 흐름의 예를 나타내는 도이다. 유사 문자 등록 처리는 후보 문자 수령 처리에 있어서 유사 문자가 되는 정보가 업무 단말(200)로부터 문자 후보 제안 장치(100)로 송신된 경우에 문자 후보 제안 장치(100)에서 개시된다.
우선, 유사 문자 등록 처리부(124)는 수령한 유사 문자의 정보가 유사 문자 기억부(115)에 이미 기억되어 있는지 여부를 판정한다(단계 S2201).
수령한 유사 문자의 정보가 유사 문자 기억부(115)에 이미 기억되어 있지 않는 경우(단계 S2201에서 "No"의 경우)에는 유사 문자 등록 처리부(124)는 유사 문자의 조합을 일대일로 특정한다(유사 관계에 있는 문자를 일대일의 조합으로 분해한다)(단계 S2202).
그리고 유사 문자 등록 처리부(124)는 서로 유사한 문자의 양쪽에 대해 각각 서로를 유사로서 유사 문자 기억부(115)에 저장한다(단계 S2203).
수령한 유사 문자의 정보가 유사 문자 기억부(115)에 이미 기억되어 있는 경우(단계 S2201에서 "Yes"의 경우)에는 유사 문자 등록 처리부(124)는 업무 단말(200)에 등록 완료의 취지를 통지한다(단계 S2204).
그리고 유사 문자 등록 처리부(124)는 서로 유사한 문자의 양쪽에 대해 각각 서로의 출현 빈도를 소정량 증가시킨다(단계 S2205).
이상이 유사 문자 등록 처리의 흐름의 예이다. 유사 문자 등록 처리에 의하면, 업무 단말(200)로부터 등록하도록 의뢰가 있던 유사 문자가 새로운 관계이면 유사로서 등록하고, 이미 등록 완료의 것인 경우에는 출현 빈도를 높일 수 있다.
도 15는 후보 제시 화면의 예를 나타내는 도이다. 후보 제시 화면(400)은 필기 문자 인식 전체 처리 흐름의 단계 S20, 후보 문자 수령 처리의 단계 S201에서 출력되는 화면이다. 육안 확인을 실시할 원데이터(판독 장치(300)에서 판독한 필기 문자 화상)가 원데이터 표시 영역(401)에 표시되고, 육안 확인을 실시할 대상인 후보 문자는 성씨 후보 표시 영역(402)과, 이름 후보 표시 영역(403)에 표시된다. 성씨 후보 표시 영역(402)과, 이름 후보 표시 영역(403)에는 문자 후보 제안 장치(100)가 가장 출현율이 높은 후보로서 제안한 후보 문자가 표시된다. 성씨 후보 결정 버튼(404)은 입력을 접수하면 성씨 후보 표시 영역(402)에 표시된 성씨를 확정시킨다. 이름 후보 결정 버튼(405)은 입력을 접수하면 이름 후보 표시 영역(403)에 표시된 이름을 확정시킨다.
다음 후보 이후의 후보 문자는 각각 성씨 다음 후보 표시 영역(406)과, 이름 다음 후보 표시 영역(407);에 출현 빈도 순서로 정렬되어 선택 가능하게 리스트 표시된다. 성씨 다음 후보 표시 영역(406)과, 이름 다음 후보 표시 영역(407);은 리스트된 문자의 선택을 접수한다. 성씨 다음 후보 결정 버튼(408)은 입력을 접수하면 성씨 다음 후보 표시 영역(406)에서 선택된 성씨를 확정시킨다. 이름 다음 후보 결정 버튼(409)은 입력을 접수하면 이름 다음 후보 표시 영역(407)에서 선택된 이름을 확정시킨다.
유사 문자 등록 영역(410) 및 유사 문자 등록 영역(411)은 각각 문자의 입력을 접수한다. 등록 버튼(412)은 입력을 접수하면 유사 문자 등록 영역(410) 및 유사 문자 등록 영역(411)에 입력된 문자를 유사 관계에 있는 문자로서 접수하고, 문자 후보 제안 장치(100)로의 등록 처리를 개시시킨다. 즉, 육안 확인 결과 육안 작업 담당자(이용자)가 새로운 유사 문자로서 등록의 필요성을 느끼는 문자가 있는 경우 유사 문자 등록 영역(410) 및 유사 문자 등록 영역(411)에 당해 문자를 입력하고, 등록 버튼(412)을 선택하는 것으로 등록이 가능하게 된다. 또한, 필요에 따라 되돌아감 버튼(413), 다음 화면 버튼(414)에의 입력을 접수하면 전후의 업무 화면으로 천이된다.
도 16은 성씨 후보 제시예를 나타내는 도이다. 본 실시 형태를 적용한 필기 문자 식별 시스템(1)에서는 판독 장치(300) 및 문자 인식부(221)가 오독한 경우에도 제시되는 후보에 정해(正解)가 되는 문자가 포함될 가능성이 높아지는데, 이에 대해 구체적으로 나타낸다.
정해가 되는 "川本"(a)의 성씨를 OCR 등의 문자 인식 엔진이 "小木"(b)으로 오독한 경우, 오독인 "小木"(b)에 대해 실존하는 성씨와의 대조를 실시하면 본래의 정해가 되는 "川本"(a)의 문자 후보의 순위가 열후 또는 후보 누락이 발생할 가능성이 있다.
오독인 "小木"(b)을 "小"(c)와 "木"(d)으로 문자를 분해하고, 각각을 유사 문자 기억부(115)와 대조하고, 각각 출현 빈도가 높은 순서로 유사 문자를 특정한다(e, f). 이어서 출현 빈도가 높은 문자끼리를 합성한 성씨와 성씨 기억부(113)를 대조하는 것에 의해 후보 문자(g)를 선별하여 정렬시킨다. 이에 따라 오독이 있었던 경우도 유사 문자 기억부(115)와의 대조를 실행하는 것으로 정해인 "川本"(a)의 열후 또는 후보 누락을 피하는 동시에 문자 인식률의 향상을 기대할 수 있다.
이상이 실시 형태에 따른 필기 문자 식별 시스템의 예이다. 상기 실시 형태에 따른 필기 문자 식별 시스템의 예에 의하면, 필기 문자를 판독한 화상에 대해 유사한 문자열 후보를 보다 적절하게 제안할 수 있기 때문에 이용자는 제시된 후보에서 선택하는 것만으로 원활하게 필기 문자의 판독 업무를 실시할 수 있다.
또한, 상기 실시 형태의 예에서는 필기 문자의 대상으로서 성명을 예시했지만, 이에 한정되지 않으며, 대조하는 실존 문자 기억부(112)를 교체하는 것에 의해 주소 등 모든 다른 문자 데이터에 대해서도 적용이 가능하다.
또한, 상기한 실시 형태의 기술적 요소는 단독으로 적용되어도 좋고, 프로그램 부품과 하드웨어 부품과 같은 복수의 부분으로 나뉘어져 적용되도록 해도 좋다.
이상, 본 발명에 대하여 실시 형태를 중심으로 설명했다.
1 필기 문자 식별 시스템
50 네트워크
100 문자 후보 제안 장치
110 기억부
111 수령 데이터 기억부
112 실존 문자 기억부
113 성씨 기억부
114 이름 기억부
115 유사 문자 기억부
116 후보 문자 기억부
120 처리부
121 수탁 처리부
122 성명 판별 처리부
123 대조 처리부
124 유사 문자 등록 처리부
125 후보 문자 송신 처리부
130 통신부
200 업무 단말
210 기억부
211 문자 기억부
212 후보 문자 기억부
213 화상 기억부
220 처리부
221 문자 인식부
222 위탁 처리부
223 육안 확인 처리부
224 유사 문자 보고 처리부
230 통신부
300 판독 장치

Claims (10)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 문자 후보 제안 장치와, 상기 문자 후보 제안 장치와 네트워크를 통해 통신 가능하게 접속되는 업무 단말과, 상기 업무 단말로부터의 지시에 따라 필기 문자를 판독하는 판독 장치;를 포함하는 필기 문자 식별 시스템으로서,
    상기 업무 단말은 상기 판독 장치로부터 상기 필기 문자를 취득하여 문자 인식을 실시하는 문자 인식부와,
    상기 문자 인식부에 의해 인식된 문자를 상기 문자 후보 제안 장치로 송신하여 문자 후보의 제안을 위탁하는 위탁 처리부와,
    상기 문자 후보 제안 장치로부터 출력된 문자 후보를 표시하는 육안 확인 처리부;를 구비하며,
    상기 문자 후보 제안 장치는,
    문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와,
    실존하는 문자열을 기억하는 실존 문자 기억부와,
    하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리부와,
    수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리부와,
    상기 대조 처리부에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리부;
    를 구비하는 것
    을 특징으로 하는 필기 문자 식별 시스템.
  9. 문자 후보 제안 장치와, 상기 문자 후보 제안 장치와 네트워크를 통해 통신 가능하게 접속되는 업무 단말과, 상기 업무 단말로부터의 지시에 따라 필기 문자를 판독하는 판독 장치;를 포함하는 필기 문자 식별 시스템에 의한 필기 문자 식별 방법으로서,
    상기 업무 단말은 상기 판독 장치로부터 상기 필기 문자를 취득하여 문자 인식을 실시하는 문자 인식 단계와,
    상기 문자 인식 단계에서 인식된 문자를 상기 문자 후보 제안 장치로 송신하여 문자 후보의 제안을 위탁하는 위탁 처리 단계와,
    상기 문자 후보 제안 장치로부터 출력된 문자 후보를 표시하는 육안 확인 처리 단계;를 실행하며,
    상기 문자 후보 제안 장치는,
    문자의 외관의 유사 관계를 기억하는 유사 문자 기억부와,
    실존하는 문자열을 기억하는 실존 문자 기억부;를 구비하며,
    하나 이상의 문자를 수신하여 상기 문자의 외관이 유사한 문자 후보의 안출을 수탁하는 수탁 처리 단계와,
    수신한 상기 문자와 외관이 유사한 문자의 후보를 상기 유사 문자 기억부와 대조하는 것으로 특정하고, 상기 외관이 유사한 문자의 후보의 조합 중 상기 실존 문자 기억부에 기억된 상기 실존하는 문자열과 대조하는 대조 처리 단계와,
    상기 대조 처리 단계에 의한 대조의 결과 히트한 상기 외관이 유사한 문자의 후보의 조합을 후보 문자로서 출력하는 후보 문자 송신 처리 단계;
    를 실행하는 것을 특징으로 하는 필기 문자 식별 방법.
  10. 삭제
KR1020217000508A 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램 KR102465524B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227038076A KR102572500B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019163641A JP7297610B2 (ja) 2019-09-09 2019-09-09 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
JPJP-P-2019-163641 2019-09-09
PCT/JP2020/011553 WO2021049070A1 (ja) 2019-09-09 2020-03-16 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227038076A Division KR102572500B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램

Publications (2)

Publication Number Publication Date
KR20210032380A KR20210032380A (ko) 2021-03-24
KR102465524B1 true KR102465524B1 (ko) 2022-11-11

Family

ID=74864169

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020227038076A KR102572500B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램
KR1020217000508A KR102465524B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227038076A KR102572500B1 (ko) 2019-09-09 2020-03-16 문자 후보 제안 장치, 필기 문자 식별 시스템, 필기 문자 식별 방법 및 프로그램

Country Status (5)

Country Link
JP (2) JP7297610B2 (ko)
KR (2) KR102572500B1 (ko)
CN (1) CN112789624A (ko)
TW (2) TWI795292B (ko)
WO (1) WO2021049070A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI814564B (zh) * 2022-08-31 2023-09-01 台灣大哥大股份有限公司 文字圖像拆分系統及其方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103082A (ja) 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置
JP2892376B2 (ja) * 1989-07-06 1999-05-17 沖電気工業株式会社 文字認識処理装置
JP4066507B2 (ja) * 1998-05-11 2008-03-26 日本電信電話株式会社 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP6822261B2 (ja) 2017-03-24 2021-01-27 沖電気工業株式会社 情報処理装置、プログラムおよび情報処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103082A (ja) 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム

Also Published As

Publication number Publication date
KR20210032380A (ko) 2021-03-24
KR102572500B1 (ko) 2023-08-30
JP2021043570A (ja) 2021-03-18
TWI795292B (zh) 2023-03-01
KR20220153096A (ko) 2022-11-17
JP7297610B2 (ja) 2023-06-26
WO2021049070A1 (ja) 2021-03-18
CN112789624A (zh) 2021-05-11
JP2023110102A (ja) 2023-08-08
JP7490861B2 (ja) 2024-05-27
TW202115603A (zh) 2021-04-16
TWI766360B (zh) 2022-06-01
TW202234289A (zh) 2022-09-01

Similar Documents

Publication Publication Date Title
EP3440591B1 (en) Improving optical character recognition (ocr) accuracy by combining results across video frames
US9569678B2 (en) Method and system to authenticate an object
US10783366B2 (en) Computer and document identification method
CN101542504B (zh) 后光学字符识别处理中的形状聚类
US20150186634A1 (en) Biometric access system
US10949610B2 (en) Computing machine and template management method
JP7490861B2 (ja) 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
JP2016024488A (ja) 画像処理装置および画像処理装置の制御方法
JP6529254B2 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP2016170677A (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
US11531737B1 (en) Biometric identity disambiguation
JP2016018454A (ja) 画像処理装置および画像処理装置の制御方法
US10498910B2 (en) Image forming apparatus for displaying conference information, non-transitory computer-readable recording medium, conference system and method for controlling conference system
JP2008152357A (ja) テキスト認識システム、テキスト認識方法、テキスト認識プログラム
CN113168527A (zh) 用于从实体文档提取信息的系统和方法
JP2016111482A (ja) 画像処理装置および画像処理装置の制御方法
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
US20230177859A1 (en) Document Processing Method, and Information Processing Device
JP2011100332A (ja) 姓名による属性解析方法、プログラム及びシステム
US20240112487A1 (en) Systems and methods for automated paperwork
EP4220453A1 (en) System and method for enhancing biometric matching accuracy
PAUL FINGERPRINT BIOMETRICS ATTENDANCE SYSTEM USING MOUNTAIN TOP UNIVERSITY AS A CASE STUDY
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
CN109388935A (zh) 单证验证方法及装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant