KR101790544B1 - 정보 처리 장치, 정보 처리 방법, 및 기억 매체 - Google Patents

정보 처리 장치, 정보 처리 방법, 및 기억 매체 Download PDF

Info

Publication number
KR101790544B1
KR101790544B1 KR1020140035063A KR20140035063A KR101790544B1 KR 101790544 B1 KR101790544 B1 KR 101790544B1 KR 1020140035063 A KR1020140035063 A KR 1020140035063A KR 20140035063 A KR20140035063 A KR 20140035063A KR 101790544 B1 KR101790544 B1 KR 101790544B1
Authority
KR
South Korea
Prior art keywords
character
correction
character string
command
string
Prior art date
Application number
KR1020140035063A
Other languages
English (en)
Other versions
KR20150017290A (ko
Inventor
사토시 구보타
?이치 기무라
Original Assignee
후지제롯쿠스 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지제롯쿠스 가부시끼가이샤 filed Critical 후지제롯쿠스 가부시끼가이샤
Publication of KR20150017290A publication Critical patent/KR20150017290A/ko
Application granted granted Critical
Publication of KR101790544B1 publication Critical patent/KR101790544B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

정보 처리 장치는 복수의 수정 명령을 저장하는 저장 수단과; 상기 저장 수단에 저장된 수정 명령을 해석하는 해석 수단과; 상기 해석 수단에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 수단을 갖고, 상기 해석 수단은, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과, 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고, 상기 수정 수단은, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환한다.

Description

정보 처리 장치, 정보 처리 방법, 및 기억 매체{INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND STORAGE MEDIUM}
본 발명은 정보 처리 장치, 정보 처리 방법, 및 기억 매체에 관한 것이다.
일본국 특개평02-170292호 공보에는, 처리 방법이 간이하며, 문자 피치가 일정하지 않은 문서, 전각이나 반각이나 배각 등의 문자가 혼재하는 문서 등에서도, 고정밀도로, 또한 고속으로 문자 판독을 행할 수 있는 문자 인식 후처리 방법을 제공하는 것을 목적으로 하고, 문자열 패턴으로부터 개개의 문자를 잘라내어 문자 인식을 행하는 문자 판독에 있어서의 당해 문자의 오절출(誤切出)에 의한 오인식을 정정하는 문자 인식 후처리 방법이며, 문자의 오절출에 의해 오인식된 개소를 정정하는 정보로부터 후보 문자열 집합을 추출하고, 이 후보 문자열 집합에 대한 정답 문자열의 관계를 정정 규칙으로서 등록하고, 이 정정 규칙을 이후의 문자 인식 결과에 적용함으로써, 당해 정정 규칙 내의 정답 문자열을 이후의 문자 인식 결과의 제1위 후보 문자열로 치환하는 것이 개시되어 있다.
일본국 특개평05-298488호 공보에는, 문자 기입틀이 없는 슬립(slip)에서도 문자를 신속하게 판독 기입하는 것이 가능한 광학적 문자 판독 장치를 제공하는 것을 목적으로 하고, 이미지 검출단에서, 스캐너가 슬립을 광학적으로 주사하여, 시트 버퍼가 슬립 이미지를 저장하고, 문자 절출단은, 저장된 슬립 이미지 중, 제어부로부터 송출된 포맷 컨트롤 정보에서 지정된 판독 필드에 대해서 수직 사영을 검출하고, 그에 의거하여 슬립 이미지로부터 1문자마다 문자 패턴을 잘라내어, 인식단에 출력하고, 인식단은, 기입 문자 패턴에 대해서, 인식 사전을 사용하여 문자 인식 처리를 행하고, 그 결과를 후처리단에 출력하고, 후처리단은, 단어 사전부에 저장되어 있는 단어 및 에러 문자열과 인식부에서의 후보 문자열을 비교, 대조하여 정답 단어를 정하여, 출력 버퍼에 출력하는 것이 개시되어 있다.
일본국 특개평07-306917호 공보에는, 문자 인식 수단이 문자의 절출 방법이 잘못되어 결합 문자 또는 분리 문자를 오인식했을 때, 유저가 문자의 절출 방법의 수정을 지시하지 않아도, 결합 문자 또는 분리 문자의 문자 인식을 간단하게, 또한 확실하게 실행할 수 있는 문자 인식 장치를 얻는 것을 목적으로 하고, 문자 인식 장치는, 필기 문자 등의 문자 패턴 데이터의 문자 인식을 행하는 문자 인식 수단과, 이 문자 패턴 데이터에 해당하는 문자로서 문자 인식 수단에 의해 인식된 인식 결과 문자, 및 이 인식 결과 문자의 후보가 되는 문자군을 기억하는 기억 수단과, 복수 개의 문자로 구성되며, 그 복수 개의 문자와는 상이한 조합 문자와, 상기 복수 개의 문자와의 대응 관계를 미리 기억한 문자 테이블과, 문자 테이블을 참조하여, 문자 인식 수단에 의해 인식되어서 기억 수단에 기억되어 있는 인식 결과 문자 및 이 인식 결과 문자에 대한 후보에 의거하여 새로운 문자를 생성하는 문자 생성 수단을 구비한 것이 개시되어 있다.
본 발명은, 인식 문자열의 수정 처리를 행하는 경우에 있어서, 수정 명령의 종류에 따른 제1 문자열과 제2 문자열을 추출하도록 한 정보 처리 장치, 정보 처리 방법, 및 기억 매체를 제공하는 것을 목적으로 한다.
본 발명의 제1 방안에 의하면, 복수의 수정 명령을 저장하는 저장 수단과, 상기 저장 수단에 저장된 수정 명령을 해석하는 해석 수단과, 상기 해석 수단에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 수단을 갖고, 상기 해석 수단은, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고, 상기 수정 수단은, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하는 정보 처리 장치가 제공된다.
본 발명의 제2 방안에 의하면, 상기 정보 처리 장치에 있어서, 상기 수정 명령으로서, 문자의 통합 명령, 문자의 분리 명령을 포함하고, 상기 해석 수단은, 상기 수정 명령이 문자의 통합 명령인 경우에는, 상기 제1 문자열로서 복수 문자의 열을 추출하고, 상기 제2 문자열로서 1개의 문자를 추출하고, 상기 수정 명령이 문자의 분리 명령인 경우에는, 상기 제1 문자열로서 1개의 문자를 추출하고, 상기 제2 문자열로서 복수 문자의 열을 추출한다.
본 발명의 제3 방안에 의하면, 상기 정보 처리 장치에 있어서, 상기 수정 명령으로서, 문자의 치환 명령, 문자 후보의 추가 명령을 포함하고, 상기 해석 수단은, 상기 수정 명령이 문자의 치환 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 치환 문자와 당해 전후의 문자열을 추출하고, 상기 수정 명령이 문자 후보의 추가 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 당해 대상 문자의 인식 후보로서 부가하는 문자를 추출한다.
본 발명의 제4 방안에 의하면, 상기 정보 처리 장치에 있어서, 상기 해석 수단은, 상기 수정 명령으로서, 상기 문자의 통합 명령과 상기 문자의 분리 명령이 있는 경우이며, 상기 문자의 통합 명령에 있어서의 제2 문자열과 상기 문자의 분리 명령에 있어서의 제1 문자열이 합치하는지의 여부를 판단한다.
본 발명의 제5 방안에 의하면, 복수의 수정 명령을 저장하는 저장 공정과, 상기 저장 수단에 저장된 수정 명령을 해석하는 해석 공정과, 상기 해석 수단에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 공정을 갖고, 상기 해석 공정에 있어서, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고, 상기 수정 공정에 있어서, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하는, 정보 처리 방법이 제공된다.
본 발명의 제6 방안에 의하면, 컴퓨터에 처리를 실행시키는 프로그램을 저장한 기억 매체이며, 상기 처리는 복수의 수정 명령을 저장하는 저장 공정과; 상기 저장 수단에 저장된 수정 명령을 해석하는 해석 공정과; 상기 해석 수단에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 공정을 갖고, 상기 해석 공정에 있어서, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고, 상기 수정 공정에 있어서, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하는, 기억 매체가 제공된다.
상기 제1, 5, 6 방안에 의하면, 인식 문자열의 수정 처리를 행하는 경우에 있어서, 수정 명령의 종류에 따른 제1 문자열과 제2 문자열을 추출할 수 있다.
상기 제2 방안에 의하면, 문자의 통합 명령, 문자의 분리 명령에 따라, 제1 문자열과 제2 문자열을 추출할 수 있다.
상기 제3 방안에 의하면, 문자의 치환 명령, 문자 후보의 추가 명령에 따라, 제1 문자열과 제2 문자열을 추출할 수 있다.
상기 제4 방안에 의하면, 같은 문자에 대한 문자의 통합 명령과 문자의 분리 명령에 의해, 인식 문자의 수정이 행해지지 않게 되게 되는 것을 억제할 수 있다.
도 1은 제1 실시형태의 구성예에 대한 개념적인 모듈 구성도.
도 2는 제1 실시형태에 의한 처리예를 나타낸 플로우 차트.
도 3은 수정 명령의 예를 나타낸 설명도.
도 4는 수정 파라미터의 예를 나타낸 설명도.
도 5는 수정 명령의 예를 나타낸 설명도.
도 6은 수정 파라미터의 예를 나타낸 설명도.
도 7은 제2 실시형태의 구성예에 대한 개념적인 모듈 구성도.
도 8은 제2 실시형태에 의한 처리예를 나타낸 플로우 차트.
도 9는 수정 명령 데이터의 예를 나타낸 설명도.
도 10은 제3 실시형태의 구성예에 대한 개념적인 모듈 구성도.
도 11은 제3 실시형태에 의한 처리예를 나타낸 플로우 차트.
도 12는 수정 명령 리스트의 예를 나타낸 설명도.
도 13은 수정 명령의 예를 나타낸 설명도.
도 14는 본 실시형태를 실현하는 컴퓨터의 하드웨어 구성예를 나타낸 블록도.
이하, 도면에 의거하여 본 발명을 실현하는 것에 있어서 적합한 각종의 실시형태의 예를 설명한다.
제1 실시형태
도 1은, 제1 실시형태의 구성예에 대한 개념적인 모듈 구성도를 나타내고 있다.
또, 모듈이란, 일반적으로 논리적으로 분리 가능한 소프트웨어(컴퓨터·프로그램), 하드웨어 등의 부품을 가리킨다. 따라서, 본 실시형태에 있어서의 모듈은 컴퓨터·프로그램에 있어서의 모듈뿐만 아니라, 하드웨어 구성에 있어서의 모듈도 가리킨다. 그 때문에, 본 실시형태는, 그들의 모듈로서 기능시키기 위한 컴퓨터·프로그램(컴퓨터에 각각의 순서를 실행시키기 위한 프로그램, 컴퓨터를 각각의 수단으로서 기능시키기 위한 프로그램, 컴퓨터에 각각의 기능을 실현시키기 위한 프로그램), 시스템 및 방법의 설명도 겸하고 있다. 단, 설명의 형편상, 「기억한다」, 「기억시킨다」, 이들과 동등한 문언을 사용하지만, 이들 문언은, 실시형태가 컴퓨터·프로그램인 경우에는, 기억 장치에 기억시키거나, 또는 기억 장치에 기억시키도록 제어한다는 의미이다. 또한, 모듈은 기능에 일대일로 대응하고 있어도 되지만, 설치에 있어서는, 1모듈을 1프로그램으로 구성해도 되며, 복수 모듈을 1프로그램으로 구성해도 되며, 반대로 1모듈을 복수 프로그램으로 구성해도 된다. 또한, 복수 모듈은 1컴퓨터에 의해 실행되어도 되며, 분산 또는 병렬 환경에 있어서의 컴퓨터에 의해 1모듈이 복수 컴퓨터로 실행되어도 된다. 또, 1개의 모듈에 다른 모듈이 포함되어 있어도 된다. 또한, 이하, 「접속」이란 물리적인 접속 외에, 논리적인 접속(데이터의 주고받기, 지시, 데이터 간의 참조 관계 등)의 경우에도 사용한다. 「미리 정해진」이란, 대상으로 하고 있는 처리 전에 정해져 있는 것을 말하며, 본 실시형태에 의한 처리가 시작되기 전은 물론, 본 실시형태에 의한 처리가 시작된 후여도, 대상으로 하고 있는 처리 전이면, 그때의 상황·상태에 따라, 또는 그때까지의 상황·상태에 따라 정해진다는 의미를 포함하여 사용한다. 「미리 정해진 값」이 복수 있는 경우에는, 각각 다른 값이어도 되며, 2 이상의 값(물론, 모든 값도 포함함)이 같아도 된다. 또한, 「A인 경우, B를 한다」는 의미를 갖는 기재는, 「A인지의 여부를 판단하고, A라고 판단한 경우에는 B를 한다」는 의미로 사용한다. 단, A인지의 여부의 판단이 불필요한 경우를 제외한다.
또한, 시스템 또는 장치란, 복수의 컴퓨터, 하드웨어, 장치 등이 네트워크(일대일 대응의 통신 접속을 포함함) 등의 통신 수단으로 접속되어서 구성되는 것 외에, 1개의 컴퓨터, 하드웨어, 장치 등에 의해 실현되는 경우도 포함된다. 「장치」와 「시스템」이란, 서로 동의(同義)의 용어로서 사용한다. 물론, 「시스템」에는, 인위적인 약속인 사회적인 「구조」(사회 시스템)에 지나지 않는 것은 포함하지 않는다.
또한, 각 모듈에 의한 처리마다 또는 모듈 내에서 복수의 처리를 행하는 경우에는 그 처리마다, 대상이 되는 정보를 기억 장치로부터 판독 기입하고, 그 처리를 행한 후에, 처리 결과를 기억 장치에 기입하는 것이다. 따라서, 처리 전의 기억 장치로부터의 판독 기입, 처리 후의 기억 장치에의 기입에 대해서는, 설명을 생략하는 경우가 있다. 또, 여기에서의 기억 장치로서는, 하드 디스크, RAM(Random Access Memory), 외부 기억 매체, 통신 회선을 통한 기억 장치, CPU(Central Processing Unit) 내의 레지스터 등을 포함하고 있어도 된다.
본 실시형태인 인식 문자열 보정 모듈(120)은, 문자 인식 모듈(110)의 처리 결과인 인식 문자열(115)을 수정하여 수정 인식 문자열(155)을 출력하는 것이며, 도 1의 예에 나타낸 바와 같이, 수정 명령 저장 모듈(130), 수정 명령 해석 모듈(140), 수정 명령 실행 모듈(150)을 갖고 있다.
문서 화상 중의 문자 부분을 특정하고, 그것을 인식하여 문자 코드로 변환하는 문자 인식 기술이 알려져 있다.
현재의 문자 인식 기술에서는, 미리 문자로서 잘려진 상태의 단체(單體) 문자(이후의 설명에서는 단문자로 표기)나 활자 원고 등에서는 비교적 높은 문자 인식 정밀도로 문자를 인식할 수 있다.
그러나, 복잡한 레이아웃으로 표현된 원고나 수기 문서 등에서는, 단문자 절출의 미스나 수기 문자 품질의 편차(문자 사이즈나 문자 피치의 편차) 등의 원인에 의해 문자 인식 정밀도가 크게 저하하고, 오인식되는 문자가 증가하는 경향이 있다.
그래서, 문자 인식 기술에 있어서의 오인식 문자의 검출 및 수정을 행하는 기술이 필요해진다.
문자 인식 모듈(110)은, 인식 문자열 보정 모듈(120)의 수정 명령 실행 모듈(150)과 접속되어 있다. 문자 인식 모듈(110)은, 문자 화상 데이터(105)를 접수하여, 그 문자 화상 데이터(105)를 인식하고, 인식 문자열(115)을 출력한다. 여기에서의 문자 인식은, 기존의 인식 기술을 사용하면 된다. 예를 들면, 문자 인식 모듈(110)은, 전자 문서 화상 데이터 중에서 문자열에 상당하는 문자 화상 데이터(105)를 잘라내고, 그 문자 화상 데이터(105)로부터 절출 가능한 단문자 후보 영역을 순차적으로 잘라내어, 잘려진 각 단문자 후보 영역을 인식하여 인식 결과인 인식 문자열(115)을 출력한다.
인식 문자열 보정 모듈(120)은, 문자 인식 모듈(110)로부터 출력된 인식 문자열(115)을 수정한다.
수정 명령 저장 모듈(130)은, 수정 명령 해석 모듈(140)과 접속되어 있다. 수정 명령 저장 모듈(130)은, 복수의 수정 명령을 저장하고 있다. 구체적으로는, 수정 명령 저장 모듈(130)은, 문자열에 대한 복수의 수정 방법을 저장하고 있다. 수정 방법으로서, 예를 들면, 문자의 통합 명령, 문자의 분리 명령, 문자의 치환 명령, 문자 후보의 추가 명령 중, 어느 1개 또는 이들 조합이 있다. 여기에서 수정 명령은 문자열의 수정 방법을 나타낸 수정 커맨드와 그 수정 커맨드에 필요한 수정 파라미터로 구성되어 있다. 또한 같은 수정 명령에는 부수되는 수정 파라미터가 서로 다른 것이 복수 있는 구성이 된다. 또한 수정 커맨드의 수정 파라미터는, 복수의 문자 코드로 구성된 문자 코드 패턴, 또는 미리 정해진 문자 코드의 범위를 규정하는 문자 코드군 등이 있다. 또 수정 커맨드와 그 수정 파라미터에 관해서는 후술한다.
수정 명령 해석 모듈(140)은, 수정 명령 저장 모듈(130), 수정 명령 실행 모듈(150)과 접속되어 있다. 수정 명령 해석 모듈(140)은, 수정 명령 저장 모듈(130)에 저장된 수정 명령을 해석한다. 여기에서의 해석 처리로서는, 수정 명령의 종류를 판별하고, 그 수정 명령의 종류에 따라, 그 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 그 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출한다. 여기에서, 제1 문자열은, 구체적인 문자열이어도 되며, 정규 표현에 의해 나타내는 문자열이어도 된다.
구체적으로는, 수정 명령 해석 모듈(140)에 의해는, 수정 명령 저장 모듈(130)에 저장되어 있는 복수 종류의 수정 명령 중에서, 어느 수정 명령을 적용할지 판단하고, 수정 커맨드와 필요한 수정 파라미터(상술의 제1 문자열, 제2 문자열)를 취득한다. 여기에서의 판단으로서는, 미리 정해진 순서로 수정 명령을 적용하는 것, 수정 명령 간의 조합이 부적당한 것인지의 여부를 판단하는 것 등이 있다.
수정 명령 해석 모듈(140)은, 해석 처리로서, 이하의 추출 처리를 행한다. 도 13의 예를 사용하여 설명한다.
수정 명령이 문자의 통합 명령인 경우에는, 제1 문자열로서 복수 문자의 열을 추출하고, 제2 문자열로서 1개의 문자를 추출한다. 도 13의 (a)의 예에 나타낸 바와 같이, 문자(1310), 문자(1312)와 연속하고 있는 문자열을 문자(1314)로 통합한다. 또, 2문자 이상을 대상으로 하는 경우, 이 명령을 복수회 적용하면 된다.
수정 명령이 문자의 분리 명령인 경우에는, 제1 문자열로서 1개의 문자를 추출하고, 제2 문자열로서 복수 문자의 열을 추출한다. 도 13의 (b)의 예에 나타낸 바와 같이, 문자(1320)의 1문자를 문자(1322), 문자(1324)의 2문자로 분리한다. 또, 3문자 이상으로 분리하는 경우에는, 이 명령을 복수회 적용하면 된다.
수정 명령이 문자의 치환 명령인 경우에는, 제1 문자열로서 대상 문자와 그 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 제2 문자열로서 치환 문자와 그 전후의 문자열을 추출한다. 또, 제2 문자열 내의 전후의 문자열은, 제1 문자열 내의 전후의 문자열과 같다. 도 13의 (c)의 예에 나타낸 바와 같이, 문자(1330), 문자(1332), 문자(1334)(대상으로 하고 있는 문자(1332)와 전후의 문자인 문자(1330), 문자(1334))를, 문자(1330), 문자(1336), 문자(1334)(대상으로 하고 있는 문자(1332)를 문자(1336))로 치환한다.
수정 명령이 문자 후보의 추가 명령인 경우에는, 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 제2 문자열로서 그 대상 문자의 인식 후보로서 부가하는 문자를 추출한다. 도 13의 (d)의 예에 나타낸 바와 같이, 문자(1340), 문자(1342), 문자(1344)(대상으로 하고 있는 문자(1342)와 전후의 문자인 문자(1340), 문자(1344))의 경우에, 대상인 문자(1342)의 인식 후보로서, 문자(1346)를 추가한다. 문자 후보를 추가하는 것은, 문자 인식 모듈(110)이 행하는 문자 인식 처리는, 인식 문자열(115)로서, 각 문자 화상에 대한 인식 후보로서 미리 정해진 수의 인식 후보(예를 들면 1문자만)를 출력하는 경우에, 오인식이 되기 쉬운 문자에 대하여 후보 문자를 추가하는 것이다. 예를 들면, 수정 인식 문자열(155)을 최종적인 수정 결과로 하는 것이 아니며, 수정 인식 문자열(155)을 언어 처리(예를 들면, 형태소 해석 등의 언어 사전과의 매칭 처리)에 의한 수정을 더 실시하는 경우를 위해, 문자 인식의 결과인 문자 후보를 추가하도록 해도 된다.
또, 수정 명령 해석 모듈(140)에 의한 해석 처리의 대상으로서는, 문자의 통합 명령, 문자의 분리 명령, 문자의 치환 명령, 문자 후보의 추가 명령 중, 어느 1개 또는 이들의 조합(예를 들면, 문자의 통합 명령과 문자의 분리 명령의 조합, 문자의 치환 명령과 문자 후보의 추가 명령의 조합 등)이 있다.
또한, 수정 명령 해석 모듈(140)은, 수정 명령으로서, 문자의 통합 명령과 문자의 분리 명령이 있는 경우이며, 문자의 통합 명령에 있어서의 제2 문자열과 문자의 분리 명령에 있어서의 제1 문자열이 합치하는지의 여부를 판단하도록 해도 된다. 「문자의 통합 명령에 있어서의 제2 문자열과 문자의 분리 명령에 있어서의 제1 문자열이 합치하는지의 여부를 판단한다」는 것은, 같은 문자에 대하여, 통합 명령, 분리 명령을 행한 경우에는, 본래의 수정이 행해지지 않게 되게 될 가능성이 높기 때문이다. 예를 들면, 원래의 인식 문자로 되돌아가게 될 수 있기 때문이다.
그리고, 합치할 때에는, 대응하는 통합 명령, 분리 명령 중 어느 하나를 삭제하도록 해도 된다. 또는, 1개의 인식 문자열(115)에 대하여, 통합 명령에 의한 수정을 행하게 한 수정 인식 문자열(155)과, 분리 명령에 의한 수정을 행하게 한 수정 인식 문자열(155)을 생성하도록 해도 된다. 그 결과, 수정 결과적으로, 2개의 문자열(통합 명령을 행한 문자열과 분리 명령을 행한 문자열)을 출력하게 된다. 물론, 대응하는 통합 명령, 분리 명령이 복수 세트 있는 경우에는, 수정 명령, 분리 명령의 조합의 수의 수정 명령열을 생성한다. 그 결과, 그 조합의 수의 수정 인식 문자열(155)을 출력하게 된다.
수정 명령 실행 모듈(150)은, 문자 인식 모듈(110), 수정 명령 해석 모듈(140)과 접속되어 있다. 수정 명령 실행 모듈(150)은, 수정 명령 해석 모듈(140)에 의해 해석된 수정 명령에 따라, 인식 문자열(115)을 수정한다. 여기에서의 수정 처리로서는, 제1 문자열이 인식 문자열(115) 내에 존재하는 경우에, 그 인식 문자열(115) 내의 제1 문자열의 일부 또는 전부를 제2 문자열로 변환한다. 「제1 문자열이 인식 문자열(115) 내에 존재하는 경우」로서는, 예를 들면, 패턴 매칭 처리에 의해, 인식 문자열 내에서 제1 문자열을 탐색하면 된다.
즉, 수정 명령 실행 모듈(150)은, 취득된 수정 커맨드와 그 수정 파라미터에 의거하여, 인식 문자열(115) 내에 해당하는 수정이 필요한 문자열이 존재하는지 판정하고, 존재하는 경우에는 수정 커맨드와 그 수정 파라미터에 따라 수정한다.
도 2는, 제1 실시형태의 인식 문자열 보정 모듈(120)에 의한 처리예(인식 문자열 보정 처리예)를 나타내는 플로우 차트이다. 또, 이하에서 설명하는 처리의 흐름은 1개의 문자열에 대한 처리의 흐름을 설명하는 것이며, 복수의 문자열을 처리하는 경우에는, 이하에 설명하는 스텝 S202부터 스텝 S218까지의 처리를 문자열 수만큼 반복하도록 하면 된다.
스텝 S202에서는, 수정 명령 해석 모듈(140)은, 수정 명령 저장 모듈(130)에 저장되어 있는 복수의 수정 명령으로부터 1개의 수정 명령을 선택한다.
스텝 S204에서는, 수정 명령 해석 모듈(140)은, 스텝 S202에서 선택된 수정 명령의 수정 커맨드를 해석한다. 수정 커맨드는 앞서 설명한 바와 같이 문자열의 수정 방법(상술한 문자의 통합 명령, 문자의 분리 명령, 문자의 치환 명령, 문자 후보의 추가 명령)을 나타낸 것이다. 또한 여기에서 말하는 해석이란, 수정 커맨드가 상기의 어느 수정 방법을 나타내는 커맨드인지를 판정하는 것이다. 또한, 그 수정 명령에 따른 수정 파라미터도 추출한다.
스텝 S206에서는, 수정 명령 실행 모듈(150)은, 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)로부터 수정 문자열 후보를 선택한다.
스텝 S208에서는, 수정 명령 실행 모듈(150)은, 수정 명령의 수정 파라미터를 취득한다. 수정 명령 실행 모듈(150)은, 수정 명령 해석 모듈(140)에 의해 해석된 수정 커맨드에 필요한 수정 파라미터를 수정 명령 저장 모듈(130)로부터 취득한다.
스텝 S210에서는, 수정 명령 실행 모듈(150)은, 수정 문자열 후보가, 수정 명령 실행 모듈(150)이 취득한 수정 파라미터에 합치하는지의 여부를 판단한다. 합치하는 경우에는, 처리를 스텝 S214로 옮기고, 수정 명령 실행 모듈(150)은, 수정 명령 해석 모듈(140)에 의해 해석된 수정 커맨드가 나타내는 수정 방법에 따라 수정 문자열 후보를 수정한다. 합치하지 않는 경우에는, 스텝 S212로 처리를 옮긴다.
스텝 S212에서는, 수정 명령 실행 모듈(150)은, 수정 명령 해석 모듈(140)에 의해 해석한 수정 커맨드의 서로 다른 모든 수정 파라미터를 취득하여 수정 문자열 후보와의 합치 판단을 행했는지를 판정한다. 모든 수정 파라미터를 취득하여 합치 판단 완료이면 처리를 스텝 S216으로 옮긴다. 그렇지 않으면 스텝 S208로 처리를 되돌리고, 다음의 수정 파라미터에 관하여, 스텝 S208 및 스텝 S210의 처리를 반복한다.
스텝 S216에서는, 수정 명령 실행 모듈(150)은, 기입된 인식 문자열(115)에 관하여 수정 문자열 후보 전부를 처리했는지를 판정한다. 미처리의 수정 문자열 후보가 있으면 처리를 스텝 S206으로 옮기고, 새로운 수정 문자열 후보에 대하여 스텝 S206으로부터 스텝 S214의 처리를 반복한다. 모든 수정 문자열 후보를 처리한 경우에는 스텝 S218로 처리를 옮긴다.
스텝 S218에서는, 수정 명령 실행 모듈(150)은, 수정 명령 저장 모듈(130)에 저장되어 있는 모든 수정 명령의 처리가 종료한 것인지의 여부를 판정한다. 모든 수정 명령이 종료해 있으면 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)에 대한 수정 인식 문자열(155)을 출력한다. 미처리의 수정 명령이 있는 경우에는, 스텝 S202로 처리를 옮기고, 다음의 수정 명령에 관하여 스텝 S202부터 스텝 S216까지의 처리를 반복한다.
다음으로, 도 3에 수정 명령 저장 모듈(130)에 저장되는 수정 명령(수정 커맨드 및 수정 파라미터)의 구체예를 나타낸다.
도 3은 수정 명령의 하나인 「통합 명령」의 구체예이며, 도 3의 (A)에 나타내는 “CORRECT_MERGE”가 수정 커맨드를 나타내고, 도 3의 (B)에 나타내는 문자 코드열 “0x30a3 0x4e4d 0x4f5c”가 수정 커맨드 “CORRECT_MERGE”에 필요한 수정 파라미터를 나타낸다. 여기에서는, “0x30a3 0x4e4d”이 제1 문자열이 되고, “0x4f5c”가 제2 문자열이 된다. 도 3에 나타내는 「통합 명령」은, 「문자 코드 0x30a3(イ)과, 문자 코드 0x4e4d(乍)가 나열해 있으면 하나의 문자 코드 0x4f5c(作)로 통합한다」는 수정을 실행하는 것을 나타낸다. 또, 이미 설명한 바와 같이 수정 커맨드 “CORRECT_MERGE”에 대한 수정 파라미터는 도 3의 (B)에 나타내는 문자 코드열 뿐만 아니라, 예를 들면 도 4에 나타낸 바와 같이, 도 4의 (A)의 “0x30a3 0x30d2 0x5316”(즉, 「문자 코드 0x30a3(イ)과 문자 코드 0x30d2(ヒ)가 나열해 있으면 하나의 문자 코드 0x5316(化)으로 통합한다」), 도 4의 (B) “0x30b7 0x4e3b 0x6ce8”(즉, 「문자 코드 0x30b7(シ)과 문자 코드 0x4e3b(主)가 나열해 있으면 하나의 문자 코드 0x6ce8(注)로 통합한다」) 등 수정 명령 저장 모듈(130)에는 복수 저장하도록 실현되어 있다.
도 5는 다른 수정 명령의 하나인 「치환 명령」의 구체예이며, 도 3의 예에 나타내는 「통합 명령」과 같이 도 5의 (A)에 나타내는 “CORRECT_EXCHANGE”가 수정 커맨드를 나타내고, 도 3의 (B)에 나타내는 문자 코드열 “0x30cd 0x30c8 0x30c4 0x30c3”이 수정 커맨드 “CORRECT_EXCHANGE”에 필요한 수정 파라미터를 나타낸다. 여기에서는, “0x30cd 0x30c8 0x30c4”가 제1 문자열이 되고, “0x30c3”이 제2 문자열이 된다. 도 5에 나타내는 「치환 명령」은, 「0x30cd(ネ)와 0x30c8(ト) 사이에 끼워진 0x30c4(ツ)는, 0x30c3(ッ)으로 치환한다」는 수정을 실행한다. 또한 도 3, 도 4와 같이 수정 커맨드 “CORRECT_EXCHANGE”도 복수의 수정 파라미터를 수정 명령 저장 모듈(130)에 저장하도록 실현되어 있으며, 예를 들면 도 6에 나타낸 바와 같이, “0xff13 0x6708 0x30ab 0x30f5”(즉 「0xff13(3)과 0x6708(月) 사이에 끼워진 0x30ab(カ)는, 0x30f5(ヵ)로 치환한다」) 등의 수정 파라미터가 저장되어 있다. 물론, 수정 명령 저장 모듈(130)에 수정 파라미터는 복수 저장하도록 실현되어 있다.
제2 실시형태
이하에서 설명하는 제2 실시형태는, 인식 문자열 보정 모듈(120)과 수정 명령을 분리하여, 인식 문자열 보정 모듈(120) 자신에게 변경을 가하지 않고 수정 명령의 추가/제거가 가능한 구성이다.
도 7은, 제2 실시형태의 구성예에 대한 개념적인 모듈 구성도이다. 또, 제1 실시형태와 동종의 부위에는 동일한 부호를 붙이고 중복한 설명을 생략한다(이하, 마찬가지임). 수정 명령 접수 모듈(730)은, 수정 명령 해석 모듈(140), 수정 명령 데이터(710)와 접속되어 있다.
도 7의 예에 나타낸 바와 같이, 제2 실시형태에 있어서의 문자 인식 장치는, 제1 실시형태와 같이 문자 인식 모듈(110)과 인식 문자열 보정 모듈(120)로 구성되지만, 제2 실시형태에 있어서의 인식 문자열 보정 모듈(120)은, 외부의 수정 명령 데이터(710)로부터 수정 명령을 기입하는 수정 명령 접수 모듈(730)과, 접수한 수정 명령을 해석하는 수정 명령 해석 모듈(140)과, 해석된 수정 명령을 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)에 대하여 실행하는 수정 명령 실행 모듈(150)로 구성된다. 여기에서, 수정 명령 해석 모듈(140) 및 수정 명령 실행 모듈(150)은 본 발명의 제1 실시형태에서 설명한 것과 같다.
도 8은, 제2 실시형태의 인식 문자열 보정 모듈(120)에 의한 처리예(인식 문자열 보정 처리예)를 나타내는 플로우 차트이다. 또, 도 7에 예시하는 수정 명령 데이터(710)에 기억되어 있는 외부 데이터인 수정 명령은, 수정 커맨드와 그에 필요한 수정 파라미터가, 예를 들면 도 9에 나타낸 바와 같이 1개의 수정 명령 데이터로서 구성되어 있는 것으로 한다. 즉, 각 수정 명령은, 수정 커맨드와 수정 파라미터에 의해 구축되어 있다.
스텝 S802에서는, 수정 명령 접수 모듈(730)은, 수정 명령 데이터(710)로부터 수정 명령을 접수한다.
스텝 S804에서는, 수정 명령 해석 모듈(140)은, 접수한 수정 명령을 해석한다. 즉, 수정 명령 해석 모듈(140)은 수정 명령 데이터(710) 내의 수정 커맨드가 어느 수정 방법을 나타내는 커맨드인지를 판정하고, 부수되는 수정 파라미터를 취득한다.
스텝 S806에서는, 수정 명령 실행 모듈(150)은, 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)로부터 수정 문자열 후보를 선택한다.
스텝 S808에서는, 수정 명령 실행 모듈(150)은, 수정 문자열 후보가 수정 파라미터에 합치하는지를 판단한다. 합치하는 경우에는, 처리를 스텝 S810으로 옮기고, 수정 명령 실행 모듈(150)은, 수정 명령 해석 모듈(140)에 의해 해석된 수정 커맨드가 나타내는 수정 방법에 따라 수정 문자열 후보를 수정한다. 합치하지 않는 경우에는, 스텝 S802로 처리를 옮기고, 수정 명령 데이터(710) 내의 새로운 수정 명령에 관하여 스텝 S802부터 스텝 S806까지의 처리를 반복한다.
스텝 S812에서는, 수정 명령 실행 모듈(150)은, 기입된 인식 문자열(115)에 관하여 수정 문자열 후보 전부를 처리했는지를 판정한다. 미처리의 수정 문자열 후보가 있으면 처리를 스텝 S806으로 옮기고, 새로운 수정 문자열 후보에 대하여 스텝 S806부터 스텝 S810의 처리를 반복한다. 모든 수정 문자열 후보를 처리한 경우에는 스텝 S814로 처리를 옮긴다.
스텝 S814에서는, 수정 명령 실행 모듈(150)은, 모든 수정 명령 데이터(710)의 처리가 종료한 것인지의 여부를 판정한다. 모든 수정 명령 데이터(710)의 처리가 종료해 있으면 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)에 대한 수정 인식 문자열(155)을 출력한다. 미처리의 수정 명령 데이터(710)가 있는 경우에는, 스텝 S802로 처리를 옮기고, 다음의 수정 명령 데이터(710)에 관하여 스텝 S802부터 스텝 S812까지의 처리를 반복한다.
제2 실시형태에 있어서는, 수정 명령 데이터(710)를 인식 문자열 보정 모듈(120)의 외부에 설치하고, 인식 문자열 보정 모듈(120)과 수정 명령을 분리함으로써, 인식 문자열 보정 모듈(120)을 변경하지 않고 수정 명령의 추가/제거를 가능하게 한다. 이에 따라 신규의 오인식 수정에의 대응이 용이해진다.
제3 실시형태
도 10은, 제3 실시형태의 구성예에 대한 개념적인 모듈 구성도이다. 인식 문자열 보정 모듈(120)은, 수정 명령 접수 모듈(1020), 수정 명령 기억 모듈(1030), 수정 명령 해석 모듈(140), 수정 명령 실행 모듈(150)을 갖고 있다. 수정 명령 접수 모듈(1020)은, 수정 명령 기억 모듈(1030), 수정 명령 리스트(1010)와 접속되어 있다. 수정 명령 기억 모듈(1030)은, 수정 명령 해석 모듈(140), 수정 명령 접수 모듈(1020)과 접속되어 있다.
도 10에 나타낸 바와 같이, 제3 실시형태는, 제1 실시형태와 같이 문자 인식 모듈(110)과 인식 문자열 보정 모듈(120)은 접속되어 있지만, 제3 실시형태에 있어서의 인식 문자열 보정 모듈(120)은, 외부 파일인 수정 명령 리스트(1010)를 접수하는 수정 명령 접수 모듈(1020)과, 상기 수정 명령 접수 모듈(1020)에 의해 접수된 수정 명령 리스트(1010)를 미리 정해진 데이터 구조에 의거하여 기억하는 수정 명령 기억 모듈(1030)과, 접수된 수정 명령을 해석하는 수정 명령 해석 모듈(140)과, 해석된 수정 명령을 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)에 대하여 실행하는 수정 명령 실행 모듈(150)로 구성된다.
수정 명령 접수 모듈(1020)은, 인식 문자열 보정 모듈(120)의 외부 파일로서 준비된 수정 명령 리스트(1010)를 판독 기입하고, 복수의 수정 명령을 나타내는 수정 커맨드 및 수정 커맨드에 필요한 수정 파라미터를, 미리 정해진 데이터 구조에 의거하여 수정 명령 기억 모듈(1030)에 기억시킨다.
수정 명령 기억 모듈(1030)은, 미리 정해진 데이터 형식에 의거하여, 수정 명령을 기억한다. 수정 명령 기억 모듈(1030)에 있어서의 데이터 형식은, 예를 들면 단순히 수정 커맨드 및 수정 파라미터를 도 9에 예시한 바와 같은 단순한 리스트 데이터 구조여도 되지만, 수정 명령의 수가 매우 많은 경우에는, 해시 구조와 같은 검색 효율이 좋은 데이터 구조를 사용하는 것이 바람직하다.
도 11은, 제3 실시형태의 인식 문자열 보정 모듈(120)에 의한 처리예(인식 문자열 보정 처리예)를 나타내는 플로우 차트이다. 여기에서의 처리예는, 수정 명령 기억 모듈(1030)에 있어서의 데이터 구조가 수정 파라미터인 문자 코드를 키로 하여, 수정 커맨드를 값으로 한 해시 구조의 경우에 관하여, 제3 실시형태에 있어서의 인식 문자열 보정 모듈(120)에 있어서의 인식 문자열 보정 처리예를 설명한다.
스텝 S1102에서는, 수정 명령 해석 모듈(140)은, 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)의 대상 문자의 문자 코드를 키로, 수정 명령 기억 모듈(1030)에 기억되어 있는 수정 커맨드를 검색한다.
스텝 S1104에서는, 수정 명령 해석 모듈(140)은, 키에 히트하는 수정 커맨드가 존재하는 경우에는 스텝 S1108로 처리를 옮기고, 키에 히트하는 수정 커맨드가 없는 경우에는, 다음의 인식 문자로 대상을 옮기고(스텝 S1106), 스텝 S1102의 처리를 반복한다.
스텝 S1108에서는, 수정 명령 해석 모듈(140)은, 검색된 수정 커맨드로부터 미리 정해진 수정 커맨드를 선택한다. 여기에서의 수정 커맨드의 선택은, 미리 수정 명령의 실행 순서가 결정되어 있는 등의 규칙을 따르도록 하는 것이 좋다.
스텝 S1110에서는, 수정 명령 해석 모듈(140)은, 선택된 수정 커맨드를 해석한다. 즉, 수정 명령 해석 모듈(140)은, 수정 커맨드가 어느 수정 방법을 나타내는 커맨드인지를 판정하고, 수정 명령 기억 모듈(1030)에 기억되어 있는 수정 커맨드에 연관된 수정 파라미터를 취득한다.
스텝 S1112에서는, 수정 명령 실행 모듈(150)은, 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)로부터, 스텝 S1110에서 해석된 수정 커맨드에 필요한 수정 문자열 후보를 선택한다.
스텝 S1114에서는, 수정 명령 실행 모듈(150)은, 수정 문자열 후보가 수정 파라미터에 합치하는지를 판단한다. 합치하는 경우에는, 처리를 스텝 S1116으로 옮기고, 수정 명령 해석 모듈(140)에 의해 해석된 수정 커맨드가 나타내는 수정 방법에 따라 수정 문자열 후보를 수정한다. 합치하지 않는 경우에는, 다음의 인식 문자로 대상을 옮기고(스텝 S1106), 처리를 스텝 S1102로 옮겨서 스텝 S1102부터 스텝 S1112까지의 처리를 반복한다.
스텝 S1118에서는, 수정 명령 실행 모듈(150)은, 기입된 인식 문자열(115)에 관하여 수정 문자열 후보 전부를 처리했는지를 판정한다. 미처리의 수정 문자열 후보가 있으면, 다음의 인식 문자로 대상을 옮기고(스텝 S1106), 처리를 스텝 S1102로 옮겨서 스텝 S1102부터 스텝 S1116까지의 처리를 반복한다. 모든 수정 문자열 후보를 처리한 경우에는 스텝 S1120으로 처리를 옮긴다.
스텝 S1120에서는, 수정 명령 실행 모듈(150)은, 인식 문자열(115)에 필요한 모든 수정 명령의 처리가 종료한 것인지의 여부를 판정한다. 모든 수정 명령 데이터 처리가 종료해 있으면 문자 인식 모듈(110)로부터 기입된 인식 문자열(115)에 대한 수정 인식 문자열(155)을 출력한다. 미처리의 수정 명령이 있는 경우에는, 다시, 인식 문자열(115)의 선두로 대상을 옮기고(스텝 S1122), 스텝 S1102부터 스텝 S1118까지의 처리를 반복한다.
다음으로, 제3 실시형태에 있어서의 외부 파일로서 준비되는 수정 명령 리스트(1010)의 하나의 구체예를 도 12에 나타낸다.
도 12에 나타내는 수정 명령 리스트(1010)의 구체예에서는, 리스트의 선두행과 최종행에 「START」, 「END」가 기술되어 있다. 선두행의 「START」는 이 이후의 기술(記述)이 수정 명령 리스트 본체인 것을 나타내고, 이 이전의 기술은 참조하지 않는 것을 나타낸다. 또한 최종행의 「END」는 이 이전의 기술이 수정 명령 리스트 본체인 것을 나타내고, 이 이후의 기술은 참조하지 않는 것을 나타낸다. 예를 들면 「START」 이전 혹은 「END」 이후에 본 수정 명령 리스트의 버전이나 수정 명령 리스트 본체의 기술 방법 등 유저에게 유익한 정보를 기술하도록 한다.
「START」와 「END」에 둘러싸인 부분이 수정 명령 리스트 본체이며, 각 행에 「수정 커맨드」와 그에 필요한 「수정 파라미터」가 기술되어 있다. 예를 들면, 이하와 같은 수정 명령이 있다. (「イ」, 「ヒ」의 2문자를 「化」로 통합한다), (「イ」, 「壬」의 2문자를 「任」으로 통합한다), (「イ」, 「左」의 2문자를 「佐」로 통합한다), (「イ」, 「右」의 2문자를 「佑」로 통합한다), (「イ」, 「乍」의 2문자를 「作」으로 통합한다), (「シ」, 「主」의 2문자를 「注」로 통합한다), (「シ」, 「
Figure 112014028864816-pat00001
」의 2문자를 「準」으로 통합한다), (「シ」, 「皮」의 2문자를 「波」로 통합한다), (「シ」, 「舌」의 2문자를 「活」로 통합한다), (「シ」, 「凡」의 2문자를 「汎」으로 통합한다), (「シ」, 「太」의 2문자를 「汰」로 통합한다), (「シ」, 「及」의 2문자를 「汲」으로 통합한다), (「シ」, 「屯」의 2문자를 「沌」으로 통합한다), (「シ」, 「中」의 2문자를 「沖」으로 통합한다), (「シ」, 「少」의 2문자를 「沙」로 통합한다), (「シ」, 「尺」의 2문자를 「
Figure 112014028864816-pat00002
」으로 통합한다), (「シ」, 「末」의 2문자를 「沫」로 통합한다), (「ネ」, 「ツ」, 「ト」의 3문자를 「ネット」로 치환한다) 등이 있다.
제3 실시형태에 있어서의 수정 명령 접수 모듈(1020)은, 「START」 및 「END」에 둘러싸인 각 행을 판독 기입하고, 수정 명령 기억 모듈(1030)에 미리 정해진 데이터 구조(예를 들면, 해시 구조)로 변환하여 기억시킨다.
제3 실시형태에 있어서는, 수정 명령 리스트(1010)를 인식 문자열 보정 모듈(120)의 외부에 설치하고, 인식 문자열 보정 모듈(120)과 수정 명령을 분리함으로써, 인식 문자열 보정 모듈(120)을 변경하지 않고 수정 명령의 추가/제거를 가능하게 한다. 이에 따라 신규의 오인식 수정에의 대응이 용이해진다. 또한 수정 명령의 수가 증대했을 경우에 있어서도, 수정 명령 기억 모듈(1030)에 미리 정해진 데이터 구조로 수정 명령을 유지함으로써 오인식 수정의 처리 시간의 증가를 억제하는 것이 가능해진다.
도 14를 참조하여, 본 실시형태의 정보 처리 장치의 하드웨어 구성예에 대하여 설명한다. 도 14에 나타내는 구성은, 예를 들면 퍼스널 컴퓨터(PC) 등으로 구성되는 것이며, 스캐너 등의 데이터 판독부(1417)와, 프린터 등의 데이터 출력부(1418)를 구비한 하드웨어 구성예를 나타내고 있다.
CPU(Central Processing Unit)(1401)는, 전술한 실시형태에 있어서 설명한 각종의 모듈, 즉, 문자 인식 모듈(110), 인식 문자열 보정 모듈(120), 수정 명령 저장 모듈(130), 수정 명령 해석 모듈(140), 수정 명령 실행 모듈(150), 수정 명령 접수 모듈(730), 수정 명령 접수 모듈(1020), 수정 명령 기억 모듈(1030) 등의 각 모듈의 실행 시퀀스를 기술한 컴퓨터·프로그램에 따른 처리를 실행하는 제어부이다.
ROM(Read Only Memory)(1402)은, CPU(1401)가 사용하는 프로그램이나 연산 파라미터 등을 저장한다. RAM(Random Access Memory)(1403)은, CPU(1401)의 실행에 있어서 사용하는 프로그램이나, 그 실행에 있어서 적절히 변화되는 파라미터 등을 저장한다. 이들은 CPU 버스 등으로 구성되는 호스트 버스(1404)에 의해 상호 접속되어 있다.
호스트 버스(1404)는, 브리지(1405)를 통하여, PCI(Peripheral Component Interconnect/Interface) 버스 등의 외부 버스(1406)에 접속되어 있다.
키보드(1408), 마우스 등의 포인팅 디바이스(1409)는, 조작자에 의해 조작되는 기입 디바이스이다. 디스플레이(1410)는, 액정 표시 장치 또는 CRT(Cathode Ray Tube) 등이 있으며, 각종 정보를 텍스트나 이미지 정보로서 표시한다.
HDD(Hard Disk Drive)(1411)는, 하드 디스크를 내장하고, 하드 디스크를 구동하고, CPU(1401)에 의해 실행하는 프로그램이나 정보를 기록 또는 재생시킨다. 하드 디스크에는, 인식 문자열(115), 수정 인식 문자열(155), 수정 명령 등이 저장된다. 또한, 그 외의 각종의 데이터 처리 프로그램 등, 각종 컴퓨터·프로그램이 저장된다.
드라이브(1412)는, 장착되어 있는 자기 디스크, 광디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(1413)에 기록되어 있는 데이터 또는 프로그램을 판독 기입하여, 그 데이터 또는 프로그램을, 인터페이스(1407), 외부 버스(1406), 브리지(1405), 및 호스트 버스(1404)를 통하여 접속되어 있는 RAM(1403)에 공급한다. 리무버블 기록 매체(1413)도, 하드 디스크와 같은 데이터 기록 영역으로서 이용 가능하다.
접속 포트(1414)는, 외부 접속 기기(1415)를 접속하는 포트이며, USB, IEEE 1394 등의 접속부를 가진다. 접속 포트(1414)는, 인터페이스(1407), 및 외부 버스(1406), 브리지(1405), 호스트 버스(1404) 등을 통하여 CPU(1401) 등에 접속되어 있다. 통신부(1416)는, 통신 회선에 접속되어, 외부와의 데이터 통신 처리를 실행한다. 데이터 판독부(1417)는, 예를 들면 스캐너이며, 다큐먼트의 판독 처리를 실행한다. 데이터 출력부(1418)는, 예를 들면 프린터이며, 다큐먼트 데이터의 출력 처리를 실행한다.
또, 도 14에 나타내는 정보 처리 장치의 하드웨어 구성은, 1개의 구성예를 나타낸 것이며, 본 실시형태는, 도 14에 나타내는 구성에 한하지 않고, 본 실시형태에 있어서 설명한 모듈을 실행 가능한 구성이면 된다. 예를 들면, 일부의 모듈을 전용의 하드웨어(예를 들면 특정 용도용 집적 회로(Application Specific Integrated Circuit : ASIC) 등)로 구성해도 되며, 일부의 모듈은 외부의 시스템 내에 있으며 통신 회선으로 접속하고 있는 것과 같은 형태여도 되며, 또한 도 14에 나타내는 시스템이 복수 서로 통신 회선에 의해 접속되어 있어서 서로 협조 동작하도록 해도 된다. 또한, 복사기, 팩스, 스캐너, 프린터, 복합기(스캐너, 프린터, 복사기, 팩스 등 어느 2개 이상의 기능을 갖고 있는 화상 처리 장치) 등에 조합되어 있어도 된다.
상술의 실시형태에 있어서는, 문자 인식 모듈(110)의 인식 대상으로서 문자 화상 데이터(105)를 나타냈지만, 온라인 문자 인식에 있어서의 필기순의 벡터 데이터여도 된다. 그 경우, 문자 인식 모듈(110)은, 필기순의 벡터 데이터에 대한 수기 문자 인식 처리를 행하면 된다.
문자의 통합 명령, 문자의 분리 명령, 문자의 치환 명령, 문자 후보의 추가 명령 중, 미리 정해진 종류의 수정 명령을 처음에 행하도록 해도 된다. 예를 들면, 문자 후보의 추가 명령을 행한 후에, 다른 수정 명령을 행하도록 해도 된다. 즉, 문자 후보의 추가 명령을 행했을 경우의 문자열(대상의 문자를 추가된 문자로 치환한 문자열)을, 다른 인식 문자열(115)로서 인식 문자열 보정 모듈(120)에 의한 처리를 행하도록 해도 된다.
또, 설명한 프로그램에 대해서는, 기록 매체에 저장하여 제공해도 되며, 또한, 그 프로그램을 통신 수단에 의해 제공해도 된다. 그 경우, 예를 들면, 상기 설명한 프로그램에 대해서, 「프로그램을 기록한 컴퓨터 판독 가능한 기록 매체」의 발명으로서 파악해도 된다.
「프로그램을 기록한 컴퓨터 판독 가능한 기록 매체」란, 프로그램의 인스톨, 실행, 프로그램의 유통 등을 위해 사용되는, 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 말한다.
또, 기록 매체로서는, 예를 들면, 디지털·버서타일·디스크(DVD)이며, DVD 포럼에서 책정된 규격인 「DVD-R, DVD-RW, DVD-RAM 등」, DVD+RW에서 책정된 규격인 「DVD+R, DVD+RW 등」, 컴팩트 디스크(CD)이며, 판독 전용 메모리(CD-ROM), CD 레코더블(CD-R), CD 리라이터블(CD-RW) 등, 블루 레이·디스크(Blu-ray(등록상표) Disc), 광자기 디스크(MO), 플렉서블 디스크(FD), 자기 테이프, 하드 디스크, 판독 전용 메모리(ROM), 전기적 소거 및 재기록 가능한 판독 전용 메모리(EEPROM(등록상표)), 플래시·메모리, 랜덤·액세스·메모리(RAM), SD(Secure Digital) 메모리 카드 등이 포함된다.
그리고, 상기의 프로그램 또는 그 일부는, 상기 기록 매체에 기록하여 보존이나 유통 등 시켜도 된다. 또한, 통신에 의해, 예를 들면, 로컬·에어리어·네트워크(LAN), 메트로폴리탄·에어리어·네트워크(MAN), 와이드·에어리어·네트워크(WAN), 인터넷, 인트라넷, 엑스트라넷 등에 사용되는 유선 네트워크, 혹은 무선 통신 네트워크, 또한 이들의 조합 등의 전송 매체를 사용하여 전송시켜도 되며, 또한, 반송파에 올려서 반송시켜도 된다.
또한, 상기의 프로그램은, 다른 프로그램의 일부분이어도 되며, 혹은 별개의 프로그램과 함께 기록 매체에 기록되어 있어도 된다. 또한, 복수의 기록 매체에 분할하여 기록되어 있어도 된다. 또한, 압축이나 암호화 등, 복원 가능하면 어떤 태양으로 기록되어 있어도 된다.

Claims (6)

  1. 복수의 수정 명령을 저장하는 저장 수단과,
    상기 저장 수단에 저장된 수정 명령을 해석하는 해석 수단과,
    상기 해석 수단에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 수단을 갖고,
    상기 해석 수단은, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고,
    상기 수정 수단은, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하고,
    상기 수정 명령으로서, 문자의 치환 명령, 문자 후보의 추가 명령을 포함하고,
    상기 해석 수단은, 상기 수정 명령이 문자의 치환 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 치환 문자와 당해 전후의 문자열을 추출하고,
    상기 수정 명령이 문자 후보의 추가 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 당해 대상 문자의 인식 후보로서 부가하는 문자를 추출하는,
    정보 처리 장치.
  2. 제1항에 있어서,
    상기 수정 명령으로서, 문자의 통합 명령, 문자의 분리 명령을 포함하고,
    상기 해석 수단은, 상기 수정 명령이 문자의 통합 명령인 경우에는, 상기 제1 문자열로서 복수 문자의 열을 추출하고, 상기 제2 문자열로서 1개의 문자를 추출하고,
    상기 수정 명령이 문자의 분리 명령인 경우에는, 상기 제1 문자열로서 1개의 문자를 추출하고, 상기 제2 문자열로서 복수 문자의 열을 추출하는,
    정보 처리 장치.
  3. 삭제
  4. 제2항에 있어서,
    상기 해석 수단은, 상기 수정 명령으로서 상기 문자의 통합 명령과 상기 문자의 분리 명령이 있는 경우로서, 상기 문자의 통합 명령에 있어서의 제2 문자열과 상기 문자의 분리 명령에 있어서의 제1 문자열이 합치하는지의 여부를 판단하는,
    정보 처리 장치.
  5. 복수의 수정 명령을 저장하는 저장 공정과,
    상기 저장 공정에 의해 저장된 수정 명령을 해석하는 해석 공정과,
    상기 해석 공정에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 공정을 갖고,
    상기 해석 공정에서, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고,
    상기 수정 공정에서, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하고,
    상기 수정 명령으로서, 문자의 치환 명령, 문자 후보의 추가 명령을 포함하고,
    상기 해석 공정에서, 상기 수정 명령이 문자의 치환 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 치환 문자와 당해 전후의 문자열을 추출하고,
    상기 수정 명령이 문자 후보의 추가 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 당해 대상 문자의 인식 후보로서 부가하는 문자를 추출하는,
    정보 처리 방법.
  6. 컴퓨터에 처리를 실행시키는 프로그램을 저장한 기억 매체로서,
    상기 처리는,
    복수의 수정 명령을 저장하는 저장 공정과;
    상기 저장 공정에 의해 저장된 수정 명령을 해석하는 해석 공정과;
    상기 해석 공정에 의해 해석된 수정 명령에 따라, 인식 문자열을 수정하는 수정 공정을 갖고,
    상기 해석 공정에서, 상기 수정 명령의 종류를 판별하고, 당해 수정 명령의 종류에 따라, 당해 수정 명령의 대상이 되는 1개 이상의 문자에 의해 구성되는 제1 문자열과 당해 제1 문자열의 일부 또는 전부의 변환 후의 제2 문자열을 추출하고,
    상기 수정 공정에서, 상기 제1 문자열이 상기 인식 문자열 내에 존재하는 경우에, 당해 인식 문자열 내의 당해 제1 문자열의 일부 또는 전부를 상기 제2 문자열로 변환하고,
    상기 수정 명령으로서, 문자의 치환 명령, 문자 후보의 추가 명령을 포함하고,
    상기 해석 공정에서, 상기 수정 명령이 문자의 치환 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 치환 문자와 당해 전후의 문자열을 추출하고,
    상기 수정 명령이 문자 후보의 추가 명령인 경우에는, 상기 제1 문자열로서 대상 문자와 당해 대상 문자의 전후의 문자를 포함하는 문자열을 추출하고, 상기 제2 문자열로서 당해 대상 문자의 인식 후보로서 부가하는 문자를 추출하는,
    기억 매체.
KR1020140035063A 2013-08-06 2014-03-26 정보 처리 장치, 정보 처리 방법, 및 기억 매체 KR101790544B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013163050A JP6131765B2 (ja) 2013-08-06 2013-08-06 情報処理装置及び情報処理プログラム
JPJP-P-2013-163050 2013-08-06

Publications (2)

Publication Number Publication Date
KR20150017290A KR20150017290A (ko) 2015-02-16
KR101790544B1 true KR101790544B1 (ko) 2017-10-26

Family

ID=52448730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140035063A KR101790544B1 (ko) 2013-08-06 2014-03-26 정보 처리 장치, 정보 처리 방법, 및 기억 매체

Country Status (4)

Country Link
US (1) US20150043832A1 (ko)
JP (1) JP6131765B2 (ko)
KR (1) KR101790544B1 (ko)
CN (1) CN104346611A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
EP3734486B1 (de) * 2019-05-03 2024-05-01 Comforte AG Computerimplementiertes verfahren zum ersetzen eines datenstrings

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0325233B1 (en) * 1988-01-18 1994-07-27 Kabushiki Kaisha Toshiba Character string recognition system
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
US5377281A (en) * 1992-03-18 1994-12-27 At&T Corp. Knowledge-based character recognition
JPH06290299A (ja) * 1993-04-06 1994-10-18 Matsushita Electric Ind Co Ltd 文字入力装置
JPH07192096A (ja) * 1993-12-27 1995-07-28 Sharp Corp オンライン手書き文字認識装置
US6026177A (en) * 1995-08-29 2000-02-15 The Hong Kong University Of Science & Technology Method for identifying a sequence of alphanumeric characters
US6246794B1 (en) * 1995-12-13 2001-06-12 Hitachi, Ltd. Method of reading characters and method of reading postal addresses
JPH09288718A (ja) * 1996-04-19 1997-11-04 Canon Inc 文字処理装置及びその方法
TW490643B (en) * 1996-05-21 2002-06-11 Hitachi Ltd Estimated recognition device for input character string
JP3246432B2 (ja) * 1998-02-10 2002-01-15 株式会社日立製作所 宛名読取り装置および郵便物等区分機
JP3954246B2 (ja) * 1999-08-11 2007-08-08 独立行政法人科学技術振興機構 文書処理方法、文書処理プログラムを記録した記録媒体及び文書処理装置
JP2002236876A (ja) * 2001-02-09 2002-08-23 Canon Inc 解析方法及び解析装置
JP4245820B2 (ja) * 2001-03-16 2009-04-02 株式会社リコー 文字認識装置、文字認識方法および記録媒体
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP2006031299A (ja) * 2004-07-15 2006-02-02 Hitachi Ltd 文字認識方法、文字データの修正履歴処理方法およびシステム
JP4437469B2 (ja) * 2005-12-09 2010-03-24 株式会社トーショー 処方箋受付装置
CN101770569A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 基于ocr的菜名识别方法
JP5434586B2 (ja) * 2009-12-29 2014-03-05 オムロン株式会社 単語認識方法および単語認識用のプログラムならびに情報処理装置
JP5729260B2 (ja) * 2011-11-01 2015-06-03 富士通株式会社 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法

Also Published As

Publication number Publication date
JP2015032239A (ja) 2015-02-16
JP6131765B2 (ja) 2017-05-24
US20150043832A1 (en) 2015-02-12
KR20150017290A (ko) 2015-02-16
CN104346611A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
JP6119952B2 (ja) 画像処理装置及び画像処理プログラム
US8411955B2 (en) Image processing apparatus, image processing method and computer-readable medium
JP6003705B2 (ja) 情報処理装置及び情報処理プログラム
KR101235226B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
US10438097B2 (en) Recognition device, recognition method, and computer program product
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
KR101790544B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
JP2011023007A (ja) 統計データに基づくユーザクエリ校正システムおよび方法
US20180189562A1 (en) Character recognition apparatus, character recognition method, and computer program product
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5853531B2 (ja) 情報処理装置及び情報処理プログラム
JP5481965B2 (ja) 情報処理装置及び情報処理プログラム
JP5673277B2 (ja) 画像処理装置およびプログラム
JP6003677B2 (ja) 画像処理装置及び画像処理プログラム
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP2008108153A (ja) 情報処理システムおよび情報処理プログラム
US10515297B2 (en) Recognition device, recognition method, and computer program product
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP2006163830A (ja) 文字認識装置、文字認識方法、および文字認識プログラム
WO2022070422A1 (ja) 計算機システム及び文字認識方法
JP2010039810A (ja) 画像処理装置及び画像処理プログラム
JP2015072593A (ja) 情報処理装置及び情報処理プログラム
JP6575158B2 (ja) 情報処理装置及び情報処理プログラム
JP6281309B2 (ja) 画像処理装置及び画像処理プログラム
JP2016133888A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant