JPS6382542A - 日本文訂正候補文字抽出装置 - Google Patents

日本文訂正候補文字抽出装置

Info

Publication number
JPS6382542A
JPS6382542A JP61226288A JP22628886A JPS6382542A JP S6382542 A JPS6382542 A JP S6382542A JP 61226288 A JP61226288 A JP 61226288A JP 22628886 A JP22628886 A JP 22628886A JP S6382542 A JPS6382542 A JP S6382542A
Authority
JP
Japan
Prior art keywords
character
correction candidate
characters
dictionary
candidate character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61226288A
Other languages
English (en)
Other versions
JPH077412B2 (ja
Inventor
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61226288A priority Critical patent/JPH077412B2/ja
Publication of JPS6382542A publication Critical patent/JPS6382542A/ja
Publication of JPH077412B2 publication Critical patent/JPH077412B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、日本文文書データベース作成のため、入力装
置から読み込まれた漢字かな混じりの日本文文字列に含
まれる誤字の自動訂正を行なうための候補文字を抽出す
る日本文訂正候補文字抽出装置に関するものである。
(従来の技術) 新聞記事、出版用原稿、科学技術論文等の多量の日本文
文書を電子ファイル化して日本文文書データベースを作
成する場合、読み取り結果に混入する棄却文字や誤読文
字、誤字は単語辞書および、文法辞書を用いた形態素解
析や修正者によるチェックによって検出されるが、その
修正や自動訂正を実施するためには、正解候補の含有率
の高い候補抽出を行う必要がある。
従来の訂正候補抽出の手段は種々あった。英語における
スペルチェック手法としては。
J、L、Petarsonr“Lecture Not
es Coo+puter 5cienceVo1.9
6 Computer Programs for S
pellingCorrection”、 Sprin
ger−Verlag社刊1980年発行」に述べられ
ているように。
■ 誤り易いスペルと正しいスペルを対で保持して誤り
スペル検出時に正しいスペルに置換する。
■ 英単語に対して正しいスペルから(i)2文字置換
、(■)1文字挿入、(in) 1文字欠如、(tv)
1文字誤りの各ルールを適用した誤りスペルリストを生
成し正しいスペルを推定する。
の手法があるが、この手法は英文字の字種数が少なく、
かつ候補抽出範囲が単語に閉じている場合に有効な方法
と言える。
また入力装置の誤り属性に応じた訂正候補抽出手法とし
ては漢字OCRでは認識距離に応じた候補、ワープロ入
力では同音異義語の候補、ベンタッチタブレット入力で
は拾った文字の周辺文字の候補を抽出するという種々の
手法がある。
しかし日本文文書のような字種数が膨大で分かち書きが
なされていない文字列での候補抽出には次の問題点があ
る。
■ 字種数が大のため、誤りスペルリスト及び訂正候補
リストのパターンが膨大となるので実際上、候補抽出は
不可能である。
■ 誤字が文節境界に発生して分かち書きが失敗した場
合、単語1文節を超えた候補抽出は困難である。
■ 入力装置の誤り特性が十分解析されていない。また
既に何らかの入力装置によって読み込まれた原文に対す
る汎用的な候補抽出法がない。
(発明の目的) 本発明の目的は、誤字を含まない文書を用いて抽出され
るN文字の文字列あるいは、これらから選択した特定の
N文字、N−1文字、・・・、2文字の文字列における
第1番目(i=1・・・n)の文字以外の文字列パター
ンが等しい場合の第1番目の文字を訂正候補文字として
収集した日本文訂正候補文字辞書を備え、検出された誤
字位置以外のN−1文字をキーとしてその辞書を索引し
て訂正候補を抽出することによって、字種数、文節境界
、誤字数、入力装置の各誤り特性に依存しない日本文訂
正候補文字抽出装置を提供することにある。
(発明の構成) (発明の特徴と従来の技術との差異) 本発明は、訂正候補文字抽出の対象となる文書と同種の
誤字を含まない大量の文書を用いて抽出されるN文字の
文字列あるいはこれらから選択した特定のN文字、N−
1文字、・・・、2文字の文字列パターンを抽出し、こ
れらの各文字列における第1番目(i=1・・・N)の
文字以外の文字列パターンが等しい場合に第1番目の文
字を訂正候補文字として収集した日本文訂正候補文字辞
書を予め作成しておいて、入力装置から入力されて入力
日本文データベースの入力誤り、読み取り誤りに基因す
る誤字を、単語辞書、文法辞書を用いた形態素解析によ
って文節レベルの誤字含有域として抽出し、さらに、こ
の誤字含有域内から文字連接確率辞書を用いて誤字位置
を検出した場合、この誤字位置の文字以外の周辺の文字
列パターンをキーとしてその日本文訂正候補文字辞書を
索引し各辞書かへ複数の訂正候補文字を抽出することを
最も主要な特徴とする。
従来の技術とは。
■ 候補抽出対象の文書と同種の誤字を含まない大量の
文書を用いて日本文訂正候補文字辞書を予め作成するの
で、文書の字種の多さに依存しない。
■ 分かち書きを実施しない日本文文書に対して候補文
字を収集するので、単語、文節を超えた任意の位置での
候補抽出が可能。
■ 入力装置の誤り特性に困らない汎用的な候補抽出が
可能。
の点で異なる。
(実施例) 第1図は本発明の基本構成例で、1は漢字OCR、ベン
タッチタブレット、キーボード等の入力装置、2は入力
あるいは読み込みを行う入力処理部、3は入力装置1に
よって読み込まれ、磁気装置に文字コードの形式で記録
されている読み取り結果の入力日本文データベース、4
は単語辞書、5は文法辞書、6は単語辞書4および文法
辞書5を用いた形態素解析によって誤字が含まれる文節
レベルの誤字含有域を抽出する誤字検出部、7は誤字検
出部6で抽出した誤字含有域内から誤字と見なす文字位
置を検出する誤字位置検出部、8は文字連接確率辞書、
9は辞書10を索引し誤字に対する訂正候補文字を抽出
する訂正候補文字抽出部、10は日本文訂正候補文字辞
書、11は訂正候補文字群から修正者が正字(正解文字
)を選択する訂正候補選択部、12は修正者が操作する
修正用端末、13は修正者により選択されて誤字が救済
された日本文文書データベース、14はCPU/メモリ
から成る処理装置である。
この方式では入力装置1で読み込んだ読み取り結果であ
る入力日本文データベース3に対して、単語候補抽出、
品詞接続検査等の形態素解析を行う誤字検出部6によっ
て誤字含有域を検出し、さらに文字連接確率辞書8を用
いて誤字位置を検出した後、この誤字位置以外のN−1
文字の文字パターンをキーとする日本文訂正候補文字辞
書10を索引することによって訂正候補文字を抽出し、
これらの訂正候補文字から修正者が正字を修正用端末1
2によって選択し、誤字の救済を行っている。
日本文訂正候補文字辞書10は、1文字からN−1文字
の文字列パータンをキーとしてその訂正候補文字を索引
する辞書である。以下、N=3の場合について説明する
が、それ以上の場合も同様である。
その訂正候補文字辞書は次のように作成される。
予め、処理対象の原文文書と同様で、誤字を含まない大
量の標準文書に対して、先頭から連続する3文字を順に
読み出し、前方2文字あるいは中央を除く前後各1文字
の計2文字あるいは後方2文字が等しいパターンの文字
列についてその他の1文字を訂正候補文字とするよう連
続する3文字の収集を行い、候補を出現頻度の高い順に
並べて日本文訂正候補文字辞書とする。
N=3場合、それぞれ前方2文字訂正候補文字辞書、挟
み込み訂正候補文字辞書、後方2文字訂正候補文字辞書
とする。あるいは、収集の際、ある文字を候補とする文
字列やある字種に関する文字列としてN、N−1,N−
2,・・・とそれぞれの長さの文字列に応じた特定の文
字列を選択して辞書化する。
第2図は訂正候補文字辞書の構成図である。
15は誤字を含まない文書中で訂正候補抽出を行う対象
となる訂正候補抽出対象文字S文字、16は前記辞書で
訂正候補文字となる文字、17.18.19はそれぞれ
前方2文字、挟み込み、後方2文字訂正候補文字辞書に
収録する場合対象となる3文字f工1Ljf3.20は
候補抽出の際に前記辞書を索引するため用いるキ一部2
文字、21は訂正候補文字列、21aは候補文字列の第
1位である。
すなわち、対象となる文字列15から前記辞書の対象と
する3文字のパターン17.18.19をそれぞれ抽出
し、辞書毎にキ一部20の等しいグループに訂正候補文
字列となる文字工6を候補文字列2工として登録する。
この候補文字列の順位は出現頻度に応じて設定する。
第3図は、漢字OCRにおける棄却文字(読み取れなか
った文字)に対する候補抽出の実施例である。
22は漢字OCRが読み込んだ文字列、23は棄却文字
、24は原文上の正解文字、25.26.27はそれぞ
れ前方2文字、挟み込み、後方2文字訂正候補文字辞書
レコード、2g、 29.30はその辞書レコード25
.26.27のそれぞれのキ一部、31は辞書の索引の
結果抽出された訂正候補文字群である。
本例では、棄却文字位置に対して前方2文字28、挟み
込みの2文字29、後方2文字30をそれぞれキーとし
てその辞書レコード25.26.27を索引して、訂正
候補文字群31を抽出する。。
この後、修正者は原文を参考に端末等でこれらの候補文
字の中から正字を選択して修正を行う。
第4図は、第1図の構成例での誤字検出部6、誤字位置
検出部7により誤字位置が検出された場合における訂正
候補文字抽出の実施例である。
本例で、32は誤字含有域、33は誤字位置、34は原
文上の正解文字、35は誤字位置検出部7により抽出し
た誤字位置候補(本例では2箇所)、36.37は誤字
位置候補35それぞれに対する候補文字列、38は修正
者により選択された文字である。
本例では、誤字検出部により検出された誤字含有域32
に対して、文字間の接続確率によって誤字位置候補35
を抽出し、それぞれの位置に対して日本文訂正候補文字
辞書を索引し訂正候補文字36゜37を抽出する。
この後、修正者が原文を参考に端末からこれらの訂正候
補文字列より正字38を選択する。
また本実施例では誤字含有域32に複数の誤字が含まれ
ている場合、誤字位置検出部の誤字位置候補に含まれて
いれば、それぞれの誤字位置候補に対する修正候補文字
を抽出することによって複数誤字の修正が可能となる。
このような構造および作用となっていることから、従来
の技術に比べて辞書への収集量を増やすことによって字
種数が大なる日本文文書に適用可能であるほか、2文字
のキーの辞書索引による候補抽出であるから、誤字が文
節境界に発生し分かち書きが正しく行われない場合でも
適用可能である。また1つの誤字含有域に複数の誤字が
混入しても誤字位置候補を複数とり、それぞれについて
候補抽出を行うことによって複数の誤字の救済が可能で
あり、また、入力装置の誤り特性の不明である文書につ
いても適用可能であるとい改善があった・ (発明の効果) 以上説明したように、訂正候補文字抽出の対象となる文
書と同種の誤字を含まない大量の文書を用いて抽出され
るN文字の文字列、あるいはこれらから選択した特定の
N文字、N−1文字、・・・、2文字の文字列における
第i番目(i=1・・・N)の文字以外の文字列パター
ンが等しく第i番目の文字を収集した日本文訂正候補文
字辞書を予め作成しておき、入力装置から入力された入
力日本文データベースに含まれる誤字を単語辞書、文法
辞書を用いた形態素解析によって誤字含有域として抽出
し、さらに文字連接確率辞書を用いて誤字位置候補を抽
出した場合、誤字候補位置以外の周辺の文字列パターン
をキーとして前記辞書から訂正候補文字を抽出して修正
者が端末等で正字を選択するのであるから、 ■ 辞書への収集量を増やすことによって字種数が大の
日本文文書の候補抽出が可能。
■ 候補抽出は単語や文節を意識しないのであるから、
誤字が文節境界に発生し1分かち書きが正しく行われな
い場合でも候補抽出が可能。
■ 入力装置の誤り特性が得られない場合でも本装置は
誤字を含まない同種の原文に基づいて作成した辞書を用
いているので、汎用的な候補抽出法である。
という利点がある。
【図面の簡単な説明】
第1図は本発明の基本構成例、第2図は日本文訂正候補
文字辞書、第3図は棄却文字における訂正候補抽出例、
第4図は誤字における訂正候補抽出例をそれぞれ示して
いる。 1 ・・・入力装置、 2・・・入力処理部、3・・・
入力日本文データベース、 4 ・・・単語辞書、 5 ・・・文法辞書、6・・・
誤字検出部、 7・・・誤字位置検出部、 8・・・文字連接確率辞書、 9 ・・・訂正候補文字抽出部、 10・・・ 日本文訂正候補文字辞書、11・・・訂正
候補選択部、12・・・訂正用端末、13・・・日本文
文書データベース、 14・・・処理装置、 15・・・訂正候補抽出対象文字、 16・・・、14へ収録される訂正候補文字、17,1
8.19  ・・前方2文字、挟み込み、後方2文字訂
正候補文字辞書に収録対 象となる3文字。 20・・・辞書のキ一部、21・・・訂正候補文字列、
21a・・・候補文字列第1位、 22・・・漢字○CRからの読み取り文字列、23・・
・棄却文字、24・・・原文上の正解文字。 25.26.27・・・訂正候補文字辞書。 28.29.30・・・ キ一部、 31・・・訂正文字候補群、32・・・誤字含有域、3
3・・・誤字位置、 34・・原文上の正解文字、 35・・・誤字位置候補、 36.37  ・・候補文字列、 38・・・修正者により選択された文字。 第1図 8 支咎遭捨4ヤ枡S 10゛つA入炙iイニ31灸也夫窩ンゲ隼513  リ
Q矢久SΣ−タヘ゛−人 第2図 /−f3 15   釘ε(テ功油払fう象欠う 16  5争5へη′1.gεにるjjL、11史ネ釣
叉5I乙旧、19  豹52工ゴ 氷五込与 1F、%
2忙8JiLよ11褒境灸對llりλ(砿プN象りなる
 3叉秀 20辞zつ\−紳 21コ’m”)Lノ+唱;;;づpi、7;;1.11
1つ21a傾脅(雪齢烏++、ゲ 第 3 図 (□1j1ン 22   支31・) 23  呆抑艮3 24  工解受各 25〜27− *s *穣槽矢害僻1 28〜30  \−斡

Claims (1)

  1. 【特許請求の範囲】 文書入力装置から入力された日本文文書データベースに
    おけるその日本文の入力誤りまたは文字認識誤りによっ
    て生じた読み取り棄却文字あるいは誤字について、単語
    辞書および文法辞書を用いた形態素解析によって誤字が
    含まれる文節レベルの誤字含有域を抽出する誤字検出部
    と、 この誤字含有域から文字間の連接確率によって誤字とみ
    なす文字位置を抽出する誤字位置検出部と、 予めこれらの日本文文書と同種で誤字を含まない文書を
    用いて抽出されるN文字の文字列あるいはこれらから選
    択した特定のN文字、N−1文字、・・・2文字の文字
    列における第i番目(i=1・・・N)の文字以外のパ
    ターンが等しい場合の第i番目の文字を訂正候補文字と
    して収集した日本文訂正候補文字辞書と、 誤字位置検出部により抽出された誤字位置以外のN−1
    文字をキーとして日本文訂正候補文字辞書を索引し、誤
    字に対する訂正候補文字を抽出する訂正候補文字抽出部
    と、 抽出された訂正候補文字群から訂正者により正字を選択
    する訂正候補選択部とを有する日本文訂正候補文字抽出
    装置であって、 誤字を含む日本文文書から文節レベルの誤字含有域を抽
    出し、この含有域内の誤字位置に対して前後のN−1文
    字をキーとして日本文訂正候補文字辞書を索引し複数の
    訂正候補文字を自動的に抽出する手段を備えることを特
    徴とする日本文訂正候補文字抽出装置。
JP61226288A 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置 Expired - Fee Related JPH077412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61226288A JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61226288A JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Publications (2)

Publication Number Publication Date
JPS6382542A true JPS6382542A (ja) 1988-04-13
JPH077412B2 JPH077412B2 (ja) 1995-01-30

Family

ID=16842865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61226288A Expired - Fee Related JPH077412B2 (ja) 1986-09-26 1986-09-26 日本文訂正候補文字抽出装置

Country Status (1)

Country Link
JP (1) JPH077412B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009083285A (ja) * 2007-09-28 2009-04-23 Dainippon Printing Co Ltd 発泡壁紙
CN110852074A (zh) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 生成修正语句的方法和装置、存储介质和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009083285A (ja) * 2007-09-28 2009-04-23 Dainippon Printing Co Ltd 発泡壁紙
CN110852074A (zh) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 生成修正语句的方法和装置、存储介质和电子设备
CN110852074B (zh) * 2019-11-07 2023-05-16 腾讯科技(深圳)有限公司 生成修正语句的方法和装置、存储介质和电子设备

Also Published As

Publication number Publication date
JPH077412B2 (ja) 1995-01-30

Similar Documents

Publication Publication Date Title
Pomikálek Removing boilerplate and duplicate content from web corpora
Piotrowski Natural language processing for historical texts
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
Menai Detection of plagiarism in Arabic documents
Chang A new approach for automatic Chinese spelling correction
Ahamed et al. Spell corrector for Bangla language using Norvig’s algorithm and Jaro-Winkler distance
Alhawiti Adaptive models of Arabic text
Chaudhuri Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text
Besagni et al. Citation recognition for scientific publications in digital libraries
Carrasco et al. Evaluation of TnT tagger for spanish
Lehal Design and implementation of Punjabi spell checker
Graovac Serbian Text Categorization Using Byte Level n-Grams.
JPS6382542A (ja) 日本文訂正候補文字抽出装置
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JPS6394364A (ja) 日本文誤字自動修正装置
Krishnan et al. Content level access to Digital Library of India pages
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages
Martynov et al. Augmentation methods for spelling corruptions
Ishraq et al. Towards Developing Uniform Lexicon Based Sorting Algorithm for Three Prominent Indo-Aryan Languages
Hidley Some thoughts concerning the application of software tools in support of Old English poetic studies
Mon et al. Myanmar spell checker
Kwok et al. Corpus-based pinyin name resolution
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
Gamu et al. Research Article Morphology-Based Spell Checker for Dawurootsuwa Language

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees