JPS6255757A - 単語訂正装置 - Google Patents

単語訂正装置

Info

Publication number
JPS6255757A
JPS6255757A JP60194939A JP19493985A JPS6255757A JP S6255757 A JPS6255757 A JP S6255757A JP 60194939 A JP60194939 A JP 60194939A JP 19493985 A JP19493985 A JP 19493985A JP S6255757 A JPS6255757 A JP S6255757A
Authority
JP
Japan
Prior art keywords
character
word
characters
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60194939A
Other languages
English (en)
Inventor
Toshiyuki Funabe
舟部 敏行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60194939A priority Critical patent/JPS6255757A/ja
Publication of JPS6255757A publication Critical patent/JPS6255757A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 疲胤公1 本発明は単語訂正装置に関し、パソコン、ワープロ、文
章診断装置、i11訳装置等、入力された英語、仏語な
どの表a文字表記言語のつづりを訂正する装置に適用さ
れる単語訂正装置に関する。
従来技術 翻訳装置等に入力された英文にはタイプミスなどの原因
により誤った文字が含まれていることがあり、このよう
な誤った文字を抽出して訂正する必要がある。
このような誤った文字を訂正するため、従来は、各々の
文字が使用される確率、特定の文字と文字とが接続され
る確率などによって誤っていると思われる文字を判定し
て抽出し、同様の確率によって正しいと思われる文字に
置換した後、辞書を検索して置換した後の単語が正しい
つづりであるか否かを判断していた。
しかし、このような方法は個々の文字の特徴または個々
の文字同士の接続関係の特徴に着目して誤っている文字
を推定し、同様の特徴によって正しいと思われる文字と
置換している。
したがって、誤ったつづりを含む単語のつづりのパター
ンの特徴に着目していないため、誤っている確率の低い
文字に対しても、誤っている確率の高い文字に対する場
合と同様に置換を行うため非能率的であり、処理速度が
低かった。
目   的 本発明はこのような従来技術の欠点を解消し、誤ったつ
づりを含む単語のつづりのパターンの特徴によりつづり
の訂正を効率的に行うとともに。
誤ったつづりのパターンを容易に正しいパターンに訂正
できる単語訂正装置を提供することを目的とする。
構  成 本発明はt記の目的を達成させるため、入力されたtr
語から文字を1つずつ抽出する文字抽出手段と、該文字
抽出手段により抽出された文字ごとに置換表を検索して
置換し得る文字置換一手段と、該文字置換手段により文
字が置換された単語を辞書により検索する辞書検索手段
と、前記文字抽出手段、文字置換手段、辞書検索手段を
制御する制御手段とを有し、該制御手段は、前記の入力
された単語を構成する文字を前記文字抽出手段により1
つずつ抽出し、抽出された文字を前記文字置換手段によ
り所定の文字と置換し、置換した文字を含む単語を前記
辞書検索手段により検索するように制御することを特徴
としたものである。以下、本発明の実施例に基づいて具
体的に説明する。
第1図に本発明が適用された単語訂正装置を含む英文か
らH本文への翻訳システムの概念的機能ブロック図を示
す。
翻訳システムは、入力部2、形態素解析部4、単語訂正
部8.単語推定部8.翻訳部lO1出力部12からなっ
ている。
入力部2.出力部12以外の要素はマイクロプロセッサ
などの処理システムによって有利に構成され、第1図で
はその機能別にブロックで示している。
入力部2はキーボード、OCRなどの入力装置であり、
英文の入力を行う。
形態素解析部4は、入力部2から入力された英文を英語
辞書14.接続表18を用いて型詰単位に分割し1品詞
情報等を付加するとともに、英語辞書14により検索さ
れなかった単語すなわち誤ったつづりを含む単語を選択
して単語訂正部6に送出する。
英語辞書14、接続表16は、形態素解析部4の内部メ
モリまたはフロッピーディスクなどの外部メモリが使用
される。
単語訂正?s8は、形態素解析部4から送られた誤った
つづりを含むtrL語を後述のように置換表を用いて訂
正する。
単語推定部8は単語訂正部Bにより処理した後にも未登
録単語として残った単語の品詞を推定する。
翻訳部10は’It語訂正部8および単語推定部8から
送られた英文の構文解析、変換、生成処理を行い、英文
を日本文に翻訳して出力部12に出力する。
このようにして入力部2から入力された英文の単語の誤
りを訂正した後1日本語に翻訳するものである。
第2図に単語訂正部6の概念的機能ブロック図を示す、
制御部20は、文字抽出部221文字置換部24、1i
li書検索部26、文法チェック部28を制御すること
により、形態素解析部4から送出された誤ったつづりを
含む単語を正しいつづりに訂正し、単語推定部8に送出
する。
文字抽出部22は、制御部20から送られた単語を文字
に分解し、単語を構成する文字を文字ポインタ23によ
り後部(右)から1文字ずつ抽出する。
文字置換部24は、文字抽出部22から1文字ずつ送ら
れた各文字ごとに索引30、置換表32を検索し、後述
のように索引30、置換表32にこれらに該当するパタ
ーンがあった場合には、文字抽出部22から送られた文
字を置換表に示された置き換え文字に置き換える。
索引30は第3図に示すような索引が格納されたファイ
ル記憶装置であり、RAM 、 ROMなどの内部メモ
リや固定ディスク、フロッピーディスクなどの外部記憶
装置が使用できる。この索引は誤りパターンの文字列を
索引のキーとなる先頭文字と2文字目以後の後続文字と
に分けて表示し、誤りパターンの文字列に対応する行ポ
インタにより示される行の番号を表示している。
置換表32は第4図に示すような置換表が格納されてい
る。この置換表は行方向に行ポインタの示す符番り、列
方向に置き換え文字列を表示し、置換関係のあるものを
「l」、ないものをrOJで示している0行番号−は索
引とリンクされている。
また、置き換え文字列は誤っている文字と置き換えられ
る文字列である。
辞占検索部2Bは、文字置換部24により文字を置き換
えた単語について、英語辞書34に同一の単語があるか
否かを検索する。英語辞書34は、英語の単語の表記、
品詞等が格納されたファイル記憶装置であり、 RAM
 、 ROMなどの内部メモリや固定ディスク、フロッ
ピーディスクなどの外一部記憶装置が使用できる。英語
辞書34は、英語辞書14と共通のものでもよい。
文法チェック部28は、辞δ検索部2Bによって英語辞
書34に同一の単語があることが確認された単語を含む
文章について文法3Bによって文法的に正しいか否かを
チェックする0文法36は、文aが文法的に正しいか否
かをチェックするための文法が格納されたファイル記憶
装置であり、RAM 、 ROMなどの内部メモリや固
定ディスク、フロッピーディスクなどの外部記憶St置
が使用できる。
制御部20、文字抽出部22、文字置換部24、辞占検
索部2B、文法チェック部281文字ポインタ23はマ
イクロプロセッサなどの処理システムによって有利に構
成される。
次に第1図に示す翻訳システムの動作について説明する
例えば次のような入力文が入力部2から人力された場合
について説明する。
入力文: rl have rewriten in 
1nkJこの入力文は形態素解析部4に送られ、形態素
解析部4は英語辞書14、接続表16を用いてこの入力
文を単語単位に分割し、品詞情報等を付加する。その結
果、単語rl J  rhave」rin」およびri
nkJは英語辞a14に登録された単語と判断され、r
 rewritenJはこのようなつづりの単語が英語
辞書14に登録されていないため未登録単語と判断され
る。そこで形態素解析部4は未登録単語とされた単語r
 rewritenJのみを単語訂正部8に送る。
次に第2図に示す単語訂正部の動作について第7図に示
すフローチャートにより説明する。
単語訂正部8は形態素解析fi4から送られた単語r 
revritenJの単語長をカウントし、文字ポイン
タ23に単語長をセットする(102) 、  r r
ewrit−enJは8文字であるから、文字ポインタ
23の示す値Nを8とする。
次に単語を構成する文字を後部(右)から1文字ずつ抽
出するが、その萌に文字ポインタ23の示す値Nが0で
あるか否かを判断しく104) 、  0であれば単語
を構成する文字の抽出は終了しているから、後述のよう
にこの単語は未登録単語と認定される(toe) 、 
oでなければ、単語を構成する文字を後部(右)から1
文字ずつ抽出する。
文字抽出部22は文字ポインタ23の示す値Nにより、
単語のN番目の文字を抽出する(108) 、すなわち
まず文字ポインタ23の示す値N−8に従って単語の最
後部の文字rnJを抽出する0文字置換部24は抽出さ
れた文字について索引30を検索しく110) 、文字
rnJが先頭文字および後続文字から構成される誤り文
字パターンに該当するか否かを判断する。この検索が終
了したか否かを判断しく112) 、終了していない場
合、すなわち索引30に示されている誤り文字パターン
に該当するものがある場合には、置換衣32の行ポイン
タを誤りパターンの文字列に対応する行番号として置換
衣32を検索する。
文字「n」の場合には索引の誤り文字パターンに該当す
るものがないので、索引30の検索が終了し、文字ポイ
ンタ23の示す値Nを1だけ減数しく116) 、 N
が0であるか否かを判断する(104) 。
この場合N−7であるから、再び単語のN番目の文字を
抽出する(108) 、今度はN=7であるから、文字
「e」を抽出゛する。
次に文字置換部24は再び索引30を検索しく110)
 、文字reJが先頭文字および後続文字から構成され
る誤り文字パターンに該当するか否かを判断する。この
検索が終了したか否かを判断しく112) 、文字re
Jの場合にも索引の誤り文字パターンに該当するものが
ないので、索引30の検索が終rとなる。そこで文字ポ
インタ23の示す値Nをさらにlだけ減数しく11B)
 、 Nが0であるか否かを判断する(104) 、こ
の場合N−8であるから。
再び単語のN番11の文字を抽出する(108) 、今
度はN−8であるから、文字「t」を抽出する。
次に再び索引30を検索しく11G) 、文字rlJが
先頭文字および後続文字から構成される誤り文字パター
ンに該当するか否かを判断する。この検索は次のように
行われる0文字置換部24では索引30の先頭文字の項
を検索する。この結果、第3図に示すようにrter 
J  rtiJ  rtoJ  rHJ−rj Jが検
索される0次に文字置換部24では索引30の後続文字
の項を検索する。この例の場合には先頭文字「t」、後
続文字r ellJでrtenJとなるから、rter
 J  rtiJ  rtoJ  rttJは一致せず
、「t」が一致する。
したがって索引30に示されている誤り文字パターンに
該当するものがあるから、索引30の検索は終了せず(
112) 、索引30に示された行番号に従い、置換衣
32の行番号を誤りパターンの文字列に対応する行番号
として置換衣32を検索する(114) 、この場合に
は前述のようにrtJが一致するから、誤りパターンの
文字列に対応する行番号は37となり、置換衣32の行
番号37を検索する。
検索が終了した場合には(118) 、すなわち置換衣
32において検索する部分がなくなった場合には、索引
30の検索(110)に戻る。検索が終了していない場
合、すなわち置換衣32において検索する部分がある場
合には、置換衣32の上記行番号により指示された行を
順次検索し、rlJか「0」かを判断する(120) 
、  rl Jの場合には単語の誤り文字パターンと一
致する部分を置換衣32に示された置き換え文字と置き
換え、辞書検索部2Bにおいて英語辞書34を検索する
(122) 、  rl Jでない場合、すなわちrQ
 Jの場合には、i換表32の上記行番号により指示さ
れた行の次の部分を検索する(114) 。
第4図に示す置換衣において、まずrB Jに「1」が
立ッテイるから、「t」をrsJにfllき換え、r 
rewritelをr rewrisenJとし、この
r rewrisenJを英語辞書34で検索する。
英語辞書34を検索し、登録されている単語か否かを判
断しく124) 、登録されていない013Mの場合に
は置換衣32の上記行番号により指示された行の次の部
分を検索する(114) 。
登録されている単語の場合には文法チェック部28にお
いて文法3Bによりチェックする(12B) 。
r rewrisenJは英:il?−B3iに登録さ
れていないから、置換衣32の次の部分を検索する。
置換衣32の上記行番号により指示された行の次の部分
はr2Jであり、rlJが立ってI、%なしλ力、ら、
さらに置換衣32の次の部分を検索する。
置換衣32の上記行番号により指示された行の次の部分
はrttJであり、「l」が立っているから、「t」を
rttJに置換え、r rewritenJをr re
written Jとし、このr rewritten
 Jを英語辞書34により検索する。
r rewritten Jはrrewrite Jの
過去分詞として英語辞書34に登録されているから、文
法チェッり部28において文法36によりチェックする
チェックの結果、文法的に正しいか否かを判断しく12
8) 、文法的に正しければ登録単語と認定する(13
0) 、文法的に正しくなければ、置換表32の上記行
番号により指示された行の次の部分を検索する(114
) 。
r rewritten Jは、文法チx−/りの結果
r have+過去分詞」のパターンに該当し、文法的
に正しいので登録単語と認定される。このようにして、
単語訂正部6における処理が終rする。
このようにしテ*+i& r rewriten」がr
 rewritt−enJに訂正されると、第1図の単
語訂正部6から単語推定部8に入力文が送られる。!l
′ti語推定部8において未登録語として残った単語の
品詞を推定する。入力文rl have revrit
en in 1nkJの場合にはr reWriten
Jがr rewritten Jに訂正された結果、未
登録語はないから品詞の推定は行われない。
さらに訂正された入力文は翻訳部10に送られ。
日本語に翻訳された後、出力部12から出力される。
本実施例によれば、誤ったつづりを含む単語を選択して
単語訂iE部6に送り、単語訂正部Bにより訂正した後
、翻訳を行うから、翻訳を正しく行うことができる。1
1i語訂正部6における訂正は誤りパターンと一致した
もののみを置き換えることにより行うから効率的であり
、置き換えた単語は正しい確率が高い、したがってその
後の辞8検索、文法チェックの処理を少なくすることが
できる。また、rlき換えは行列で表示された置換表を
用いているから1機械的に単純に処理す゛ることができ
処理速度も高い。
第5図に単語訂正部8の他の実施例のブロック図を示す
、第2図と同一の構成要素は同一の符号で示し、説明を
省略する。
この実施例においては、文字置換部24は文字抽出部2
2から1文字ずつ送られた各文字ごとに置換表33を検
索し、後述のように置換表33にこれらに該当するパタ
ーンがあった場合には、置換表33に示された置き換え
文字に置き換える。したがって第2図の実施例のように
索引30を検索することはない。
この実施例における置換表33は、第6図に示すような
ものである。この置換表33は行方向に誤りパターンの
先頭文字、列方向に置き換え文字列を表示し、置換関係
のあるものを「l」以上、ないものを「0」で示してい
る。置換関係のあるものの場合、先頭文字を含め何文字
を置き換えるかを示している。また、置き換え文字列は
誤っている文字と置き換えられる文字列を示す。
この実施例の単語訂正部6の動作を第8図のフローチャ
ートにより説明する。
この実施例において第2図の実施例と異なるところは、
文字ポインタ23の示す値Nにより、単語のN番目の文
字を抽出した(108)後、抽出した文字について置換
表33を検索しく111) 、置換表33の検索が終了
した(113)ならば、文字ポインタ23の示す値Nを
1だけ減数する(11B) 。
検索が終了していない場合、すなわち置換表33におい
て検索する部分がある場合には、置換表33において抽
出した文字により指示された行を順次検索し、「1」以
丘か「0」かを判断する(121) 、  rl J以
]二の場合には置換表33に示された数字に従い、単語
の一部の文字を置き換え文字とtき換え、辞書検索部2
Bにおいて英語辞′!J34を検索する(123) 、
  rl J以上でない場合、すなわち「0」の場合に
は、訝換表33の抽出した文字により指示された行の次
の部分を検索する(111) 。
r rewritenJの場合にはN=8としてrnJ
、N−7として「e」をそれぞれ抽出して置換表33を
検索した結果、正しい訂正が行われない、そこでN−6
として「t」を抽出し、第6図に示す置換表33の「t
」により指示された行を検索する。  rttJに「1
」が立っているから、rtJを含めて1文字分、すなわ
ちrjJのみを置き換え文字rtt」と置換え、  r
 rewritenJをr rewritten Jと
して辞書検索部26において英語辞書34を検索する。
その後の動作は第2図の実施例と同様であり、r re
written Jは英語辞書34に登録されているか
ら、文法チェック部28において文法36によりチェッ
クし、文法的に正しいから登録単語と認定される。
なお、置換表33のrtJにより指示された行の検索に
おいて、例えばrtarJには「3」が立っているから
、rtJを含めて3文字、すなわちrtenJをrto
rJと置き換えることになり、r rewritenJ
がr rewritorJに置き換えられる。
この実施例によれば、置き換えは行列で表示されたδ換
表を用いているから、機械的に中純に処理することがで
き処理速度も高い。
また抽出する文字と2!1き換え文字を示す置換表によ
り、置き換えを行っているから、こ換表の容量が小さく
てすむ。
効  果 本発明によれば、誤ったつづりを含む単語のつづりのパ
ターンの特徴に着目して訂正を行い、文字の誤っている
確率に応じて置き換えを行うため、訂正後の単語の正確
度が高く、ti率的である。しかも単語の訂正する文字
の鐙き換えは行列で表示された近換表を用いて行うから
、機械的にtrL純に処理することができ処理速度も高
い。
【図面の簡単な説明】
第1図は末完IJ1が適用された単語訂正装置を含む翻
訳システムのブロック図。 第2図は本発明が適用された単語訂正装置の一実施例の
ブロック図、 第3図は第2図の実施例における索引の例を示す説明図
、 第4図は第2図の実施例における置換表の例を示す説明
図、 第5図は本発明が適用された中詰訂正−装置の他の実施
例のブロック図。 第6図は第5図の実施例における置換表の例を示す説明
図、 第7図は第2図の実施例の動作を示すフローチャート。 第8図は第5図の実施例の動作を示すフローチャートで
ある。 主要部分の符号の説明 13、、.1語訂正部 22、、、文字抽出部 24、、、文字置換部 2B、、、辞書検索部 28、、、文法チェック部 30、、、索引 32.33.置換表 34、、、英語辞書 3B、、、文法 第1図 第2図 第3図 第4図 15袂扶謬 第5図 第6図 償?七央九文芋 第7図 第8図

Claims (1)

  1. 【特許請求の範囲】 1、入力された単語から文字を1つずつ抽出する文字抽
    出手段と、 該文字抽出手段により抽出された文字ごとに置換表を検
    索して文字を置換し得る文字置換手段と、 該文字置換手段により文字が置換された単語を辞書によ
    り検索する辞書検索手段と、 前記文字抽出手段、文字置換手段、辞書検索手段を制御
    する制御手段とを有し、 該制御手段は、前記の入力された単語を構成する文字を
    前記文字抽出手段により1つずつ抽出し、抽出された文
    字を前記文字置換手段により所定の文字と置換し、置換
    した文字を含む単語を前記辞書検索手段により検索する
    ように制御することを特徴とする単語訂正装置。 2、特許請求の範囲第1項記載の装置において、前記置
    換表は、文字の誤りパターンと正しいパターンとの置換
    関係を表示した行列表であることを特徴とする単語訂正
    装置。 3、特許請求の範囲第2項記載の装置において、前記文
    字置換手段は、さらに誤りパターンに対応する置換表の
    行番号を指示する索引をも検索することを特徴とする単
    語訂正装置。 4、特許請求の範囲第1項記載の装置において、前記文
    字置換手段により文字が置換された単語を前記辞書検索
    手段により検索した後、入力文の文法をチェックする文
    法チェック手段を有することを特徴とする単語訂正装置
JP60194939A 1985-09-05 1985-09-05 単語訂正装置 Pending JPS6255757A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60194939A JPS6255757A (ja) 1985-09-05 1985-09-05 単語訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60194939A JPS6255757A (ja) 1985-09-05 1985-09-05 単語訂正装置

Publications (1)

Publication Number Publication Date
JPS6255757A true JPS6255757A (ja) 1987-03-11

Family

ID=16332848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60194939A Pending JPS6255757A (ja) 1985-09-05 1985-09-05 単語訂正装置

Country Status (1)

Country Link
JP (1) JPS6255757A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230179A (ja) * 1988-10-15 1990-09-12 Ikuo Kudo 機械翻訳による語学教育装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02230179A (ja) * 1988-10-15 1990-09-12 Ikuo Kudo 機械翻訳による語学教育装置

Similar Documents

Publication Publication Date Title
US5572423A (en) Method for correcting spelling using error frequencies
US5895446A (en) Pattern-based translation method and system
US5258909A (en) Method and apparatus for "wrong word" spelling error detection and correction
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
JPH02299068A (ja) 入力文字列からワードを分離する方法
JPH0689302A (ja) 辞書メモリ
US5384702A (en) Method for self-correction of grammar in machine translation
US4964030A (en) Apparatus for translating sentences containing punctuation marks
JPH0211934B2 (ja)
US4860206A (en) Translation system allowing user designation of postpositional words
JPS58192173A (ja) 機械翻訳装置
USRE35464E (en) Apparatus and method for translating sentences containing punctuation marks
JP2595934B2 (ja) 仮名漢字変換処理装置
JPS6255757A (ja) 単語訂正装置
JPS5822767B2 (ja) 和文タイプライタ
JP3343941B2 (ja) 例文検索システム
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
JPS62184572A (ja) 単語分割装置における呼応複合語の辞書検索方式
JPS59103136A (ja) カナ漢字変換処理装置
JPH0267684A (ja) 校正支援方法
JPH04278664A (ja) 住所解析処理装置
JPH04313158A (ja) 機械翻訳装置
JPS63136264A (ja) 機械翻訳装置
JPH0460754A (ja) 仮名漢字変換方法