JPS63234348A - 文章校正支援方式 - Google Patents
文章校正支援方式Info
- Publication number
- JPS63234348A JPS63234348A JP62068211A JP6821187A JPS63234348A JP S63234348 A JPS63234348 A JP S63234348A JP 62068211 A JP62068211 A JP 62068211A JP 6821187 A JP6821187 A JP 6821187A JP S63234348 A JPS63234348 A JP S63234348A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- word
- words
- string
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 abstract description 17
- 238000004458 analytical method Methods 0.000 abstract description 9
- 150000001875 compounds Chemical class 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000001915 proofreading effect Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概要〕
日本語文章を入力し、その文章中の誤字を検出する文章
校正装置で、該入力された文字列に対して、少なくとも
表記、読み9文法を格納した単語辞書を検索し、単語の
同定を行った結果、2文字以上の漢字列であって、1文
字漢字単語を含んだ漢字列を誤字として検出する文章校
正支援方式において、該文章校正装置に、1文字漢字単
語であっても正しい漢字列゛を形成する単語を登録する
非検出単語辞書を設けることにより、該非検出単語辞書
−に登録されている1文字漢字単語を含んだ漢字列は、
誤字を含まないと判定するようにしたものである。
校正装置で、該入力された文字列に対して、少なくとも
表記、読み9文法を格納した単語辞書を検索し、単語の
同定を行った結果、2文字以上の漢字列であって、1文
字漢字単語を含んだ漢字列を誤字として検出する文章校
正支援方式において、該文章校正装置に、1文字漢字単
語であっても正しい漢字列゛を形成する単語を登録する
非検出単語辞書を設けることにより、該非検出単語辞書
−に登録されている1文字漢字単語を含んだ漢字列は、
誤字を含まないと判定するようにしたものである。
本発明は、日本語文章を入力し、その文章中の誤字を検
出する文章校正装置における文章校正支援方式に関する
。
出する文章校正装置における文章校正支援方式に関する
。
最近の計算機システムの進歩に伴って、該計算機システ
ムにより、企業内の文書、或いは新聞出版における記事
等の文章9文書の作成1編集1紙面の割り付は等の分野
において、ある程度機械化が行われているが、該文書、
記事の校正作業については、未だ多くの人手に頬ってお
り、該校正時の誤字の検出の自動化が期待されている。
ムにより、企業内の文書、或いは新聞出版における記事
等の文章9文書の作成1編集1紙面の割り付は等の分野
において、ある程度機械化が行われているが、該文書、
記事の校正作業については、未だ多くの人手に頬ってお
り、該校正時の誤字の検出の自動化が期待されている。
〔従来の技術と発明が解決しようとする問題点〕第4図
は従来の文章校正支援方式を説明する図である。
は従来の文章校正支援方式を説明する図である。
現在、行われている新聞等での記事の校正作業では、例
えば、2人1組による読み合わせ校正が行われており、
一方が原稿を読み上げ、他方が赤ペンを持って「ゲラ刷
り」文書をチェックする方法が採られている。
えば、2人1組による読み合わせ校正が行われており、
一方が原稿を読み上げ、他方が赤ペンを持って「ゲラ刷
り」文書をチェックする方法が採られている。
上記の読み手側を代表する手段として、例えば、日本語
音声出力装置等があるが、該装置から出力される「読み
」を聞いているだけでは、例えば、「酷鉄」と「国鉄」
とか、「相異」と「相違」の区別ができない問題がある
。
音声出力装置等があるが、該装置から出力される「読み
」を聞いているだけでは、例えば、「酷鉄」と「国鉄」
とか、「相異」と「相違」の区別ができない問題がある
。
そこで、本願出願者は、その解決策として、1文字漢字
単語の組み合わせを誤字として検出する文章校正支援方
式を開示している。
単語の組み合わせを誤字として検出する文章校正支援方
式を開示している。
本図は、この1文字漢字単語の組み合わせを誤字として
検出する文章校正支援方式を示したもので、詳細は該別
件の特許出願に開示されているので省略するが、要約す
ると、以下の通りとなる。
検出する文章校正支援方式を示したもので、詳細は該別
件の特許出願に開示されているので省略するが、要約す
ると、以下の通りとなる。
一般に、漢字で構成されている単語(一般語。
固有名詞)の構成文字数の分布は、2文字以下で構成さ
れている単語が・90%で、特に、その80%は2文字
で構成されている。
れている単語が・90%で、特に、その80%は2文字
で構成されている。
本図の文章解析用の単語辞書5も、同じような分布で構
成されている為、2文字以上の漢字列が1文字車語で分
割されると云うことは、そこに誤りを含んでいる可能性
が高いこと、及び該2文字以上の漢字列が1文字車語で
分割される例を、例えば、新聞記事の文字出現顧度で分
析すると、「日J r−J r十J r二」「人」「年
」「三」「本」 「五」 「四」 「時」が、その上位
を占めており、数字、助数詞が約半分を占めていること
に着目して、上記1文字漢字単語の組み合わせを、無意
味漢字列検出部6で検出した後、検出制限部61におい
て、1.数詞−数詞、2.数詞−助数詞、3.姓−名前
2等を検出しないようにして、正しい単語列を見つけ、
残りを誤字とするようにしたものである。
成されている為、2文字以上の漢字列が1文字車語で分
割されると云うことは、そこに誤りを含んでいる可能性
が高いこと、及び該2文字以上の漢字列が1文字車語で
分割される例を、例えば、新聞記事の文字出現顧度で分
析すると、「日J r−J r十J r二」「人」「年
」「三」「本」 「五」 「四」 「時」が、その上位
を占めており、数字、助数詞が約半分を占めていること
に着目して、上記1文字漢字単語の組み合わせを、無意
味漢字列検出部6で検出した後、検出制限部61におい
て、1.数詞−数詞、2.数詞−助数詞、3.姓−名前
2等を検出しないようにして、正しい単語列を見つけ、
残りを誤字とするようにしたものである。
然しなから、この従来方式においては、例えば、1文字
漢字単語がキーワードとなっている文章を作成している
場合、その1文字漢字単語を使った複合語1派生語を全
て誤字として検出してしまうと云う問題があった。
漢字単語がキーワードとなっている文章を作成している
場合、その1文字漢字単語を使った複合語1派生語を全
て誤字として検出してしまうと云う問題があった。
具体例で示すと、上記1文字漢字単語として、「核」を
考えると、該「核」を使った複合語である「核−兵器」
「核−融合」「核−保有一国」等は、上記1文字漢字
単語である「核」との組み合わせであり、前述の従来方
式では、全て誤字として検出されてしまうと云う問題が
あった。
考えると、該「核」を使った複合語である「核−兵器」
「核−融合」「核−保有一国」等は、上記1文字漢字
単語である「核」との組み合わせであり、前述の従来方
式では、全て誤字として検出されてしまうと云う問題が
あった。
本発明は上記従来の欠点に鑑み、文章校正支援方式にお
いて、1文字漢字単語の組み合わせでも、複合語等とし
て使用される1文字漢字単語の組み合わせを誤字を含む
漢字列として検出しない方法を提供することを目的とす
るものである。
いて、1文字漢字単語の組み合わせでも、複合語等とし
て使用される1文字漢字単語の組み合わせを誤字を含む
漢字列として検出しない方法を提供することを目的とす
るものである。
第1図は本発明の文章校正支援方式の原理構成図である
。
。
日本語文章を入力し、その文章中の誤字を検出する文章
校正装置において、 該入力された文字列に対して、少な(とも表記。
校正装置において、 該入力された文字列に対して、少な(とも表記。
読み9文法を格納した単語辞書5を検索し、単語の同定
を行った結果、2文字以上の漢字列であって、1文字漢
字単語を含んだ漢字列を誤字として検出する文章校正支
援方式であって、 該文章校正装置に、1文字漢字単語であっても正しい漢
字列を形成する単語を登録する非検出単語辞書9を設け
て、 該非検出単語辞書9に登録されている1文字漢字単語を
含んだ漢字列は、誤字を含まないとするように構成する
。
を行った結果、2文字以上の漢字列であって、1文字漢
字単語を含んだ漢字列を誤字として検出する文章校正支
援方式であって、 該文章校正装置に、1文字漢字単語であっても正しい漢
字列を形成する単語を登録する非検出単語辞書9を設け
て、 該非検出単語辞書9に登録されている1文字漢字単語を
含んだ漢字列は、誤字を含まないとするように構成する
。
即ち、本発明によれば、日本語文章を入力し、その文章
中の誤字を検出する文章校正装置で、該入力された文字
列に対して、少なくとも表記、読み9文法を格納した単
語辞書を検索し、単語の同定を行った結果、2文字以上
の漢字列であって、1文字漢字単語を含んだ漢字列を誤
字として検出する文章校正支援方式において、該文章校
正装置に、1文字漢字単語であっても正しい漢字列を形
成する単語を登録する非検出単語辞書を設けることによ
り、該非検出単語辞書に登録されている1文字漢字単語
を含んだ漢字列は、誤字を含まないと判定するようにし
たものであるので、通常の目での確認漏れ、読み上げを
聞いている場合に区別が付かない誤字の検出が可能であ
り、更に非検出単語辞書に登録されている単語の複合語
9派生語は誤字とみなさなくなり、無駄な検出を防ぐこ
とができる効果がある。
中の誤字を検出する文章校正装置で、該入力された文字
列に対して、少なくとも表記、読み9文法を格納した単
語辞書を検索し、単語の同定を行った結果、2文字以上
の漢字列であって、1文字漢字単語を含んだ漢字列を誤
字として検出する文章校正支援方式において、該文章校
正装置に、1文字漢字単語であっても正しい漢字列を形
成する単語を登録する非検出単語辞書を設けることによ
り、該非検出単語辞書に登録されている1文字漢字単語
を含んだ漢字列は、誤字を含まないと判定するようにし
たものであるので、通常の目での確認漏れ、読み上げを
聞いている場合に区別が付かない誤字の検出が可能であ
り、更に非検出単語辞書に登録されている単語の複合語
9派生語は誤字とみなさなくなり、無駄な検出を防ぐこ
とができる効果がある。
以下本発明の実施例を図面によって詳述する。
前述の第1図が本発明の文章校正支援方式の原理構成図
であり、第2図は本発明の一実施例を模式的に示した図
であり、第3図は本発明の文章校正支援方式の処理の流
れ図であって、第1図、第2図における非検出単語辞書
9.と非検出単語辞書検索部7が本発明を実施するのに
必要な手段である。尚、企図を通して同じ符号は同じ対
象物を示している。
であり、第2図は本発明の一実施例を模式的に示した図
であり、第3図は本発明の文章校正支援方式の処理の流
れ図であって、第1図、第2図における非検出単語辞書
9.と非検出単語辞書検索部7が本発明を実施するのに
必要な手段である。尚、企図を通して同じ符号は同じ対
象物を示している。
以下、第1図〜第3図によって、本発明の文章校正支援
方式を説明する。
方式を説明する。
本発明においては、1文字漢字単語であっても、正しい
漢字列を形成する単語については、該1文字漢字単語が
2文字以上の漢字列に含まれていても誤字としないよう
にする所に特徴かあ、る。
漢字列を形成する単語については、該1文字漢字単語が
2文字以上の漢字列に含まれていても誤字としないよう
にする所に特徴かあ、る。
先ず、文章入力部1において一図示していないキーボー
ド等から文章示入カされ、文章解析部2に送出される。
ド等から文章示入カされ、文章解析部2に送出される。
文章解析部2においては、本願出願者が先願している特
開昭59−90167号公報「文章解析方式」に開示さ
れている文書解析方法により解析を行う。
開昭59−90167号公報「文章解析方式」に開示さ
れている文書解析方法により解析を行う。
概略的には、単語辞書検索部21で、表記、読み9文法
等を格納した単語辞書5を検索して、一致するものを取
り出し、単語同定部22で、文章として最も適切な単語
列に分割する。
等を格納した単語辞書5を検索して、一致するものを取
り出し、単語同定部22で、文章として最も適切な単語
列に分割する。
該解析結果は、無意味漢字列検出部6において、判定条
件■〜■について判定され、更に、検出制限部61で正
しい単語列を見つけ、残りの1文字漢字単語を含んだ漢
字列を検出する。
件■〜■について判定され、更に、検出制限部61で正
しい単語列を見つけ、残りの1文字漢字単語を含んだ漢
字列を検出する。
この無意味漢字列検出部6で検出された漢字列の中の1
文字漢字単語は、その次の非検出単語辞書検索部7にお
いて、非検出単語辞書9に登録されているか否かが検索
され、若し、該辞書9中に同じ単語があった場合には、
当該1文字漢字単語を含む漢字列は誤字を含んでないと
し、若し、該辞書9中に同じ単語がなかった場合には、
当該1文字漢字単語を含む漢字列中に誤字があったとし
て誤字検出部8で該当誤字を検出する。
文字漢字単語は、その次の非検出単語辞書検索部7にお
いて、非検出単語辞書9に登録されているか否かが検索
され、若し、該辞書9中に同じ単語があった場合には、
当該1文字漢字単語を含む漢字列は誤字を含んでないと
し、若し、該辞書9中に同じ単語がなかった場合には、
当該1文字漢字単語を含む漢字列中に誤字があったとし
て誤字検出部8で該当誤字を検出する。
上記の文章校正支援方式を、第2図の実施例によって、
第3図の流れ図を参照しながら具体例で説明する。
第3図の流れ図を参照しながら具体例で説明する。
文字入力部1で入力された文章を「核兵器を池語に分割
される。
される。
この単語列を、次の無意味漢字列検出部6におでいるの
で、誤字を含む漢字列として検出される。
で、誤字を含む漢字列として検出される。
とする。
更に、該誤字フラグが°オン°になっている1文字漢字
単語について、非検出単語辞書検索部7において、非検
出単語辞書9を検索し、一致する単語があった場合には
、上記付与した誤字フラグを゛オブにする。
単語について、非検出単語辞書検索部7において、非検
出単語辞書9を検索し、一致する単語があった場合には
、上記付与した誤字フラグを゛オブにする。
この非検出単語辞書9には、予め、正しい漢字列を形成
する1文字漢字単語として、例えば、字検出部8におい
ては、誤字フラグが°オン”の単語を含む漢字列を誤字
とする。本例においては第3図は上記の文章校正支援方
式の処理を流れ図で示したもので、各処理ステップに付
与されている番号(6,7,8)は、第1図、第2図の
各処理部の番号に対応している。
する1文字漢字単語として、例えば、字検出部8におい
ては、誤字フラグが°オン”の単語を含む漢字列を誤字
とする。本例においては第3図は上記の文章校正支援方
式の処理を流れ図で示したもので、各処理ステップに付
与されている番号(6,7,8)は、第1図、第2図の
各処理部の番号に対応している。
このように、本発明は、日本語文章を入力し、その入力
された文字列に対して、表記、読み2文法等を格納した
単語辞書を検索して、単語の同定を行い、2文字以上の
漢字列であって、1文字漢字単語を含む漢字列を誤字と
する文章校正支援方式において、予め、上記1文字漢字
単語であっても、正しい漢字列を形成する単語を非検出
単語辞書に登録しておくことにより、該非検出単語辞書
に登録されている1文字漢字単語を含んだ漢字列は誤字
を含まないように判定する所に特徴があ−る。
された文字列に対して、表記、読み2文法等を格納した
単語辞書を検索して、単語の同定を行い、2文字以上の
漢字列であって、1文字漢字単語を含む漢字列を誤字と
する文章校正支援方式において、予め、上記1文字漢字
単語であっても、正しい漢字列を形成する単語を非検出
単語辞書に登録しておくことにより、該非検出単語辞書
に登録されている1文字漢字単語を含んだ漢字列は誤字
を含まないように判定する所に特徴があ−る。
以上、詳細に説明したように、本発明の文章校正支援方
式は、日本語文章を入力し、その文章中の誤字を検出す
る文章校正装置で、該入力された文字列に対して、少な
くとも表記、読み9文法を格納した単語辞書を検索し、
単語の同定を行った結果、2文字以上の漢字列であって
、1文字漢字単語を含んだ漢字列を誤字として検出する
文章校正支援方式において、該文章校正装置に、1文字
漢字単語であっても正しい漢字列を形成する単語を登録
する非検出単語辞書を設けることにより、該非検出単語
辞書に登録されている1文字漢字単語を含んだ漢字列は
、誤字を含まないと判定するようにしたものであるので
、通常の目での確認漏れ、読み上げを聞いている場合に
区別が付かない誤字の検出が可能であり、更に非検出単
語辞書に登録されている単語の複合語1派生語は誤字と
みなさなくなり、無駄な検出を防ぐことができる効果が
ある。
式は、日本語文章を入力し、その文章中の誤字を検出す
る文章校正装置で、該入力された文字列に対して、少な
くとも表記、読み9文法を格納した単語辞書を検索し、
単語の同定を行った結果、2文字以上の漢字列であって
、1文字漢字単語を含んだ漢字列を誤字として検出する
文章校正支援方式において、該文章校正装置に、1文字
漢字単語であっても正しい漢字列を形成する単語を登録
する非検出単語辞書を設けることにより、該非検出単語
辞書に登録されている1文字漢字単語を含んだ漢字列は
、誤字を含まないと判定するようにしたものであるので
、通常の目での確認漏れ、読み上げを聞いている場合に
区別が付かない誤字の検出が可能であり、更に非検出単
語辞書に登録されている単語の複合語1派生語は誤字と
みなさなくなり、無駄な検出を防ぐことができる効果が
ある。
第1図は本発明の文章校正支援方式の原理構成図。
第2図は本発明の一実施例を模式的に示した図。
第3図は本発明の文章校正支援方式の処理の流れ図。
第4図は従来の文章校正支援方式を説明する図。
である。
図面において、
lは文章入力部、 2は文章解析部。
21は単語辞書検索部、22は単語同定部。
5は単語辞書。
6は無意味漢字列検出部。
61は検出制限部。
7は非検出単語辞書検索部。
8は誤字検出部、 9は非検索単語辞書。
■〜■は判定条件。
する。
Claims (1)
- 【特許請求の範囲】 日本語文章を入力し、その文章中の誤字を検出する文章
校正装置において、 該入力された文字列に対して、少なくとも表記、読み、
文法を格納した単語辞書(5)を検索し、単語の同定を
行った結果、2文字以上の漢字列であって、1文字漢字
単語を含んだ漢字列を誤字として検出する文章校正支援
方式であって、 該文章校正装置に、1文字漢字単語であっても正しい漢
字列を形成する単語を登録する非検出単語辞書(9)を
設けて、 該非検出単語辞書(9)に登録されている1文字漢字単
語を含んだ漢字列は、誤字を含まないとすることを特徴
とする文章校正支援方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62068211A JPS63234348A (ja) | 1987-03-23 | 1987-03-23 | 文章校正支援方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62068211A JPS63234348A (ja) | 1987-03-23 | 1987-03-23 | 文章校正支援方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63234348A true JPS63234348A (ja) | 1988-09-29 |
Family
ID=13367233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62068211A Pending JPS63234348A (ja) | 1987-03-23 | 1987-03-23 | 文章校正支援方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63234348A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02165270A (ja) * | 1988-12-19 | 1990-06-26 | Canon Inc | 文字処理装置 |
JPH03135660A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 文字処理装置 |
-
1987
- 1987-03-23 JP JP62068211A patent/JPS63234348A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02165270A (ja) * | 1988-12-19 | 1990-06-26 | Canon Inc | 文字処理装置 |
JPH03135660A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 文字処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grefenstette et al. | What is a word, what is a sentence?: problems of Tokenisation | |
EP0415000B1 (en) | Method and apparatus for spelling error detection and correction | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
Darwis et al. | Exhaustive affix stripping and a Malay word register to solve stemming errors and ambiguity problem in Malay stemmers | |
Darwish et al. | Adapting morphology for arabic information retrieval | |
JPS63234348A (ja) | 文章校正支援方式 | |
JPS5892063A (ja) | イデイオム処理方式 | |
Sawalha et al. | Linguistically informed and corpus informed morphological analysis of Arabic | |
JPH03105465A (ja) | 複合語抽出装置 | |
JP3470927B2 (ja) | 自然語解析方法及び装置 | |
JPH0363767A (ja) | テキスト音声合成装置 | |
JP2599973B2 (ja) | 日本文訂正候補文字抽出装置 | |
Sarı et al. | A NAMED ENTITY RECOGNITION MODEL FOR TURKISH LECTURE NOTES IN HISTORY AND GEOGRAPHY DOMAINS | |
Salah et al. | Research Article A New Rule-Based Approach for Classical Arabic in Natural Language Processing | |
JPS63249260A (ja) | 文章校正支援装置 | |
JPS61208164A (ja) | 日本語文章校正装置の表示方式 | |
JPS6394364A (ja) | 日本文誤字自動修正装置 | |
JPS63249259A (ja) | 文章校正支援装置 | |
JPS6395570A (ja) | 言語解析方式 | |
JPH02136959A (ja) | 日本文訂正候補抽出装置 | |
JPH05225183A (ja) | 日本文単語誤り自動検出装置 | |
Trushkina | Automatic error detection in second language learners' writing | |
Itai | A Linguistic Search Tool for Semitic Languages |