JPS63234348A - 文章校正支援方式 - Google Patents

文章校正支援方式

Info

Publication number
JPS63234348A
JPS63234348A JP62068211A JP6821187A JPS63234348A JP S63234348 A JPS63234348 A JP S63234348A JP 62068211 A JP62068211 A JP 62068211A JP 6821187 A JP6821187 A JP 6821187A JP S63234348 A JPS63234348 A JP S63234348A
Authority
JP
Japan
Prior art keywords
kanji
word
words
string
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62068211A
Other languages
English (en)
Inventor
Fukami Kamiyama
神山 ふかみ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62068211A priority Critical patent/JPS63234348A/ja
Publication of JPS63234348A publication Critical patent/JPS63234348A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 日本語文章を入力し、その文章中の誤字を検出する文章
校正装置で、該入力された文字列に対して、少なくとも
表記、読み9文法を格納した単語辞書を検索し、単語の
同定を行った結果、2文字以上の漢字列であって、1文
字漢字単語を含んだ漢字列を誤字として検出する文章校
正支援方式において、該文章校正装置に、1文字漢字単
語であっても正しい漢字列゛を形成する単語を登録する
非検出単語辞書を設けることにより、該非検出単語辞書
−に登録されている1文字漢字単語を含んだ漢字列は、
誤字を含まないと判定するようにしたものである。
〔産業上の利用分野〕
本発明は、日本語文章を入力し、その文章中の誤字を検
出する文章校正装置における文章校正支援方式に関する
最近の計算機システムの進歩に伴って、該計算機システ
ムにより、企業内の文書、或いは新聞出版における記事
等の文章9文書の作成1編集1紙面の割り付は等の分野
において、ある程度機械化が行われているが、該文書、
記事の校正作業については、未だ多くの人手に頬ってお
り、該校正時の誤字の検出の自動化が期待されている。
〔従来の技術と発明が解決しようとする問題点〕第4図
は従来の文章校正支援方式を説明する図である。
現在、行われている新聞等での記事の校正作業では、例
えば、2人1組による読み合わせ校正が行われており、
一方が原稿を読み上げ、他方が赤ペンを持って「ゲラ刷
り」文書をチェックする方法が採られている。
上記の読み手側を代表する手段として、例えば、日本語
音声出力装置等があるが、該装置から出力される「読み
」を聞いているだけでは、例えば、「酷鉄」と「国鉄」
とか、「相異」と「相違」の区別ができない問題がある
そこで、本願出願者は、その解決策として、1文字漢字
単語の組み合わせを誤字として検出する文章校正支援方
式を開示している。
本図は、この1文字漢字単語の組み合わせを誤字として
検出する文章校正支援方式を示したもので、詳細は該別
件の特許出願に開示されているので省略するが、要約す
ると、以下の通りとなる。
一般に、漢字で構成されている単語(一般語。
固有名詞)の構成文字数の分布は、2文字以下で構成さ
れている単語が・90%で、特に、その80%は2文字
で構成されている。
本図の文章解析用の単語辞書5も、同じような分布で構
成されている為、2文字以上の漢字列が1文字車語で分
割されると云うことは、そこに誤りを含んでいる可能性
が高いこと、及び該2文字以上の漢字列が1文字車語で
分割される例を、例えば、新聞記事の文字出現顧度で分
析すると、「日J r−J r十J r二」「人」「年
」「三」「本」 「五」 「四」 「時」が、その上位
を占めており、数字、助数詞が約半分を占めていること
に着目して、上記1文字漢字単語の組み合わせを、無意
味漢字列検出部6で検出した後、検出制限部61におい
て、1.数詞−数詞、2.数詞−助数詞、3.姓−名前
2等を検出しないようにして、正しい単語列を見つけ、
残りを誤字とするようにしたものである。
然しなから、この従来方式においては、例えば、1文字
漢字単語がキーワードとなっている文章を作成している
場合、その1文字漢字単語を使った複合語1派生語を全
て誤字として検出してしまうと云う問題があった。
具体例で示すと、上記1文字漢字単語として、「核」を
考えると、該「核」を使った複合語である「核−兵器」
 「核−融合」「核−保有一国」等は、上記1文字漢字
単語である「核」との組み合わせであり、前述の従来方
式では、全て誤字として検出されてしまうと云う問題が
あった。
本発明は上記従来の欠点に鑑み、文章校正支援方式にお
いて、1文字漢字単語の組み合わせでも、複合語等とし
て使用される1文字漢字単語の組み合わせを誤字を含む
漢字列として検出しない方法を提供することを目的とす
るものである。
〔問題点を解決するための手段〕
第1図は本発明の文章校正支援方式の原理構成図である
日本語文章を入力し、その文章中の誤字を検出する文章
校正装置において、 該入力された文字列に対して、少な(とも表記。
読み9文法を格納した単語辞書5を検索し、単語の同定
を行った結果、2文字以上の漢字列であって、1文字漢
字単語を含んだ漢字列を誤字として検出する文章校正支
援方式であって、 該文章校正装置に、1文字漢字単語であっても正しい漢
字列を形成する単語を登録する非検出単語辞書9を設け
て、 該非検出単語辞書9に登録されている1文字漢字単語を
含んだ漢字列は、誤字を含まないとするように構成する
〔作用〕
即ち、本発明によれば、日本語文章を入力し、その文章
中の誤字を検出する文章校正装置で、該入力された文字
列に対して、少なくとも表記、読み9文法を格納した単
語辞書を検索し、単語の同定を行った結果、2文字以上
の漢字列であって、1文字漢字単語を含んだ漢字列を誤
字として検出する文章校正支援方式において、該文章校
正装置に、1文字漢字単語であっても正しい漢字列を形
成する単語を登録する非検出単語辞書を設けることによ
り、該非検出単語辞書に登録されている1文字漢字単語
を含んだ漢字列は、誤字を含まないと判定するようにし
たものであるので、通常の目での確認漏れ、読み上げを
聞いている場合に区別が付かない誤字の検出が可能であ
り、更に非検出単語辞書に登録されている単語の複合語
9派生語は誤字とみなさなくなり、無駄な検出を防ぐこ
とができる効果がある。
〔実施例〕
以下本発明の実施例を図面によって詳述する。
前述の第1図が本発明の文章校正支援方式の原理構成図
であり、第2図は本発明の一実施例を模式的に示した図
であり、第3図は本発明の文章校正支援方式の処理の流
れ図であって、第1図、第2図における非検出単語辞書
9.と非検出単語辞書検索部7が本発明を実施するのに
必要な手段である。尚、企図を通して同じ符号は同じ対
象物を示している。
以下、第1図〜第3図によって、本発明の文章校正支援
方式を説明する。
本発明においては、1文字漢字単語であっても、正しい
漢字列を形成する単語については、該1文字漢字単語が
2文字以上の漢字列に含まれていても誤字としないよう
にする所に特徴かあ、る。
先ず、文章入力部1において一図示していないキーボー
ド等から文章示入カされ、文章解析部2に送出される。
文章解析部2においては、本願出願者が先願している特
開昭59−90167号公報「文章解析方式」に開示さ
れている文書解析方法により解析を行う。
概略的には、単語辞書検索部21で、表記、読み9文法
等を格納した単語辞書5を検索して、一致するものを取
り出し、単語同定部22で、文章として最も適切な単語
列に分割する。
該解析結果は、無意味漢字列検出部6において、判定条
件■〜■について判定され、更に、検出制限部61で正
しい単語列を見つけ、残りの1文字漢字単語を含んだ漢
字列を検出する。
この無意味漢字列検出部6で検出された漢字列の中の1
文字漢字単語は、その次の非検出単語辞書検索部7にお
いて、非検出単語辞書9に登録されているか否かが検索
され、若し、該辞書9中に同じ単語があった場合には、
当該1文字漢字単語を含む漢字列は誤字を含んでないと
し、若し、該辞書9中に同じ単語がなかった場合には、
当該1文字漢字単語を含む漢字列中に誤字があったとし
て誤字検出部8で該当誤字を検出する。
上記の文章校正支援方式を、第2図の実施例によって、
第3図の流れ図を参照しながら具体例で説明する。
文字入力部1で入力された文章を「核兵器を池語に分割
される。
この単語列を、次の無意味漢字列検出部6におでいるの
で、誤字を含む漢字列として検出される。
とする。
更に、該誤字フラグが°オン°になっている1文字漢字
単語について、非検出単語辞書検索部7において、非検
出単語辞書9を検索し、一致する単語があった場合には
、上記付与した誤字フラグを゛オブにする。
この非検出単語辞書9には、予め、正しい漢字列を形成
する1文字漢字単語として、例えば、字検出部8におい
ては、誤字フラグが°オン”の単語を含む漢字列を誤字
とする。本例においては第3図は上記の文章校正支援方
式の処理を流れ図で示したもので、各処理ステップに付
与されている番号(6,7,8)は、第1図、第2図の
各処理部の番号に対応している。
このように、本発明は、日本語文章を入力し、その入力
された文字列に対して、表記、読み2文法等を格納した
単語辞書を検索して、単語の同定を行い、2文字以上の
漢字列であって、1文字漢字単語を含む漢字列を誤字と
する文章校正支援方式において、予め、上記1文字漢字
単語であっても、正しい漢字列を形成する単語を非検出
単語辞書に登録しておくことにより、該非検出単語辞書
に登録されている1文字漢字単語を含んだ漢字列は誤字
を含まないように判定する所に特徴があ−る。
〔発明の効果〕
以上、詳細に説明したように、本発明の文章校正支援方
式は、日本語文章を入力し、その文章中の誤字を検出す
る文章校正装置で、該入力された文字列に対して、少な
くとも表記、読み9文法を格納した単語辞書を検索し、
単語の同定を行った結果、2文字以上の漢字列であって
、1文字漢字単語を含んだ漢字列を誤字として検出する
文章校正支援方式において、該文章校正装置に、1文字
漢字単語であっても正しい漢字列を形成する単語を登録
する非検出単語辞書を設けることにより、該非検出単語
辞書に登録されている1文字漢字単語を含んだ漢字列は
、誤字を含まないと判定するようにしたものであるので
、通常の目での確認漏れ、読み上げを聞いている場合に
区別が付かない誤字の検出が可能であり、更に非検出単
語辞書に登録されている単語の複合語1派生語は誤字と
みなさなくなり、無駄な検出を防ぐことができる効果が
ある。
【図面の簡単な説明】
第1図は本発明の文章校正支援方式の原理構成図。 第2図は本発明の一実施例を模式的に示した図。 第3図は本発明の文章校正支援方式の処理の流れ図。 第4図は従来の文章校正支援方式を説明する図。 である。 図面において、 lは文章入力部、   2は文章解析部。 21は単語辞書検索部、22は単語同定部。 5は単語辞書。 6は無意味漢字列検出部。 61は検出制限部。 7は非検出単語辞書検索部。 8は誤字検出部、   9は非検索単語辞書。 ■〜■は判定条件。 する。

Claims (1)

  1. 【特許請求の範囲】 日本語文章を入力し、その文章中の誤字を検出する文章
    校正装置において、 該入力された文字列に対して、少なくとも表記、読み、
    文法を格納した単語辞書(5)を検索し、単語の同定を
    行った結果、2文字以上の漢字列であって、1文字漢字
    単語を含んだ漢字列を誤字として検出する文章校正支援
    方式であって、 該文章校正装置に、1文字漢字単語であっても正しい漢
    字列を形成する単語を登録する非検出単語辞書(9)を
    設けて、 該非検出単語辞書(9)に登録されている1文字漢字単
    語を含んだ漢字列は、誤字を含まないとすることを特徴
    とする文章校正支援方式。
JP62068211A 1987-03-23 1987-03-23 文章校正支援方式 Pending JPS63234348A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62068211A JPS63234348A (ja) 1987-03-23 1987-03-23 文章校正支援方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62068211A JPS63234348A (ja) 1987-03-23 1987-03-23 文章校正支援方式

Publications (1)

Publication Number Publication Date
JPS63234348A true JPS63234348A (ja) 1988-09-29

Family

ID=13367233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62068211A Pending JPS63234348A (ja) 1987-03-23 1987-03-23 文章校正支援方式

Country Status (1)

Country Link
JP (1) JPS63234348A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165270A (ja) * 1988-12-19 1990-06-26 Canon Inc 文字処理装置
JPH03135660A (ja) * 1989-10-20 1991-06-10 Canon Inc 文字処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165270A (ja) * 1988-12-19 1990-06-26 Canon Inc 文字処理装置
JPH03135660A (ja) * 1989-10-20 1991-06-10 Canon Inc 文字処理装置

Similar Documents

Publication Publication Date Title
Grefenstette et al. What is a word, what is a sentence?: problems of Tokenisation
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Darwis et al. Exhaustive affix stripping and a Malay word register to solve stemming errors and ambiguity problem in Malay stemmers
Darwish et al. Adapting morphology for arabic information retrieval
JPS63234348A (ja) 文章校正支援方式
JPS5892063A (ja) イデイオム処理方式
Sawalha et al. Linguistically informed and corpus informed morphological analysis of Arabic
JPH03105465A (ja) 複合語抽出装置
JP3470927B2 (ja) 自然語解析方法及び装置
JPH0363767A (ja) テキスト音声合成装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Sarı et al. A NAMED ENTITY RECOGNITION MODEL FOR TURKISH LECTURE NOTES IN HISTORY AND GEOGRAPHY DOMAINS
Salah et al. Research Article A New Rule-Based Approach for Classical Arabic in Natural Language Processing
JPS63249260A (ja) 文章校正支援装置
JPS61208164A (ja) 日本語文章校正装置の表示方式
JPS6394364A (ja) 日本文誤字自動修正装置
JPS63249259A (ja) 文章校正支援装置
JPS6395570A (ja) 言語解析方式
JPH02136959A (ja) 日本文訂正候補抽出装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
Trushkina Automatic error detection in second language learners' writing
Itai A Linguistic Search Tool for Semitic Languages