JPS61208164A - 日本語文章校正装置の表示方式 - Google Patents

日本語文章校正装置の表示方式

Info

Publication number
JPS61208164A
JPS61208164A JP60047536A JP4753685A JPS61208164A JP S61208164 A JPS61208164 A JP S61208164A JP 60047536 A JP60047536 A JP 60047536A JP 4753685 A JP4753685 A JP 4753685A JP S61208164 A JPS61208164 A JP S61208164A
Authority
JP
Japan
Prior art keywords
proofreading
dictionary
character string
clause
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60047536A
Other languages
English (en)
Other versions
JPH0361219B2 (ja
Inventor
Shigeki Kuga
空閑 茂起
Taro Morishita
森下 太朗
Nobuo Nakamura
信夫 中村
Mikio Osaki
大崎 幹雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP60047536A priority Critical patent/JPS61208164A/ja
Publication of JPS61208164A publication Critical patent/JPS61208164A/ja
Publication of JPH0361219B2 publication Critical patent/JPH0361219B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、日本語文章の中から、特定の基準に合わない
表記、表現を抽出し、校正する日本語文章校正装置に関
するものである。
〈従来技術〉 日本語文章校正装置で現在までに提案されている方法は
、校正する文章を校正の知識を集積した辞書と照合し、
照合に失敗した部分を校正の可能性が高いとして抽出す
る方法である。該方式は概念の提案であシ、該提案にお
いて問題になる、辞書の構造、内容、照合の方法、照合
に必要な構成物、校正候補の表示について規定したもの
は報告されていない。
上記の方法による校正装置で効果を上げるためKは、校
正の知識を集積した辞書、照合のアルゴリズム、テーブ
ル類が校正する種々の文との照合に成功するくらいに完
全であシ、校正の候補として抽出される中に校正が不必
要な要素を含まないようにすることが望ましい。このた
めには、校正に不必要な要素を分離する手段が必要であ
るが、その実現は難しい。逆に、校正要素のみに絞ると
、未登録語などに対する判断が必要となり校正の全体的
な見通しが付かず、校正の作業効率が著しく低下すると
いう問題がある。
〈目 的〉 本発明はかかる従来の問題点に鑑みて成されるもので、
その目的とするところは、入力文字列と辞書との照合に
失敗した文字列を校正の候補として抽出するときに、該
辞書に登録されていない文字列に起因する校正候補と表
記などの間違いに起因する校正候補とを当該候補の区別
情報とともに表示することにより、全体的な校正の見通
しを持って効率的に校正作業を行なえるようにした日本
語文章校正装置の表示方式を提供することにある。
〈実施例〉 以下図に基づいて本発明の詳細な説明する。
第1図は本発明に係わる日本語文章校正装置のブロック
構成図である。
図において1は日本語の文字列を入力するための入力手
段である0人力手段1は通常キーボードが用いられるが
、たとえば磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。
2は該入力手段1により入力された日本語の文字列を記
憶する手段である。3は文字記憶手段2ト記憶された日
本語の文字列と比較するための辞簀を記憶しておく手段
である。4は上記文字記憶手段2蓄積された日本語の文
字列と辞書記憶手段3に記憶された辞書との比較照合を
行ない、校正の可能性のある部分を抽出する制御手段で
ある。
5は制御手段4の制御によって得られる結果を記憶する
手段である。6は照合結果記憶手段5あるいは入力文字
列記憶手段2に蓄積された文字列などの情報を表示する
手段である。第2図は入力手段により入力された文字列
の例である。
第3図は前記辞書記憶手段3に記憶された辞書の例であ
る。図中7は入力された文字列と比較される見出しであ
る。この見出しの表記は、例えば国語審議会よる現代仮
名遣い、新聞社、会社などの規定に基づいたものになっ
ている。今の場合、「うけとる」は「′受は取る」を正
しい表記の基準としていることを示しているo8は該見
出しの文法情報の例であるo9は該見出しの接続関係を
規定した情報である。10は該見出しが自立語であるこ
とを示しているollは該見出しが付属語であることを
示している0 第4図は動作フローを示す図であり、この図にもとづい
て動作を説明する。まず入力文字列と辞書の文字列は第
1図に示す制御手段4の中のスタックに蓄積され(nl
)、さらに該両文字列の一致不一致が判定される(n2
)。判定の結果、一致のときはステップn3に進み、ま
た不一致のときはステップn8に進む。ステップn3及
びステップn8では第3図の三つの接続条件を順にたど
ったとき文節終了の条件までたどれるか否かを判断する
。その結果によりn4、nl、n9及びnlOに分岐さ
れる。nl及びnloは校正を必要とする可能性が高い
として抽出される文節である□n4は辞書の表記にに合
致するので正しい表記の基準に合致していると見なされ
る文節である。
n9は辞書には登録されていないが、基準に従つて文字
列を登録すればn4になる可能性が高いとして抽出され
る文節である。
n5は照合する位置を辞書の最初に設定し、次の文節の
処理を行なうところである。n6は校正する入力文字列
があるかないかを判断する。その結果により、文字列が
続けばnlに戻シ、無ければ一連の作業を終了する。
次に、第2図に上げた例文と第3図に上げた辞書を用い
て実際の処理の流れを述べる。
最初に第3図の中の自立語lOの見出し7と入力文字列
「葉書を受けとる。」とを文字列の並びの順に比較する
。今の場合「葉書・・・」の順序である。比較の結果一
致する部分がないので最初の文字「葉」は、−たん、未
登録語のマークを付け、この見出しの接続条件9を調べ
る。接続条件9が文節終了であるか否かを調べる。文節
終了の場合は未登録語として確定し、情報をスタックす
る。文節終了でない場合は接続条件9の中に書かれた文
字列あるいはカテゴリーを持つ文字列が入力文字列とし
て後続されているかを調べる。今の場合後続条件は助詞
であるが入力された後続文字は「書」であるから接続は
不可である0ここで「葉」を未登録語と決定し、その情
報をスタックする。
ここで「葉」に対する処理を終了し、次に「書」の処理
へ移る0「書」も「葉」と同様の処理を行なう。−たん
、未登録語と判断されるところまでは「書」と同じであ
る。違うところは後続文字が「を」であシ、「を」が文
節終了の条件を満たす点である。これにより、「葉」及
び「書」は共に未登録語であシ、未登録語の連続は一連
の未登録「葉書・・」と同じように辞書と「受けとる。
」の比較により、辞書中の「受け」が一致する。
「受け」の接続条件9より導き出された「る」は後続の
入力文字列と一致しないので接続不可と決定される。ま
た、「受け」の接続条件9が文節終了でないので、「受
け」の部分を校正文節の要素になる。校正文節の要素と
未登録語文節の連続を校正文節とするアルゴリズムによ
り「受けとる。」は校正文節と決定され、その情報がス
タックされる。以上により、「葉書を」が未登録語文節
であシ、「受けとる。」が校正文節であることが分類で
きる。
これらの校正文節は第5図に示されるように、区別記号
「m:」と「e:」が付されて表示される。すなわち、
辞書に登録されていない文字列に起因する校正文節(未
登録語文節)には区別記号「m:」が付されαz1さら
に表記等の間違いによる校正文節には区別記号「e:」
が付されて表示されるので03、校正文節が何に起因す
るものであるか一目で認識することが出来る。
〈効 果〉 以上詳細に説明した様に、本発明の日本語文章校正装置
の表示方式は入力文字列と該辞書との照合に失敗した文
字列を校正の候補として抽出するときに、該辞書に登録
されていない文字列に起因する校正候補と表記等の間違
いによる校正候補をそれぞれの区別記号とともに表示す
るようにした節とともに表示することにより、真に校正
を必要とする文節のみを抽出して校正ができることであ
る。このことにより、校正の作業の効率を上げることが
できる。
【図面の簡単な説明】
第1図は本発明装置の構成ブロック図、第2図は入力手
段により入力された文字列の例を示す図、第3図は辞書
の例を示す図、第4図は処理の概略フロー図、第5図は
校正候補の表示の例を示す図である。 1・・・入力手段 2・・・入力文字記憶手段 3・・・辞書記憶手段 4・・・制御手段 5・・争照合結果記憶手段 6・・令表示手段 7−拳骨辞書の見出し 8・・吻辞書の見出しのカテゴリー情報9・・・辞書の
見出しの接続情報 10・・・辞書の中の自立語 11・・・辞書の中の付属語 12・・・未登録語文節の表示の例 13・・・校正文節の表示の例 nl・・・単語照合処理ブロック n2・・・単語照合判定ブロック n3・・・文節接続終了判定ブロック n4・・・正常文節処理ブロック n5・・・次文節処理ブロック n6・・・処理判断終了ブロック n7・・・校正文節処理ブロック n8・・・文節接続終了判定ブロック n9・・・未登録語文節処理ブロック nlo・・・校正文節処理ブロック 第1図 第 2g 第3図

Claims (1)

  1. 【特許請求の範囲】 1、日本語の文字列を入力する手段と、該入力文字列を
    そのまま記憶する手段と、該入力文字列を該入力文字列
    より短い単位に切断するための文字列から構成される辞
    書を記憶する手段と、該入力文字列と該辞書を比較照合
    する手段と、該照合結果を記憶する手段と、該入力文字
    列あるいは該照合結果を表示する手段を有する装置にお
    いて、 該入力文字列と該辞書との照合に失敗した文字列を校正
    の候補として抽出するときに、該辞書に登録されていな
    い文字列に起因する校正候補と表記等の間違いによる校
    正候補とを当該候補の区別記号とともに表示することを
    特徴とする日本語文章校正装置の表示方式。
JP60047536A 1985-03-12 1985-03-12 日本語文章校正装置の表示方式 Granted JPS61208164A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60047536A JPS61208164A (ja) 1985-03-12 1985-03-12 日本語文章校正装置の表示方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60047536A JPS61208164A (ja) 1985-03-12 1985-03-12 日本語文章校正装置の表示方式

Publications (2)

Publication Number Publication Date
JPS61208164A true JPS61208164A (ja) 1986-09-16
JPH0361219B2 JPH0361219B2 (ja) 1991-09-19

Family

ID=12777849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60047536A Granted JPS61208164A (ja) 1985-03-12 1985-03-12 日本語文章校正装置の表示方式

Country Status (1)

Country Link
JP (1) JPS61208164A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63231673A (ja) * 1987-03-20 1988-09-27 Fujitsu Ltd 文章読上げ校正支援装置
JPH0793330A (ja) * 1993-09-28 1995-04-07 Nec Corp 文章訂正装置
JP2014126927A (ja) * 2012-12-25 2014-07-07 Nippon Telegr & Teleph Corp <Ntt> 動詞誤り検出装置、方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63231673A (ja) * 1987-03-20 1988-09-27 Fujitsu Ltd 文章読上げ校正支援装置
JPH0793330A (ja) * 1993-09-28 1995-04-07 Nec Corp 文章訂正装置
JP2014126927A (ja) * 2012-12-25 2014-07-07 Nippon Telegr & Teleph Corp <Ntt> 動詞誤り検出装置、方法、及びプログラム

Also Published As

Publication number Publication date
JPH0361219B2 (ja) 1991-09-19

Similar Documents

Publication Publication Date Title
Mikheev Tagging sentence boundaries
Palmer Tokenisation and sentence segmentation
Ijaz et al. Corpus based Urdu lexicon development
Mesfar Named entity recognition for arabic using syntactic grammars
Tufiş et al. DIAC+: A professional diacritics recovering system
Salah et al. A new rule-based approach for classical arabic in natural language processing
US20020129066A1 (en) Computer implemented method for reformatting logically complex clauses in an electronic text-based document
JPS61208164A (ja) 日本語文章校正装置の表示方式
JPS5892063A (ja) イデイオム処理方式
Mijlad et al. Arabic text diacritization: Overview and solution
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Black et al. Syntactic annotation: linguistic aspects of grammatical tagging and skeleton parsing
Xydas et al. Text normalization for the pronunciation of non-standard words in an inflected language
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
Khandale et al. Rule-based design for anaphora resolution of Marathi sentence
Petran Studies for Segmentation of Historical Texts: Sentences or Chunks?
Rateb et al. A critical survey on arabic named entity recognition and diacritization systems
Dien et al. Btl: a hybrid model for english-vietnamese machine translation
JPS61208163A (ja) 日本語文章校正装置
Sutcliffe et al. Using the link parser of Sleator and Temperley to analyse a software manual corpus
Myint et al. Morpheme-Based Myanmar Word Segmenter
Koshevoy et al. Building a Universal Dependencies Treebank for a Polysynthetic Language: the Case of Abaza
JPH05250403A (ja) 日本文単語解析方式
Farokhshad et al. ViraPart: A Text Refinement Framework for Automatic Speech Recognition and Natural Language Processing Tasks in Persian
JPS63163956A (ja) 文書作成・校正支援装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term