JPS63163957A - 文書作成・校正支援装置 - Google Patents

文書作成・校正支援装置

Info

Publication number
JPS63163957A
JPS63163957A JP61314280A JP31428086A JPS63163957A JP S63163957 A JPS63163957 A JP S63163957A JP 61314280 A JP61314280 A JP 61314280A JP 31428086 A JP31428086 A JP 31428086A JP S63163957 A JPS63163957 A JP S63163957A
Authority
JP
Japan
Prior art keywords
proper noun
proper
character
proofreading
japanese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61314280A
Other languages
English (en)
Other versions
JPH0682367B2 (ja
Inventor
Shigeki Kuga
空閑 茂起
Masahiro Wada
和田 正寛
Toshiyuki Tanaka
敏幸 田中
Taro Morishita
森下 太朗
Nobuo Nakamura
信夫 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61314280A priority Critical patent/JPH0682367B2/ja
Publication of JPS63163957A publication Critical patent/JPS63163957A/ja
Publication of JPH0682367B2 publication Critical patent/JPH0682367B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、日本語文章の中から、形態素解析を行うこと
により、固有名詞に関連する部分を抽出し、固有名詞の
正誤の確認及び校正を行い易くする文書作成・校正支援
装置に関するものである。
く従来の技術〉 現在、日本語ワードプロセッサが実用化されており、そ
れに関連した、日本語の入出力、Ii集、かな漢字変換
アルゴリズム、辞書の技術などの基本技術が確立してい
る。
また、日本語処理技術では、形態素解析、構文解析、意
味解析などの基本的な技術が知られている。
欧米では、ワードプロセッサが早くから発展したため関
連技術が進んでおり、スペルのチェック、コレクトの機
能を持った装置が実用化されている。
欧米の言葉が単語単位に句切られて記述されるのに比べ
、日本語は句切りのない漢字仮名交り文で記述されるの
が通常であり、正書法が徹底していないため、解析が難
しく校正を自動化する装置は実用化されていない。
従来、正確な日本語を扱うことが要求される場合、複数
の人が対になり読み合わせをして問題のある点を抽出し
たり、あるいは校正の専門的な知識を持った人が逐次照
合を加え、校正する方法などの方法が採用されている。
最近、このような校正作業を支援するための装置が開発
されつつある。それらの!!置は、大きく分けると2つ
の方式に分類できる。
一つは、前者に対するものであり、漢字仮名交りの文章
を解析して音声に変換し、機械との闇で、音声を介した
読み合わせを行うことのできる校正装置である。
今一つは、後者に対するもので、校正の自動化あるいは
校正の専門化の支援を行うことを目的としたものである
。この装置は前者の装置に比べ、より高度の技術が要求
されるため、概念の提案があるのみで該:gcffiを
構成する手段、校正の具体的な手段の報告は少ない。
また、その他の技術として、言語処理研究の中では、K
WIC(Ke y  Wo r d  In  C。
ntext)に関する技術は一般的である。
言語処理以外では、ワークステージ3ンに関連した技術
が確立しており、作業の効率を上げるためのマルチライ
ンンドウを用いた装置が実用化されている。
〈発明が解決しようとする問題点〉 近年日本語のワードプロセッサが普及し、該装置で作成
した文書が多くなっている。ワードプロセッサでは、入
力の簡便なかな漢字変換方式(以下特に断りがない場合
、ローマ字漢字変換方式を含む)を採用した機種が多く
なっている。
かな漢字変換のアルゴリズムは、かなを漢字に変換する
過程で単語辞書、文法などの言語的な裏付けのある情報
との照合が行われるため、確率的な基盤に基づいてはい
るが、ある程度の妥当性が確かめられている。
固有名詞はその一部が辞書に登録され単語辞書と同じよ
うに、検索、確認される場合が多い。
しかし、固有名詞はその数が多いため、単語辞書にその
すべてを登録することは経済、処理時間、ハードウェア
の制約などの面で現実的でない。
又、固有名詞は変化することが多(、その更新に注意が
必要である。
又、固有名詞は間違えた場合に影響が大きく、信頼関係
を損ねたり。人権問題、訴訟問題に発展する可能性があ
り、その正誤の確認には注意が必要である。
上述のごとく、最近開発されつつある校正機能を持った
装置の場合も固有名詞の部分を重点的に確認、校正する
機能は報告されていない。
たとえば、音声読み上げの機能を持った装置では、文章
を逐一かな文字列に分解・変換し、音声合成装置で読み
上げるため、固有名詞の部分に対しても厳重な確認が可
能であるが、処理速度が遅いという欠点があった。
又、同字異音の固有名詞、文字が多いため音声を用いた
読み合わせを行っても確実に校正できるという訳ではな
かった。
又、該装置では音声合成装置、スピーカーなどの付加装
置が必要であり、コスト高になるという欠点があった。
又、該装置では、言語と音声に関する処理が必要であり
、処理が複雑になるとともにプログラムの容量が増大す
るという欠点があった。
又、音声を用いる騒音が間層になり、その解消のために
ヘンドアオンが必要になったり、それを装着する手間が
かかったりする欠点があった。
一方、形態素、構文、意味解析を用いる方式では、固有
名詞の間違いを校正するWi能は報告されておらず、従
来通り、文中から固有名詞の部分を抽出し、確認の後、
校正を行わねばならず、作業者の負担、時間が強要され
るという欠点があった。
又、両方式に共通する問題として、文書の中で、固有名
詞が大きな意味をなす場合が、多いが、固有名詞の部分
を取り出して確認を行うという機能は報告されておらず
、固有名詞の部分のみの確認を行う場合、作業の効率を
落とすという欠点があった。
本発明の方式は、文章の中から固有名詞に関連した部分
を形態素解析によって抽出し、固有名詞の確認が行い易
い形で表示するとともに、装置の使用者が簡単に校正で
きるようにし、かかる問題を解決しようとするものであ
る。
〈問題点を解決するための手段〉 本発明は、日本語を入力・編集する手段と、該入力され
た日本語を記憶する手段と、辞書を記憶する手段と、文
法を記憶する手段と、該入力された日本語の中から校正
すべき文字・記号列を抽出するマイクロプロセッサなど
の制御手段と、文章及び該候補文字・記号列などを表示
する手段と、校正すべき文字・記号列がある場合に該文
字を修正する手段とから構成される。
〈作用〉 入力手段により計算機などに入力された日本語の中から
、形態素解析を行い、固有名詞に関係する形態素の部分
を抽出するとともに、他の文章の部分と区別が付くよう
に表示し、固有名詞に関連した部分の正誤の確認が行い
易くするように作用する。
抽出された部分をカーソルなどのポインティングデバイ
スで指示したとき、固有名詞部分をキーとするKWrC
を作成し、別の場所に表示することにより、固有名詞に
関連した部分の正誤の確認を更に、行い易くするように
作用する。
文章中に固有名詞の部分が複数個存在する場合は、文章
中の他の部分と固有名詞部分を区別した情報を利用して
、抽出された部分のみの指示を可能とする機能を付加し
、更に固有名詞の部分の正誤の確認を行い易くするよう
に作用する。
上記の確認作業において、もし、抽出された部分に間違
いのあることが確認された場合は、原文あるいはKWI
C中の間違いの部分を入力Iii集機能を用いて修正し
、文章を校正するように作用する。
以上のような、確認、(II f fi能を用いて、固
有名詞の部分を効率良く、校正し、前述の問題点を改良
するように作用する。
〈実施例〉 以下図に基づいて本発明の詳細な説明する。第1図は本
発明に係わる日本語文章校正装置のブロック構成図であ
る。
図において1は日本語の文字列を入力・編集する手段で
ある。
2は該入力手段により人力された日本語の文字列を記憶
する手段である。入力手段は通常キーボードが用いられ
るが逐次的に入力を行なわないで、たとえば70ツピー
デイスク、磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。即ち、1が省略された構成も存在しうる。
3は上記2に蓄積された日本語の文字・記号列を形!!
!素解析するための辞書を記憶する手段である。
4は同様の目的のために使用するらので文法、その他の
辞書を記憶する手段である。
5は2に蓄えられた文字列の中から、固有名詞の部分を
抽出したり、途中結果を記憶したり、表示の司令などを
行ったりする制御手段である。該制御手段には制御によ
って得られる結果を記憶する手段を含む。
6は入力された文字列、照合の途中結果、校正すべき文
字列、KWICなどを表示するCRTなどの表示の手段
である。
7は6によって表示されたKWICの中に誤りがあった
場合、その修正結果を原文中に正しく反映するための校
正手段である。
第2図は1によって入力された文字列の例であり、5の
lIrlJlll手段により、6に表示された状態を表
している。この文章を8とする。また、この文章は間違
いであり、正しくは[これは空間氏らの発明である。]
であるとする。即ち、固有名詞の「空間」は誤りであり
、「空間」が正しいものとする。正しく校正された後の
文章は8と区別して9とする。
第3図は本発明に係わる表示の例を示している。
本図は文章8の中から固有名詞の部分10を抽出し、他
と区別して表示した結果の例を示している。
!#4図はKWICを用いた本発明の別の表示の例であ
り、固有名詞にカーソルのようなポインティングデバイ
スを合わせたときの状態の例を示している。図中、KW
ICの中のキーワードに該当する部分を11、KWIC
の全体を12とする。
第5図は単語辞書の内容の例を示している。13は見出
しであり、14は自立語あるいは付属語の区別を表す情
報であり、15は品詞または分類の情報である。
第6図は文法の例を示している。16は文節の条件を表
したものである。[]はその中の要素が文節が成立する
ための必須の条件であることを示している。その他の要
素は省略されることがありうる。
第7図は形態素を組み上げて文節を形成するための情報
を表したものである。17は先行する形態素、18は後
続する形態素、19はこれらの形態素をつないだときの
文字列が文節の終了条件を満足するか否かの情報を示す
ものである。
第8図は固有名詞を抽出し他と区別して表示するための
情報を示している。20は文字であり、21は表示画面
の中のその文字の存在する行の位置を示し、22は列の
位置を示している。又、23は固有名詞か否かを区別す
るための情報である。
24は固有名詞の開始と終了点を記述し、KWICなど
を作成するとき利用するための情報である。
他と区別がつけば何であっても構わないが、説明を分か
りやすくするため、固有名詞の開始7αを81終了点を
Eとしておく。
第9図は表示装置の特定の位置25がM、Nの行、列の
番号で記述できることを示したものである。
第10図は本発明の該略70−図である。第2図の例文
、8を用いて、以下に詳しく述べる。
まず、入力・MA集手段1により入力された[これは空
間氏らの発明である。」という文が、入力文字記憶装置
2に蓄積される。26はこの処理ブロックである。
各入力文字列は単語辞書、文法と照合され形態素の要素
が決定される。27は単語辞書照合の処理ブロックであ
る。ここでは、単語辞書検索の結果まず、「これ」が検
索され、代名詞であることが分かる。犬に「は」が検索
され、係助詞であり代名詞と接続が可能で、157図か
ら文節の終了条件も満足することが分かる。文節成立の
ための条件、形態素間の接続の条件、文節終了の条件な
どを文法を照合する処理ブロックである。これを28と
する。
その結果、辞書、文法の双方の照合に成功する場合とそ
うでない場合が生ずる。後者の場合は、エラー処理35
が行われ、次文字の処理に移る。
処理28では、第7図を用い、先行する形態素の要素と
後続する形態素の要素間の接続の可否を調べる。たとえ
ば、代名詞「これ」の場合は、これ単体では、文節の終
了条件を満足せず、「これは」まで文字列がつながって
文節になることが分かる。
次に、「空間」の処理に進む。空間は単語辞書によれば
自立語で名詞の場合と氏を表わす固有名詞の場合が存在
する。
このような場合、いずれかを選択する必要がある。形態
素解析上矛盾の無いものは候補としてスタックに蓄積し
ておき、次の形態素の解析を行い、形態素間の接続関係
で候補の中から妥当なものを選択できる場合がある。た
とえば、名詞の「空間」と接尾語[氏]は接続が不可で
あるが、固有名詞の「空間」と接尾語「氏」は接続が可
能である。このような場合、最長−教法が知られており
、文節数を少なくし、文字列が一番長い候補を選択する
。これにより固有名詞に関連した「空間氏」のほうが選
択される。同様な処理を繰り返すことにより、[空間氏
らの−1が一つの文節として切り出される。この文節を
組み上げる処理ブロックを29とする。
入力文字列のフードの照合順序は、特に固定されたもの
はなく、いずれの文字から行っても本発明に影響はない
。ここでは、通常文章を読むときの順序、「これは空間
・・・」の順で考えている。
27.28.29により、「空間・・」の「空」の文字
の処の24にSの記号が付けられ、「間」の文字の24
にEが付けられ、「空間」が一つの固有名詞であること
が分かる。
30は形態素解析処理の終了のnaを行うための処理ブ
ロックである。後続する文字があれば、その文字を制御
装置に呼び込み、スタックにセットし、形態素解析のた
めの準備を行う。この処理ブロックを31とする。この
処理は、後続文字が無くなるまで繰り返される。
32は文字判断処理の終了後、第8図に示した情報が保
存されたスタックの結果をもとに、原文中の固有名詞を
他と区別して表示する処理ブロックである。
33は固有名詞を抽出して表示する別の方法である。す
なわち、固有名詞をキーとしたKWICを生成する処理
ブロックである。
34は固有名詞を確認し、間違いがあれば修正・ii集
を行う処理ブロックである。この中で、固有名詞の「空
間」は「空間」と修正される。
確認の終了後、一連の作業を終了することができる。
次に、上記の説明以外の実現手段の例について述べる。
第8図で固有名詞とその他の文字との区別を記述する情
報と固有名詞の開始と終了を表す情報を区別して23.
24に保存したがこれを共用した構成も考えられる。
又、上の説明では原文中の固有名詞を抽出した後で、K
WICを作成するようにしたが、この順序にはとられれ
ないで良い。すなわち、原文中の固有名詞部分のみを抽
出して、KWICの生成、表示は行わない方法、あるい
は、KWICを生成してから原文中の固有名詞抽出する
方法などもありうる。 抽出された、固有名詞の表示は
、全部一様に表示する方法、カーソルなどで指示された
部分のみを表示する方法などが考えられ、いずれの方法
を採用しても本発明に影響はない。
又、固有名詞の校正は、原文中の抽出された固有名側部
分に対し直接に行う方法、KWICの中のキーワードに
対し行い、その結果を原文中に取り込む方法などが考え
られ、いずれの方法を採用しても本発明に影響はない。
〈発明の効果〉 本発明の効果は、固有名詞が重要な意味を持つ、文書の
中から、固有名詞部分のみを抽出し、確認・校正を行い
やすくできる点にある。
又、本発明によれば、固有名詞部分が確実に抽出される
ため、校正の精度を高めるという点で効果がある。
又、原文中から固有名詞の部分を抽出する手間が省ける
ため、校正の処理時間の短縮、校正を行う人の精神的負
担や疲労を軽減という点で効果がある。
又、音声読み上げ装置、スピーカー、音声合成装置など
の特別な装置を必要としないとうぃう利点がある。
又、ヘッド7オンなどの特別な装置の装着が不必要であ
り、装着の手間及び装置購入が省略できるという利点が
ある。
又、言語処理、音声処理などの複雑な処理が不必要であ
り、処理のプログラム作成、メンテナンス、記憶容量の
点で効果がある。
又、簡単な処理で実行することができるため、処理速度
が速いという、αで効果がある。
又、音声のような騒音の原因になる要素を含んでいない
ため周囲への影響を考えないで機械の設置や作業ができ
るという点で効果がある。
【図面の簡単な説明】 図である。 1・・・入力・編集手段 2・・・入力文字記憶手段 3・・・辞書記憶手段 4・・・文法記憶手段 5・・・制御手段 6・・・表示手段 7・・・校正手段 8・・・誤りを含んだ例文 9・・・正しい例文 10・・・文章中の固有名詞の部分 11・・・KWIC中のキーワード 12・・・KWIC全体 13・・・単語辞書中の見出し 14・・・単語辞書中の自立語、付属語区別情報15・
・・単語辞書中の品詞、区別情報16・・・文節成立条
件 17・・・先行形態素 18・・・後続形態素 19・・・文節終了条件 20・・・画面表示用の文字スタック 21・・・画面表示用の行位置スタック22・・・画面
表示用の列位置スタック23・・・画面表示用の固有名
詞判定スタック24・・・固有名詞判定情報スタック 25・・・表示装置上の特定な位置 26・・・入力文字列蓄積処理ブロック27・・・単語
辞書照合処理ブロック 28・・・文法照合処理ブロック 29・・・文節決定照合処理ブロック 30・・・形態素解析終了処理ブロック31・・・次文
字処理ブロック 32・・・固有名詞抽出、表示処理ブロック33・・・
固有名i’qKWIc表示処理ブロック34・・・校正
処理ブロック 35・・・エラー処理ブロック 代理人 弁理士 杉山毅至(flit名)mi図 m2図 f53      図 第     4     図 第5図 第6図 第7図 第8図 第   9   図 110図

Claims (1)

    【特許請求の範囲】
  1. 1、日本語を入力・編集する手段と、該入力された日本
    語を記憶する手段と、辞書を記憶する手段と、文法を記
    憶する手段と、該入力された日本語の中から校正すべき
    文字・記号列を抽出する手段と、文章及び該候補文字・
    記号列などを表示する手段と、校正すべき文字・記号列
    がある場合に該文字を修正する手段を有する文書処理シ
    ステムにおいて固有名詞に関連した部分を抽出し、固有
    名詞の正誤の確認、校正を行いやすくできるようにした
    ことを特徴とする文書作成・校正支援装置。
JP61314280A 1986-12-26 1986-12-26 文書作成・校正支援装置 Expired - Fee Related JPH0682367B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61314280A JPH0682367B2 (ja) 1986-12-26 1986-12-26 文書作成・校正支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61314280A JPH0682367B2 (ja) 1986-12-26 1986-12-26 文書作成・校正支援装置

Publications (2)

Publication Number Publication Date
JPS63163957A true JPS63163957A (ja) 1988-07-07
JPH0682367B2 JPH0682367B2 (ja) 1994-10-19

Family

ID=18051462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61314280A Expired - Fee Related JPH0682367B2 (ja) 1986-12-26 1986-12-26 文書作成・校正支援装置

Country Status (1)

Country Link
JP (1) JPH0682367B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6394365A (ja) * 1986-10-08 1988-04-25 Nippon Telegr & Teleph Corp <Ntt> 日本文文書誤り検定装置

Also Published As

Publication number Publication date
JPH0682367B2 (ja) 1994-10-19

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
US5079701A (en) System for registering new words by using linguistically comparable reference words
JPS63163956A (ja) 文書作成・校正支援装置
JPS63163957A (ja) 文書作成・校正支援装置
JPS63118868A (ja) 日本語文章校正装置
JPH0816597A (ja) 単語辞書登録装置及び文書認識装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPS63163958A (ja) 文書作成・校正支援装置
JP2693489B2 (ja) 日本語文誤り検出方法
JP2776069B2 (ja) 文章検査装置
JPH05290030A (ja) 文書処理装置
JPH03129568A (ja) 文書処理装置
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JPS60207948A (ja) カナ漢字変換処理装置
JPH11282837A (ja) 日本語形態素解析装置、日本語形態素解析方法および記録媒体
JPH01114973A (ja) 文書作成・校正支援装置
JPS62209663A (ja) 日本語文章校正装置
JPS62209659A (ja) 日本語文章校正装置
JPS60189573A (ja) 文字変換装置
JPH11110387A (ja) 機械翻訳装置および機械翻訳プログラムを記録したコンピュータ読取可能な記録媒体
JPS63229561A (ja) 文書作成・校正支援装置
JPH0376492B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees