JPS63118868A - 日本語文章校正装置 - Google Patents

日本語文章校正装置

Info

Publication number
JPS63118868A
JPS63118868A JP61266110A JP26611086A JPS63118868A JP S63118868 A JPS63118868 A JP S63118868A JP 61266110 A JP61266110 A JP 61266110A JP 26611086 A JP26611086 A JP 26611086A JP S63118868 A JPS63118868 A JP S63118868A
Authority
JP
Japan
Prior art keywords
dictionary
proofreading
japanese
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61266110A
Other languages
English (en)
Inventor
Shigeki Kuga
空閑 茂起
Nobuo Nakamura
信夫 中村
Taro Morishita
森下 太朗
Toshiyuki Tanaka
敏幸 田中
Masahiro Wada
和田 正寛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61266110A priority Critical patent/JPS63118868A/ja
Publication of JPS63118868A publication Critical patent/JPS63118868A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、日本語文章の中から、特定の基準に合わない
表記、表現を抽出し、校正する日本語文章校正装置に関
するものである。
く従来の技術〉 現在、日本語ワードプロセッサが実用化されており、そ
れに関連した、日本語の入出力、ii集、かな漢字変換
アルゴリズム、辞書の技術などが確立している。
欧米では、ワードプロセッサが早くから発展したため関
連技術が進んでおり、スペルのチェック、コレクトの機
能を持った装置が実用化されている。
欧米の言葉が単語単位に句切られて記述されるのに比べ
、日本語は句切りのない漢字仮名交り文で記述されるの
が通常であり、また正書法が徹底していないため、解析
が難しく校正を自動化する装置は実用化されていない。
日本語の校正には、複数の人が対になり読み合わせをし
て問題のある点を抽出する方法、あるいは校正の専門的
な知識を持った人が逐次照合を加える方法などが用いら
れている。
前者に対しては漢字仮名交りの文章を解析して音声に変
換し読み合わせを機械との間で行うことのできる校正装
置が提案されている。
後者は、校正の自動化あるいは校正の専門化の支援を行
うことを目的としたものである。前者に比べ、より高度
の技術が要求されるため、概念の提案があるのみで該装
置を構成する手段、校正の具体的な手段は、本発明者ら
が過去に提案した校正用辞書、ゆらぎ辞書、言い換え辞
書などを利用したものを含め数例である。
〈発明が解決しようとする問題、α〉 近年日本語のワードプロセッサが普及し、該装置で作成
した文書が多くなっている。ワードプロセッサでは、入
力の簡便なかな漢字変換方式(以下特に断りがない場合
、ローマ字漢字変換方式を含む)を採用した機種が多く
なっている。ところが、かな漢字変換のアルゴリズムは
確率的な基盤に基づいており、文章の作成者が意図した
漢字の表記の候補を常に含むという訳ではない、即ち、
文章作成者の意図にかかわらず、装置に内蔵された、か
なかな漢字変換辞書、アルゴリズムlこより、間違った
候補しか提示されない場合、あるいは、提示されても優
先度の低い候補として処T!J、される場合がありうる
。このような場合、文章作成者は間違いに気が付かずに
次の文章を作成する可能性があり、後で校正する時に、
間違いの部分を的確に抽出することは難しいという問題
があった。
日本語の場合、同音異義語が多く、文脈などを考慮して
同音異義語の中から常に正しい言葉を選択提示する技術
は存在していない、このため、文字数や字形の良く似た
同音異義語の間の選択間違いが起き易く、その校正は見
分けが付きにくいため、難しいという問題があった。
又、同音異義語の間違いの発見は、文章作成時の文章作
成者自身では思い込みがあるため難しく、時間をかけて
再チェックしたり、専門の校正者を必要とするため、急
ぐ場合や大量の文書の校正が必要な場合は問題があった
又、かな漢字変換アルゴリズムの不備を二よる無意線部
の出現で、文章作成者や文章の品位を落としたりすると
いう問題があった。
又、校正を行う人は、注意力と時間を必要とし、精神的
・時間的・経済的な負担を強いられるという問題があっ
た。
又、かな漢字変換入力以外の方式で文字を1字づつ採字
する方式があるが、その場合採字するキーボードの配列
やシフトコードの発生ミスに起因する間違い、あるいは
、字画、字形の似た漢字の間での間違いが起こりやすく
、校正の時にも見付けにくいという問題があった。
又、同音意義語や字形類似語を現在の日本語処理の主流
である形想素解析で抽出することは難しく、あらたな規
模の大きいプログラム、辞書を必要とするという間圧が
あった。
本発明は、日本語の文章の中から同音異義語、字形Ma
語の間違いを抽出し、該文字・記号列(以後文字・記号
列を単に文字列と記述することがある)に置き換わるべ
き文字列の候補を誤例辞書を利用して提示するとともに
、装置の使用者が選択出来るようにし、かかる問題を解
決しようとするものである。
く問題点を解決するための手段〉 本発明は、日本語を入力・編集する手段と、該入力され
た日本語を記憶する手段と、基準となる表記の日本語よ
りなる辞書を記憶する手段と、基準となる日本語の文法
を記憶する手段と、該入力された日本語の中から校正す
べき文字列を抽出するマイクロプロセッサなどの制御手
段と、該抽出された文字列に置き換える文字列の候補を
記憶する手段と、日本語を表示する手段と、該候補文字
列の中から正しい文字列を選択する手段とから構成され
る。
く作用〉 入力手段により計gaなどt二人力された日本語を基準
とする表記の文字列を集積した辞書と比較照合すること
により、照合に成功する部分と失敗する部分が生じる。
照合に成功する部分は基準とする文法テーブルと比較照
合することにより表記、文法共に基準を満たす場合、表
記は基準を満たすが文法的なつながりが成立しない場合
に分類される。また、辞書との比較照合に失敗する部分
も、文法的に基準に合う場合と合わない場合に分類され
る。
本発明は入力された文字列を辞書及び文法テーブルと比
較照合し、形aS解析するとともに、該形態素解析によ
り切り出された文字列を1例辞書と比較照合し、照合に
成功した場合、校正すべき確立の高い文字列の候補とし
て内部に情報を記憶し、該文字列に対応する正しい候補
とともに表示する0本発明による装置の使用者は選択手
段により、表示された候補の中から、基準に合致した候
補を選択し、校正するように作用する。
〈実施例〉 以下図に基づいて本発明の詳細な説明する。第1図は本
発明に係わる日本語文章校正装置のブロック構成図であ
る。
図においで1は日本語の文字列を入力する手段である。
2は該入力手段により入力された日本語の文字列を記憶
する手段である。入力手段は通常キーボードが用いられ
るが逐次的に入力を行なわないで、たとえば70ツピー
デイスク、磁気テープなどのように入力した日本語の文
字列を記憶する外部記憶手段で代用することも可能であ
る。即ち、1が省略された借成も存在しうる。
3は自立語辞書を記憶する手段である。4は日本語の文
法を記憶する手段である。
日本語は正書法が確立されて−1ないため、ある基準に
合致した表記、文法が正しいとされる。以下、正しい表
記・文法と記述するときは、それが、ある基準に合致し
ていることを意味する。
5は上記2に蓄積された日本語の文字・記号列と3に記
憶された辞書、4に記憶された文法との比較照合を行な
い、校正の可能性のある部分を抽出したり、途中結果を
記憶したり、表示の司令などを行ったりする制御手段で
ある。該制御手段には制御によって得られる結果を記憶
する手段を含む。
6は5によって抽出された文字列に対応する校正用の文
字列などからなる校正用辞書を記憶する手段である。
7はワードプロセッサなどの入力装置の特性による無意
法話、誤った用例を基準に合う表記に変えるための1例
辞書を記憶する手段である。
8は入力された文字列、照合の途中結果、校正すべき文
字列、置き換えるべき文字列などを表示するCRTなど
の表示の手段である。
9は7によって表示された置き換えるべき候補の中から
正しい表記の候補を選択する手段である。
第2図は1によって入力された文字列の例であり、5の
制御手段により、8に表示された状態を表している。こ
の文字列からなる文章を10とする。
第3図は3に記憶された自立語辞書の例である。
本辞書には漢字表記11、その読み12、品詞13が含
まれる。漢字表記は一般に見出しとも言われ、通常語幹
が登録される1本図には文章10の中に現れる各単語の
例を示してνする。たとえば、「絶対」は「ぜったい」
と読み、その品詞は「名詞」であることを表わしている
本説明では出現しないが、通常ワードプロセッサなどで
保有している接辞辞書、活用語尾テーブルなどが辞書記
憶手段3に含まれていても全体の説明に影響を及ぼさな
い、又、第3図で11,12.13を連続した構造とし
ているがこの並びは必ずしも例に示されたとおりでなく
ても良い、又、自立語辞書を一つの構造としでいるが各
情報別にファイルを分け、情報間の関連を持たせるポイ
ンタのような結んでおくことも可能である。
第4図は4に記憶された文法情報の中の付属語に関する
例である。14は見出し、15はその読みの情報で、品
詞・活用形、付属語の種類などの情報が登録しである。
第5図は形!!!!要素間の接続の条件を表わすテーブ
ルである0本テーブルも通常4に含まれる。17は前部
に位置する形!!!!要素であり、19は該要素に後続
する形!ll!要素である。20はこれらの要素間の接
続の可否と、接続した場合の文節または文の終了条件の
可否を表わす情報である。「文節終了」は隣接する形態
要素が接続可能であり、しかも形態要素を組み合わせた
単位は文節の終了条件を満足する正常文節であることを
表わしている。
また、「文終了」は[文ff15g4−了]の条件をも
兼ねている。
第6図は本特許に係わる法例辞書を示している。
20はワードプロセッサのかな漢字変換辞書、アルゴリ
ズムなどの不備に基づく、間違った表記の見出しである
。21は該見出しに対応した正しい表記である1本例で
は、21は正しい表記そのものを示しているが、tj&
3図の辞書の該当見出しのポインタ、辞書番号などを入
れておき、それから表記を検索して利用することも可能
である。又、自動車のように複数の1例がある場合は、
例で示すよ、うに一つの正解に対し複数の法例見出しを
たてることもできる。
第7図は本発明の該略70−図である。第2図の例文1
0を用いて、以下に詳しく述べる。入力・m集手段1に
より入力された[絶対絶命のピンチだ、」という文が、
入力文字配!装置2に蓄積される。22はこの処理ブロ
ックである。
最初に入力文字列「絶対絶命のピンチです、」を−旦、
6にスタックする0次に、スタックされた文字列の字種
フードなどを利用して入力文字列を仮分割する。これに
より「絶対絶命のピンチだ、」は「絶対絶命の」と「ピ
ンチだ、」に仮分割される。
この処理を23とする。
次に分割された入力文字「絶対絶命の」の部分が制御装
置6に読み込まれ、第6図の法例辞書の見出しと照合さ
れる。今の場合、「絶対絶命」の部分が一致する。ここ
で、法例辞書の見出しと照合に成功した場合は、内部処
理として法例辞書から1例に対応する正しい見出し「絶
体絶命」を検索し、その関連情報を6の中にスタックす
る。もし法例辞書との照合に失敗した場合は、自立語辞
書との照合を行う、この処理を24とする。
次に、該見出しに後続する入力文字列「の」を6に呼び
込み、第3図、第4図の自立語あるいは付属語の見出し
と照合し、上でスタックした「絶体絶命」との接続条件
を第5図から調べる0文法との照合処理の部分を25と
する。ところで、今の場合、名詞「絶体絶命jと格助詞
「の]は直接の条件、及び文節の終了条件を満足し「絶
体絶命の」は正常文節として成り立つことが分かる。こ
れらの結果を5にスッタクする。これを26とする。
次に、「ピンチだ、」の部分の処理へ進む、6の中のス
タックの情報を利用して、次文節の文字列をセットする
。これを27とする。
「絶対絶命の」のとさと同じように最初に法例辞書と照
合することにより、今回は失敗する。そこで自立語辞書
との照合処理28に移る0本例ではその中の見出し「ピ
ンチ」が一致する。後続文字の「だ。」と付属語辞書、
′&続テーブルとの照合が行われ、これらが接続条件を
満足し、かつ文節及び文の終了条件を満足することが分
かる。・この処理を29とする。
もし、法例辞書、自立語辞書を用いた照合処理がともに
失敗しtこ場合は、校正用辞書を用いたその他の校正処
理30を行う、ただし、これは本発明には深(かかわっ
ていないので説明は割愛する。
上1こ述べたような分析の結果得られた6の中のスソタ
クの情報を用いて、「絶対絶命」という部分を校正すべ
き文字列の候補と抽出し、例えば第8図のように表示手
段に表示することができる。
図の中の32は原文を表し、32は該装置が提示する校
正箇所と校正の候補を表している。又、図中の斜線は校
正すべき文字列の位置を強調するなめのものである。
装置の使用者は正しい表記として提示された候補の中か
らキーボードなどの選択手段を用い、必要とする表記に
校正することができる。
上の説明では自立語辞書と法例辞書、校正辞書は独立の
辞書として扱っているが、これらが一つに統合された構
造も考えられる。
第9図はその例を示している。即ち、見出し34、その
読み35の他に辞書の区分を示すフラグを表す項目36
を設け、その池の情報は37に直接に表現するかあるい
はポインタ情報を37に格納し、間接的に引き出せるよ
うにすることができる。
更に、上の説明では法例辞書を自立語辞書より先に検索
するようにした。これは、絶対的な順序を表すものでは
なく、自立語辞書を先に検索してら処理の結果に影響は
ない、即ち、その場合は自立語辞書の検索で照合に成功
したときも、必ず法例辞書を検索し、法例辞書の検索照
合にも成功した場合、法例辞書の結果を優先させる。先
に説明した方法は、法例辞書の検索に、失敗したときの
み自立語辞書の検索を行うので、机側が調査する文章に
頻繁に現れれば、処理速度の点で効果がある。
装置の構成図に現れ、詳しい説明を行っていない校正用
辞書について簡単に触れておく、この辞書は、表記のゆ
らぎ、言い換えたほうが良い言葉などを校正するもので
、かな漢字の変換アルゴリズムの不備を補うことを目的
としたものではない。
これらの辞書は、入力文字列の形!!!素解析で失敗し
た部分に対して、照合を行うことを基本としており、本
発明とは性格を異にしており、本発明に影響を与えない
ので詳しい説明は割愛する。
〈発明の効果〉 本発明の効果は、誤す易い例を登録した法例辞書を利用
して校正を行うため、人間では見付けにくい、間違った
同音異義語や字形類費1語を精度良く抽出し校正できる
点にある。
又、かな漢字変換アルゴリズム、辞書の不備で出でくる
例えば「過農政」なとの無意法話を的確に校正すること
ができ、文章作成者の品位を傷付けないようにすること
ができる点にある。
又、緊急を要する校正の場合や、大量の文章の校正にも
短時間で処理ができ、校正を行う人の校正に要する時間
的、精神的、経済的負担を軽減できる点で効果がある。
又、本発明は、校正の特別な知識を持たない一般の人も
使用でさ、校正の専門家の育成に要する時間的、経済的
な負担を軽減する効果がある。
又、形!!!素解析を中心とした処理が利用でき、大量
のプログラムや辞書を必要としないため、コンパクトな
容量で実現できる点で効果がある。
又、文章を作成した装置から、語例を収集し、法例辞書
を作成することができるので、入力装置の欠点をカバー
する個別の法例辞書を作成することができる。この辞書
を用いることにより、より精度の良い校正結果が得られ
る効果がある。
【図面の簡単な説明】
第1図は本発明装置の構成ブロック図、第2図は入力手
段により入力された文字列の例を示す図、第3図は辞書
の例を示す図、第4図は文法の中の付属語辞書の例を示
す図、第5図は接続テーブルの例を示す図、第6図は法
例辞書の例を示す図、第7図は処理の概略70−図、第
8図は法例辞書。 によって提示された校正候補の表示例を示す図、第9図
は法例辞書の他の例を示r図である61・・・入力・編
集手段 2・・・入力文字記憶手段 3・・・辞書記憶手段 4・・・文法記憶手段 5・・・校正用辞書記憶手段 6・・・制御手段 7・・・机側辞書記憶手段 8・・・表示手段 9・・・選択手段 10・・・例文 11・・・辞にの中の自立語辞書の見出し12・・・辞
書の中の自立語辞書の読み13・・・辞書の中の自立語
辞書の品詞情報14・・・文法の中の付属語辞書の見出
し15・・・文法の中の付属語辞書の読み16・・・文
法の中の付属語辞書の品詞情117・・・1i(i部形
態要素 18・・・後続形態要素 19・・・終了条件 20・・・眼側辞書見出し 21・・・眼側辞書正解表記 22・・・入力文字列読み込み処理ブロック23・・・
入力文字副板分割処理ブロック24・・・法例辞書照合
処理プaツク 25・・・文法照合処理処理ブロック 26・・・照合結果スタ・ンク処理ブロック27・・・
人文ffi設定処理ブロック28・・・自立語辞書照合
処理ブロック29・・・文法処理ブロック 30・・・その他の校正処理プロノク 31・・φ処理終了ブロック 32・・・原文、校正泣所表示の例 33・・・校正箇所、校正候補表示の例34・・・辞書
見出し 35・・・見出しの読み 36・・・辞書区分情報 37・・・評言内容 代理人 弁理士  杉山毅至(他1名)第1図 1n2図 第6図 rA7図

Claims (1)

    【特許請求の範囲】
  1. 日本語を入力・編集する手段と、該入力された日本語を
    記憶する手段と、基準となる表記の日本語よりなる辞書
    を記憶する手段と、基準となる日本語の文法を記憶する
    手段と、該入力された日本語の中から校正すべき文字・
    記号列を抽出する手段と、該抽出された文字・記号列に
    置き換える文字・記号列の候補を記憶する手段と、該候
    補文字・記号列を表示する手段と、該候補文字・記号列
    の中から正しい文字・記号列を選択する手段を有する日
    本語文章校正装置において誤例辞書を利用して校正すべ
    き文字・記号列を抽出し、校正することを特徴とする日
    本語文章校正装置。
JP61266110A 1986-11-06 1986-11-06 日本語文章校正装置 Pending JPS63118868A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61266110A JPS63118868A (ja) 1986-11-06 1986-11-06 日本語文章校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61266110A JPS63118868A (ja) 1986-11-06 1986-11-06 日本語文章校正装置

Publications (1)

Publication Number Publication Date
JPS63118868A true JPS63118868A (ja) 1988-05-23

Family

ID=17426455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61266110A Pending JPS63118868A (ja) 1986-11-06 1986-11-06 日本語文章校正装置

Country Status (1)

Country Link
JP (1) JPS63118868A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5902167A (en) * 1997-09-09 1999-05-11 Sonic Bites, Llc Sound-transmitting amusement device and method
US6024624A (en) * 1997-04-28 2000-02-15 Joy World, Inc. Novelty article
US6115477A (en) * 1995-01-23 2000-09-05 Sonic Bites, Llc Denta-mandibular sound-transmitting system
US6129292A (en) * 1999-05-07 2000-10-10 Simon Marketing, Inc. Novelty drinking straw

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5994131A (ja) * 1982-11-19 1984-05-30 Brother Ind Ltd ワ−ドプロセツサ
JPS59127139A (ja) * 1982-12-28 1984-07-21 Fujitsu Ltd 文章の異常検査修正装置
JPS59127140A (ja) * 1982-12-28 1984-07-21 Fujitsu Ltd 文章の自動異常検査修正装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5994131A (ja) * 1982-11-19 1984-05-30 Brother Ind Ltd ワ−ドプロセツサ
JPS59127139A (ja) * 1982-12-28 1984-07-21 Fujitsu Ltd 文章の異常検査修正装置
JPS59127140A (ja) * 1982-12-28 1984-07-21 Fujitsu Ltd 文章の自動異常検査修正装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115477A (en) * 1995-01-23 2000-09-05 Sonic Bites, Llc Denta-mandibular sound-transmitting system
US6024624A (en) * 1997-04-28 2000-02-15 Joy World, Inc. Novelty article
US5902167A (en) * 1997-09-09 1999-05-11 Sonic Bites, Llc Sound-transmitting amusement device and method
US6129292A (en) * 1999-05-07 2000-10-10 Simon Marketing, Inc. Novelty drinking straw

Similar Documents

Publication Publication Date Title
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
Josan et al. A Punjabi to Hindi machine transliteration system
US5079701A (en) System for registering new words by using linguistically comparable reference words
JPH08235182A (ja) 文章処理方法とその装置
JPS63118868A (ja) 日本語文章校正装置
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
JPS634206B2 (ja)
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPS63163956A (ja) 文書作成・校正支援装置
JP2621999B2 (ja) 文書処理装置
JPS62209663A (ja) 日本語文章校正装置
JPS62130458A (ja) かな漢字変換処理方式
Byun et al. Automatic spelling correction rule extraction and application for spoken-style korean text
Rakhimova et al. The Task of Identifying Morphological Errors of Words in the Kazakh Language in Social Networks
JPS63115264A (ja) 文書処理装置
JPH01114976A (ja) 文書処理装置の辞書構造
JPS61208164A (ja) 日本語文章校正装置の表示方式
JPS62209662A (ja) 日本語文章校正装置
JPS62209668A (ja) 日本語文章校正装置
JPH0682367B2 (ja) 文書作成・校正支援装置
JPS63153669A (ja) 日本語文から中国語文への翻訳方式
JPH01114973A (ja) 文書作成・校正支援装置
JPS62209659A (ja) 日本語文章校正装置