JPS61114366A

JPS61114366A - 日本語テキストデ−タの校正処理方式

Info

Publication number: JPS61114366A
Application number: JP59234730A
Authority: JP
Inventors: Toshio Shimamura; 嶋村　敏雄
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-11-07
Filing date: 1984-11-07
Publication date: 1986-06-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、入力された日本語等のテキストデータを所定
の用字、用語法に基づく表記ルールに従って自動的に校
正処理する方式に関する。

〔従来技術と問題点〕

活字が組立てられて又はキーボードを操作してカナ漢字
文ができ上ると印刷に入る前に校正つまり誤字、脱字な
どの修正がなされるが、この作業は人手により行なわれ
ている。同様に印刷用の電子的な文書処理システムの校
正に於ても、どう修正するかは人手によっているのが実
状である。

各種システムのデータや、ワードプロセッサでカナ漢字
変換されて入力されたフロッピィディスクから読出した
、或いはフルキーボードから直接入力される日本語文章
データ（テキストデータ）等の印刷物化等に、誤り（誤
字）があればそれを修正し、また文字列の適否を印刷業
界の編集の慣例に沿った用字、用語法により見直し修正
する自動校正システムがあれば省力化などの点で非常に
有効である。例えば第２図に示すようにワードプロセッ
サＷＰのフロッピィディスクＦＤまたはフルキーボード
ＫＢから計算機１にソーステキストデータ１２を入力し
、該計算機の文書処理プログラム１１により校正して修
正済みテキストデータが得られ−ぼ便利である。

校正対象には誤字、脱字の修正の他に送り仮名の誤り、
現代かなづかいの誤り、用字用語の誤りなどがある。脱
字は文字欠落で、比較的単純であるが、誤字は文字その
ものの誤り、文字自体は正しいが使い方に誤りがある、
そのような用字は旧字であり今は誤りや不使用とされて
いるもの、そのような文字列は官庁、会社つまり所定グ
ループでは不使用とされているもの、等様々である。文
字自体に誤りはないが、使い方が誤っているものをこ＼
では用字用語の誤りという。ワードブロセシサでカナ漢
字変換して若しくはフルキーボードを操作して発生させ
たカナ混り文では文字それ自体の誤りは少ないとみられ
、字の誤りは用字、用語の誤りまたは不適切が問題であ
る。

具体例を挙げると「昂奮」　「刺戟」は旧字であり、現
在は（当用漢字では）「興奮」　「刺激」が正しいが、
文章作成者が年配者であると前者の旧字が混じることが
ある。また英語をカナで表わすと末尾が伸びるものがあ
るが、これは３字以上なら伸ばさないという規約が当該
団体でできているから、そこでは「モーター」は誤り、
「モータ」が正しい、になる、用字、用語はその表記ル
ールに基ずかなくても、脱字、文字自体の誤りのように
文章の意味を不明瞭にするものではないが、より適切な
文章にするには正しい用字、用語にする必要がある０本
発明はかかる用字、用語を表記ルールに従って自動的に
校正処理するシステムを提供しようとするものである。

〔問題点を解決するための手段〕

本発明の日本語テキストデータ校正処理方式は、入力さ
れた文字コードの状態の日本語テキストデータ語や句や
品詞単位で切り出し、切り出された各種や句や品詞につ
いて、所定の表記ルールに従がう正しい語、句、品詞と
核種、句、品詞と同じ内容ではあるが該表記ルールには
従がわない語、句、品詞とを併記したテーブルを参照し
、表記ルールに従わない語、句、品詞は該テーブルから
続出した表記ルールに従う語、句、品詞に置き換える処
理を、各種につき逐次、該処理プログラムにより自動的
に行うことを特徴とするものである。

〔作用〕

入力すれた日本語のテキストデータを構文解析等により
要素（語１句１品詞）単位に切り出す処理は既に実用化
されている。本発明では切り出した各要素を各種テーブ
ルを参照して自動的に表記ルールに従う要素に変換しよ
うとするものである。

このため該テーブルには予め各種の用字、用語法に基づ
く単語と、それに同等ではあるが該用字用語法には違反
する単語を併記、収録しておき、切り出した単語で該テ
ーブルに該当するものがあるか否かを検索する。あれば
そのテーブルの当該単語の欄の表記ルールに従う単語を
読み出し、該切り出した単語に置換し、こうして逐次校
正を行なう、以下、図示の実施例を参照しながらこれを
詳詳細に説明する。

〔実施例〕

第１図を参照しながら本発明を説明すると、１３．１４
，１５．・・・・・・は各種の表記ルールに従がう用字
用語等に関するテーブルであり、具体的には例えば（１
）現代かなづかい用、（２）法令漢字へのおきかえ用、
（３）送りがな用、（４）公用文の用字、用語用、（５
）外国語表記用１ケまたはそれ以上からなるテーブルで
ある。１１′は文字コードの形の文章データ（ソーステ
キストデータ）１２を校正対象の要素に切り出す抽出機
能、誤字（辞書にない単語、熟語）、脱字等を訂正する
機能、およびテーブル１３，１４．・・・・・・を参照
して表記ルールに従う正しい用字、用語にする校正機能
を有する。こうして訂正もしくは校正されたソーステキ
ストデータは修正済みテキストデータとして出力される
が、次に本発明の目的とする校正処理につき説明する。

表記ルールに基ずく校正はテーブル１３．１４゜・・・
・・・を参照して行われ、誤っていれば正しい用字また
は用語を該テーブルから読出してそれに置き換える。

テーブル１３．１４．・・・・・・の構成法は種々考え
られるが、ある単語例えば「切替え」に対し、表記ルー
ルからは外れるが旧字、慣用語、旧送りがな等であって
該表記ルールに従う単語「切替え」と同様な単語「切り
替え」　「切換え」　「切り換え」などを採集してこれ
らを辞書の見出し語とし、その見出し語に対する正しい
単語として「切替え」を登録しておく、のは一方法であ
る。各種の単語につきこのような処理をした辞書（テー
ブル）を用い、そしてソーステキストデータから切り出
した要素で該テーブルを検索すれば、該単語（要素）に
対する表記ルールに従う正しい単語が読み出されるので
、これで該単語を置き換えることによりｌぎ圧する。切
り出されたｊ１１語が表記ルール通りのもの等で該テー
ブルに該当見出し語がない場合は該単語をそのまま出力
する。こうして得た修正済テキストデータ１０と共に修
正リストを出力して、どの部分を修正したかを示すと、
文書作成者等によるその後のチェックが容易である。

以下にｆキ正例を示す。ソーステキストデータとして「
彼は、この事実によって大変に昂奮した・・・・・・」
なる文章の文字コード列が入力すると、処理プログラム
１１′　はこれを要素（詳しくは校正対象単位）に区分
して抽出し、各要素についてテーブル１３，１４．・・
・・・・を参照する。そして、上記の例では「昂奮」と
いう単語（キー）に対し同じ読みの「興奮」という単語
（データ）が見い出されるので、このソーステキストデ
ータ１２中の「昂奮」という部分を「興奮」に修正する
、また「刺戟」に対しては「刺激」が見い出されるので
これに修正する。

また、上記のソーステキストデータ中にはないが、「行
なう」を正しい送り仮名の「行う」に修正したり、「切
換」または「切換え」を共に「切替え土に修正する校正
もあり、これは送り仮名用テーブルを参照して行う。ま
た日本語文章中に現われる外国語表記については、外国
語表記用テーブルを参照して次の様なｆ―正がなされる
。

ソース　　　　　　　　修正済Ｂ、Ｃまたはす、ｃ３００　−＝　ａ、ｃ、３００　（
紀元前３００年）１０ＫＧまたはに／ｇ→　ｌｏｋｇ（
１０キログラム）１０ＫＭ　　　　　　　　−＝　　１
０Ｋｍ　（１０キロメータ）１０ＡＭ、　　　　　　−
＝　　１０ａ、　ｍ、　　（午前１０時）尚、上記の訂
正はＢ、Ｃ３００，１０ｋ／　ｇ、　　１０　Ｋｍ。

１０ＡＭ、のように特定のアルファベットの組が数字と
結合しているという関係からその種の略語と認識するこ
とにより行なわれ、か＼る認識には構文解析の手法等を
利用できる。誤字（漢字単語の誤り）訂正は比較的簡単
で、当該漢字コードの組合せがテーブルにあるか否かを
稠べ、正しい漢字コードの組合せが登録されている場合
はその正しい漢字コードの組合せを出力する、で処理で
きる。

〔発明の効果〕

以上述べたように本発明によれば、日本語のテキストデ
ータを表記ルールに従って自動的に修正できるので、校
正の工程の正確で、高速の処理を実現する。

【図面の簡単な説明】

第１図は本発明の一実施例を示す説明図、第２図は日本
語処理システムの概略ブロック図である。図中、１は電算機、１１′は文章処理プログラム、１２
はソーステキストデータ、１３，１４゜・・・・・・は
表記ルールテーブルである。

Claims

【特許請求の範囲】

入力された文字コードの状態の日本語テキストデータを
語や句や品詞単位で切り出し、切り出された各語や句や
品詞について、所定の表記ルールに従がう正しい語、句
、品詞と該語、句、品詞と同じ内容ではあるが該表記ル
ールには従がわない語、句、品詞とを併記したテーブル
を参照し、表記ルールに従わない語、句、品詞は該テー
ブルから読出した表記ルールに従う語、句、品詞に置き
換える処理を、各語につき逐次、該処理プログラムによ
り自動的に行うことを特徴とする日本語等のテキストデ
ータの校正処理方式。