JPS61114366A - 日本語テキストデ−タの校正処理方式 - Google Patents
日本語テキストデ−タの校正処理方式Info
- Publication number
- JPS61114366A JPS61114366A JP59234730A JP23473084A JPS61114366A JP S61114366 A JPS61114366 A JP S61114366A JP 59234730 A JP59234730 A JP 59234730A JP 23473084 A JP23473084 A JP 23473084A JP S61114366 A JPS61114366 A JP S61114366A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- word
- speech
- words
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、入力された日本語等のテキストデータを所定
の用字、用語法に基づく表記ルールに従って自動的に校
正処理する方式に関する。
の用字、用語法に基づく表記ルールに従って自動的に校
正処理する方式に関する。
活字が組立てられて又はキーボードを操作してカナ漢字
文ができ上ると印刷に入る前に校正つまり誤字、脱字な
どの修正がなされるが、この作業は人手により行なわれ
ている。同様に印刷用の電子的な文書処理システムの校
正に於ても、どう修正するかは人手によっているのが実
状である。
文ができ上ると印刷に入る前に校正つまり誤字、脱字な
どの修正がなされるが、この作業は人手により行なわれ
ている。同様に印刷用の電子的な文書処理システムの校
正に於ても、どう修正するかは人手によっているのが実
状である。
各種システムのデータや、ワードプロセッサでカナ漢字
変換されて入力されたフロッピィディスクから読出した
、或いはフルキーボードから直接入力される日本語文章
データ(テキストデータ)等の印刷物化等に、誤り(誤
字)があればそれを修正し、また文字列の適否を印刷業
界の編集の慣例に沿った用字、用語法により見直し修正
する自動校正システムがあれば省力化などの点で非常に
有効である。例えば第2図に示すようにワードプロセッ
サWPのフロッピィディスクFDまたはフルキーボード
KBから計算機1にソーステキストデータ12を入力し
、該計算機の文書処理プログラム11により校正して修
正済みテキストデータが得られ−ぼ便利である。
変換されて入力されたフロッピィディスクから読出した
、或いはフルキーボードから直接入力される日本語文章
データ(テキストデータ)等の印刷物化等に、誤り(誤
字)があればそれを修正し、また文字列の適否を印刷業
界の編集の慣例に沿った用字、用語法により見直し修正
する自動校正システムがあれば省力化などの点で非常に
有効である。例えば第2図に示すようにワードプロセッ
サWPのフロッピィディスクFDまたはフルキーボード
KBから計算機1にソーステキストデータ12を入力し
、該計算機の文書処理プログラム11により校正して修
正済みテキストデータが得られ−ぼ便利である。
校正対象には誤字、脱字の修正の他に送り仮名の誤り、
現代かなづかいの誤り、用字用語の誤りなどがある。脱
字は文字欠落で、比較的単純であるが、誤字は文字その
ものの誤り、文字自体は正しいが使い方に誤りがある、
そのような用字は旧字であり今は誤りや不使用とされて
いるもの、そのような文字列は官庁、会社つまり所定グ
ループでは不使用とされているもの、等様々である。文
字自体に誤りはないが、使い方が誤っているものをこ\
では用字用語の誤りという。ワードブロセシサでカナ漢
字変換して若しくはフルキーボードを操作して発生させ
たカナ混り文では文字それ自体の誤りは少ないとみられ
、字の誤りは用字、用語の誤りまたは不適切が問題であ
る。
現代かなづかいの誤り、用字用語の誤りなどがある。脱
字は文字欠落で、比較的単純であるが、誤字は文字その
ものの誤り、文字自体は正しいが使い方に誤りがある、
そのような用字は旧字であり今は誤りや不使用とされて
いるもの、そのような文字列は官庁、会社つまり所定グ
ループでは不使用とされているもの、等様々である。文
字自体に誤りはないが、使い方が誤っているものをこ\
では用字用語の誤りという。ワードブロセシサでカナ漢
字変換して若しくはフルキーボードを操作して発生させ
たカナ混り文では文字それ自体の誤りは少ないとみられ
、字の誤りは用字、用語の誤りまたは不適切が問題であ
る。
具体例を挙げると「昂奮」 「刺戟」は旧字であり、現
在は(当用漢字では)「興奮」 「刺激」が正しいが、
文章作成者が年配者であると前者の旧字が混じることが
ある。また英語をカナで表わすと末尾が伸びるものがあ
るが、これは3字以上なら伸ばさないという規約が当該
団体でできているから、そこでは「モーター」は誤り、
「モータ」が正しい、になる、用字、用語はその表記ル
ールに基ずかなくても、脱字、文字自体の誤りのように
文章の意味を不明瞭にするものではないが、より適切な
文章にするには正しい用字、用語にする必要がある0本
発明はかかる用字、用語を表記ルールに従って自動的に
校正処理するシステムを提供しようとするものである。
在は(当用漢字では)「興奮」 「刺激」が正しいが、
文章作成者が年配者であると前者の旧字が混じることが
ある。また英語をカナで表わすと末尾が伸びるものがあ
るが、これは3字以上なら伸ばさないという規約が当該
団体でできているから、そこでは「モーター」は誤り、
「モータ」が正しい、になる、用字、用語はその表記ル
ールに基ずかなくても、脱字、文字自体の誤りのように
文章の意味を不明瞭にするものではないが、より適切な
文章にするには正しい用字、用語にする必要がある0本
発明はかかる用字、用語を表記ルールに従って自動的に
校正処理するシステムを提供しようとするものである。
本発明の日本語テキストデータ校正処理方式は、入力さ
れた文字コードの状態の日本語テキストデータ語や句や
品詞単位で切り出し、切り出された各種や句や品詞につ
いて、所定の表記ルールに従がう正しい語、句、品詞と
核種、句、品詞と同じ内容ではあるが該表記ルールには
従がわない語、句、品詞とを併記したテーブルを参照し
、表記ルールに従わない語、句、品詞は該テーブルから
続出した表記ルールに従う語、句、品詞に置き換える処
理を、各種につき逐次、該処理プログラムにより自動的
に行うことを特徴とするものである。
れた文字コードの状態の日本語テキストデータ語や句や
品詞単位で切り出し、切り出された各種や句や品詞につ
いて、所定の表記ルールに従がう正しい語、句、品詞と
核種、句、品詞と同じ内容ではあるが該表記ルールには
従がわない語、句、品詞とを併記したテーブルを参照し
、表記ルールに従わない語、句、品詞は該テーブルから
続出した表記ルールに従う語、句、品詞に置き換える処
理を、各種につき逐次、該処理プログラムにより自動的
に行うことを特徴とするものである。
入力すれた日本語のテキストデータを構文解析等により
要素(語1句1品詞)単位に切り出す処理は既に実用化
されている。本発明では切り出した各要素を各種テーブ
ルを参照して自動的に表記ルールに従う要素に変換しよ
うとするものである。
要素(語1句1品詞)単位に切り出す処理は既に実用化
されている。本発明では切り出した各要素を各種テーブ
ルを参照して自動的に表記ルールに従う要素に変換しよ
うとするものである。
このため該テーブルには予め各種の用字、用語法に基づ
く単語と、それに同等ではあるが該用字用語法には違反
する単語を併記、収録しておき、切り出した単語で該テ
ーブルに該当するものがあるか否かを検索する。あれば
そのテーブルの当該単語の欄の表記ルールに従う単語を
読み出し、該切り出した単語に置換し、こうして逐次校
正を行なう、以下、図示の実施例を参照しながらこれを
詳詳細に説明する。
く単語と、それに同等ではあるが該用字用語法には違反
する単語を併記、収録しておき、切り出した単語で該テ
ーブルに該当するものがあるか否かを検索する。あれば
そのテーブルの当該単語の欄の表記ルールに従う単語を
読み出し、該切り出した単語に置換し、こうして逐次校
正を行なう、以下、図示の実施例を参照しながらこれを
詳詳細に説明する。
第1図を参照しながら本発明を説明すると、13.14
,15.・・・・・・は各種の表記ルールに従がう用字
用語等に関するテーブルであり、具体的には例えば(1
)現代かなづかい用、(2)法令漢字へのおきかえ用、
(3)送りがな用、(4)公用文の用字、用語用、(5
)外国語表記用1ケまたはそれ以上からなるテーブルで
ある。11′は文字コードの形の文章データ(ソーステ
キストデータ)12を校正対象の要素に切り出す抽出機
能、誤字(辞書にない単語、熟語)、脱字等を訂正する
機能、およびテーブル13,14.・・・・・・を参照
して表記ルールに従う正しい用字、用語にする校正機能
を有する。こうして訂正もしくは校正されたソーステキ
ストデータは修正済みテキストデータとして出力される
が、次に本発明の目的とする校正処理につき説明する。
,15.・・・・・・は各種の表記ルールに従がう用字
用語等に関するテーブルであり、具体的には例えば(1
)現代かなづかい用、(2)法令漢字へのおきかえ用、
(3)送りがな用、(4)公用文の用字、用語用、(5
)外国語表記用1ケまたはそれ以上からなるテーブルで
ある。11′は文字コードの形の文章データ(ソーステ
キストデータ)12を校正対象の要素に切り出す抽出機
能、誤字(辞書にない単語、熟語)、脱字等を訂正する
機能、およびテーブル13,14.・・・・・・を参照
して表記ルールに従う正しい用字、用語にする校正機能
を有する。こうして訂正もしくは校正されたソーステキ
ストデータは修正済みテキストデータとして出力される
が、次に本発明の目的とする校正処理につき説明する。
表記ルールに基ずく校正はテーブル13.14゜・・・
・・・を参照して行われ、誤っていれば正しい用字また
は用語を該テーブルから読出してそれに置き換える。
・・・を参照して行われ、誤っていれば正しい用字また
は用語を該テーブルから読出してそれに置き換える。
テーブル13.14.・・・・・・の構成法は種々考え
られるが、ある単語例えば「切替え」に対し、表記ルー
ルからは外れるが旧字、慣用語、旧送りがな等であって
該表記ルールに従う単語「切替え」と同様な単語「切り
替え」 「切換え」 「切り換え」などを採集してこれ
らを辞書の見出し語とし、その見出し語に対する正しい
単語として「切替え」を登録しておく、のは一方法であ
る。各種の単語につきこのような処理をした辞書(テー
ブル)を用い、そしてソーステキストデータから切り出
した要素で該テーブルを検索すれば、該単語(要素)に
対する表記ルールに従う正しい単語が読み出されるので
、これで該単語を置き換えることによりlぎ圧する。切
り出されたj11語が表記ルール通りのもの等で該テー
ブルに該当見出し語がない場合は該単語をそのまま出力
する。こうして得た修正済テキストデータ10と共に修
正リストを出力して、どの部分を修正したかを示すと、
文書作成者等によるその後のチェックが容易である。
られるが、ある単語例えば「切替え」に対し、表記ルー
ルからは外れるが旧字、慣用語、旧送りがな等であって
該表記ルールに従う単語「切替え」と同様な単語「切り
替え」 「切換え」 「切り換え」などを採集してこれ
らを辞書の見出し語とし、その見出し語に対する正しい
単語として「切替え」を登録しておく、のは一方法であ
る。各種の単語につきこのような処理をした辞書(テー
ブル)を用い、そしてソーステキストデータから切り出
した要素で該テーブルを検索すれば、該単語(要素)に
対する表記ルールに従う正しい単語が読み出されるので
、これで該単語を置き換えることによりlぎ圧する。切
り出されたj11語が表記ルール通りのもの等で該テー
ブルに該当見出し語がない場合は該単語をそのまま出力
する。こうして得た修正済テキストデータ10と共に修
正リストを出力して、どの部分を修正したかを示すと、
文書作成者等によるその後のチェックが容易である。
以下にfキ正例を示す。ソーステキストデータとして「
彼は、この事実によって大変に昂奮した・・・・・・」
なる文章の文字コード列が入力すると、処理プログラム
11′ はこれを要素(詳しくは校正対象単位)に区分
して抽出し、各要素についてテーブル13,14.・・
・・・・を参照する。そして、上記の例では「昂奮」と
いう単語(キー)に対し同じ読みの「興奮」という単語
(データ)が見い出されるので、このソーステキストデ
ータ12中の「昂奮」という部分を「興奮」に修正する
、また「刺戟」に対しては「刺激」が見い出されるので
これに修正する。
彼は、この事実によって大変に昂奮した・・・・・・」
なる文章の文字コード列が入力すると、処理プログラム
11′ はこれを要素(詳しくは校正対象単位)に区分
して抽出し、各要素についてテーブル13,14.・・
・・・・を参照する。そして、上記の例では「昂奮」と
いう単語(キー)に対し同じ読みの「興奮」という単語
(データ)が見い出されるので、このソーステキストデ
ータ12中の「昂奮」という部分を「興奮」に修正する
、また「刺戟」に対しては「刺激」が見い出されるので
これに修正する。
また、上記のソーステキストデータ中にはないが、「行
なう」を正しい送り仮名の「行う」に修正したり、「切
換」または「切換え」を共に「切替え土に修正する校正
もあり、これは送り仮名用テーブルを参照して行う。ま
た日本語文章中に現われる外国語表記については、外国
語表記用テーブルを参照して次の様なf―正がなされる
。
なう」を正しい送り仮名の「行う」に修正したり、「切
換」または「切換え」を共に「切替え土に修正する校正
もあり、これは送り仮名用テーブルを参照して行う。ま
た日本語文章中に現われる外国語表記については、外国
語表記用テーブルを参照して次の様なf―正がなされる
。
ソース 修正済
B、Cまたはす、c300 −= a、c、300 (
紀元前300年)10KGまたはに/g→ lokg(
10キログラム)10KM −= 1
0Km (10キロメータ)10AM、 −
= 10a、 m、 (午前10時)尚、上記の訂
正はB、C300,10k/ g、 10 Km。
紀元前300年)10KGまたはに/g→ lokg(
10キログラム)10KM −= 1
0Km (10キロメータ)10AM、 −
= 10a、 m、 (午前10時)尚、上記の訂
正はB、C300,10k/ g、 10 Km。
10AM、のように特定のアルファベットの組が数字と
結合しているという関係からその種の略語と認識するこ
とにより行なわれ、か\る認識には構文解析の手法等を
利用できる。誤字(漢字単語の誤り)訂正は比較的簡単
で、当該漢字コードの組合せがテーブルにあるか否かを
稠べ、正しい漢字コードの組合せが登録されている場合
はその正しい漢字コードの組合せを出力する、で処理で
きる。
結合しているという関係からその種の略語と認識するこ
とにより行なわれ、か\る認識には構文解析の手法等を
利用できる。誤字(漢字単語の誤り)訂正は比較的簡単
で、当該漢字コードの組合せがテーブルにあるか否かを
稠べ、正しい漢字コードの組合せが登録されている場合
はその正しい漢字コードの組合せを出力する、で処理で
きる。
以上述べたように本発明によれば、日本語のテキストデ
ータを表記ルールに従って自動的に修正できるので、校
正の工程の正確で、高速の処理を実現する。
ータを表記ルールに従って自動的に修正できるので、校
正の工程の正確で、高速の処理を実現する。
第1図は本発明の一実施例を示す説明図、第2図は日本
語処理システムの概略ブロック図である。 図中、1は電算機、11′は文章処理プログラム、12
はソーステキストデータ、13,14゜・・・・・・は
表記ルールテーブルである。
語処理システムの概略ブロック図である。 図中、1は電算機、11′は文章処理プログラム、12
はソーステキストデータ、13,14゜・・・・・・は
表記ルールテーブルである。
Claims (1)
- 入力された文字コードの状態の日本語テキストデータを
語や句や品詞単位で切り出し、切り出された各語や句や
品詞について、所定の表記ルールに従がう正しい語、句
、品詞と該語、句、品詞と同じ内容ではあるが該表記ル
ールには従がわない語、句、品詞とを併記したテーブル
を参照し、表記ルールに従わない語、句、品詞は該テー
ブルから読出した表記ルールに従う語、句、品詞に置き
換える処理を、各語につき逐次、該処理プログラムによ
り自動的に行うことを特徴とする日本語等のテキストデ
ータの校正処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59234730A JPS61114366A (ja) | 1984-11-07 | 1984-11-07 | 日本語テキストデ−タの校正処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59234730A JPS61114366A (ja) | 1984-11-07 | 1984-11-07 | 日本語テキストデ−タの校正処理方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61114366A true JPS61114366A (ja) | 1986-06-02 |
Family
ID=16975463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59234730A Pending JPS61114366A (ja) | 1984-11-07 | 1984-11-07 | 日本語テキストデ−タの校正処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61114366A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01207868A (ja) * | 1988-02-16 | 1989-08-21 | Fujitsu Ltd | 日本語文章処理方式 |
JP2009211565A (ja) * | 2008-03-05 | 2009-09-17 | Nec Corp | 電子メール処理装置、処理方法、プログラム及び記録媒体 |
-
1984
- 1984-11-07 JP JP59234730A patent/JPS61114366A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01207868A (ja) * | 1988-02-16 | 1989-08-21 | Fujitsu Ltd | 日本語文章処理方式 |
JP2009211565A (ja) * | 2008-03-05 | 2009-09-17 | Nec Corp | 電子メール処理装置、処理方法、プログラム及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5587902A (en) | Translating system for processing text with markup signs | |
JPH0823864B2 (ja) | 見出し判定方法 | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
JPH0211934B2 (ja) | ||
Mitton | A partial dictionary of English in computer-usable form | |
Lehal et al. | Sangam: A Perso-Arabic to Indic script machine transliteration model | |
Prinsloo et al. | Optical Character Recognition and text cleaning in the indigenous South African languages | |
JPS61114366A (ja) | 日本語テキストデ−タの校正処理方式 | |
Sampson | How fully does a machine-usable dictionary cover English text? | |
JP2536633B2 (ja) | 複合語抽出装置 | |
KR102604758B1 (ko) | 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법 | |
KR100434526B1 (ko) | 문맥정보및지역적문서형태를이용한문장추출방법 | |
JPH0130173B2 (ja) | ||
JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
Kawada et al. | Linguistic error correction of Japanese sentences | |
Lehal et al. | A Hindi to Urdu transliteration system | |
JP3300131B2 (ja) | 自然言語解析装置 | |
Deksne et al. | Towards the Development of Language Analysis Tools for the Written Latgalian Language | |
JP2599973B2 (ja) | 日本文訂正候補文字抽出装置 | |
Utka | Towards the Development of Language Analysis Tools for the Written Latgalian | |
Habash et al. | Identification of Naturally Occurring Numerical Expressions in Arabic. | |
Saleh et al. | Web development considerations for unicode-based text processing in Uyghur language | |
King | Functions required of a translation system | |
JPS61272873A (ja) | テキストの補整表記方式 | |
JPS61208164A (ja) | 日本語文章校正装置の表示方式 |