JPS6394365A - 日本文文書誤り検定装置 - Google Patents

日本文文書誤り検定装置

Info

Publication number
JPS6394365A
JPS6394365A JP61238060A JP23806086A JPS6394365A JP S6394365 A JPS6394365 A JP S6394365A JP 61238060 A JP61238060 A JP 61238060A JP 23806086 A JP23806086 A JP 23806086A JP S6394365 A JPS6394365 A JP S6394365A
Authority
JP
Japan
Prior art keywords
proper noun
proper
dictionary
noun
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61238060A
Other languages
English (en)
Other versions
JPH077415B2 (ja
Inventor
Shinichiro Takagi
伸一郎 高木
Tsuneo Yasuda
安田 恒雄
Katsumi Shimazaki
島崎 勝美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP61238060A priority Critical patent/JPH077415B2/ja
Publication of JPS6394365A publication Critical patent/JPS6394365A/ja
Publication of JPH077415B2 publication Critical patent/JPH077415B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の属する技術分野) 本発明は、日本文文書データベース作成のため、漢字か
な混じりの日本文文字列に含まれる固有名詞の誤りの検
定を行う日本文文書誤り検定装置に関するものである。
(従来の技術) 新聞記事、出版用原稿等の文書を大量に電子ファイル化
して日本文文書データベースを作成する場合、これらの
文書に含まれている多数の人名、地名、組織名等の固有
名詞は記事の中で重要なポイントを占めるほか、その正
誤は記事の信頼性を左右しかねないため、従来、これら
の固有名詞の検定は校正者にとって非常に重要な作業で
あった。
こうした固有名詞の検定は、従来、第1図のように行わ
れている。
第1図は従来の固有名詞検定方法の説明図で、(a)は
検定の順序、(b)は資料の例である。
1は入力日本文文書、2は漢字OCR、ベンタッチタブ
レット、キーボード等の入力装置、3は読み込みを行う
入力処理部、4は磁気装置に文字コードの形式で記録さ
れている入力日本文データベース、5は入力日本文デー
タベース4の一部をモニター用に出力する文書出力部、
6は修正者が固有名詞の検定および訂正を行う修正用端
末、7は修正者が固有名詞の検定のために使用する各固
有名詞辞典、あるいは、固有名詞に関する資料である。
従来の方法で、固有名詞の検定をその実在性をも含めて
実施する場合、次の問題点がある。
■ 固有名詞の数は1人名、地名、組織名を中心に膨大
で、その分類も多岐に渡るため、新聞記事のように信頼
性を要求される文書において、出現する固有名詞の辞書
、資料を用いた検定は、多大な処理負荷、処理時間を要
する。
■ 人名では、官僚名1組織長名(社長、会長、委員長
・・・)等において、人事異動によりその変更が多く、
かつその推移も激しいので、新聞記事のように厳格性が
要求される文書では、特にその検定に多大な処理時間を
要する。
■ 人名の場合、時間の推移によって生存/死亡、現職
/前職等のように、状況に応じて接頭辞(故、現、元・
・・)を選択する必要があるので、単に固有名詞の有無
だけではなく、任期、生存期間等の属性に応じて、接頭
辞等の固有名詞承接語についても検定する必要があり、
多大な処理時間を要する。
(発明の目的) 本発明の目的は、固有名詞と固有名詞前後に承接する固
有名詞承接語と固有名詞の属性情報を収集した固有名詞
属性辞書を予め作成し、入力日本文文書の形態素解析に
よって固有名詞承接語を抽出し、固有名詞承接語あるい
は固有名詞をキーとして固有名詞属性辞書を索引するこ
とによって、入力原文中に出現した固有名詞の実在性の
検定および固有名詞承接語の妥当性の検定を実施するよ
うにしたことで、固有名詞の検定の処理負荷を解決した
日本文文書誤り検定装置を提供することにある。
(発明の構成) (発明の特徴と従来の技術との差異) 本発明は、固有名詞と固有名詞前後に承接する固有名詞
承接語と固有名詞の属性情報を収集した固有名詞属性辞
書を予め作成し、入力日本文文書に対する単語辞書およ
び文法辞書を用いた形態素解析によって、まず、固有名
詞承接語を抽出し、(固有名詞承接語がない場合は、固
有名詞を抽出)抽出した固有名詞承接語、あるいは、固
有名詞をキーとして前記属性を索引し、次の手段によっ
て固有名詞の実在性の検定および固有名詞承接語の妥当
性の検定を行うことを最も主要な特徴とする。
■ 固有名詞承接語が抽出された場合、この固有名詞承
接語をキーとしてその辞書を索引し、キーがマツチすれ
ば、−意化可能情報フラグを参照し、フラグがあれば、
固有名詞との照合、検定を行う(例えば「鈴木都知事」
)。
キーがマツチし、−意化可能情報フラグがあっても、辞
書属性内の継続フラグ(任期等)がないときは、固有名
詞属性内の任期、生存/死亡等を調べて、固有名詞承接
語の誤りを検定する(例えば「銘木首相」は「銘木前首
相」の誤りである)。
■ ■において、キーがマツチしても−意化可能情報フ
ラグがない場合(××x市)、同一キーの固有名詞部を
調べ、登録されているかを検定する(例えば「口中元首
相」は「元首相」によって固有名詞の一意化はできない
が、歴代の首相名を登録することによって、絞り込みや
誤り検出は可能である)。
■ ■、■において、検定の成否、誤り情報、誤りの場
合の訂正固有名詞候補・訂正固有名詞承接語候補の一覧
を修正者へ出力して確認、訂正を要求する。
■ 官僚名のように変更が頻繁に起こる場合に対処する
ため、同一固有名詞に関する固有名詞承接語の履歴を残
す一方、新規登録及び任期等の辞書属性の変更など、固
有名詞属性辞書の修正を固有名詞承接語をキーとして実
施する。
■ 固有名詞承接語が抽出されなければ、形態素解析に
より抽出された固有名詞をキーとして固有名詞属性辞書
を索引し、単語認定時の品詞等の属性の固有名詞が固有
名詞属性辞書内に存在するのかを検定し、複数あれば、
該当する各候補を抽出し、その一覧を修正者へ出力して
確認・訂正を要求する(例えば「横浜」〔行政区画、姓
名、地名〕)。
従来の技術とは、次の点で異なる。
■ 固有名詞と固有名詞承接語と、固有名詞の属性情報
を収集した固有名詞属性辞書を予め作成する。
■ 前記固有名詞属性辞書は索引および修正登録いずれ
も固有名詞承接語をキーとして行う点。
■ 固有名詞の実在性の検定だけでなく、固有名詞承接
語の妥当性の検定をも行う点。
(実施例) 第2図は本発明の構成例で、8は入力日本文の形態素解
析部、9は単語辞書、10は文法辞書、11は固有名詞
承接語抽出部、12は固有名詞承接語抽出部11で抽出
した固有名詞承接語によって固有名詞属性辞書13を索
引して固有名詞の検定を行う固有名詞検定部、13は固
有名詞属性辞書、14は前記固有名詞属性辞書13を修
正更新する辞書修正用端末、15は固有名詞検定結果確
認・訂正処理部、16は検定結果を集約する出力日本文
データベース、17は処理装置である。
本方式では、入力日本文文書の形態素解析により固有名
詞承接語を抽出し、この固有名詞承接語で前記固有名詞
属性辞書13を索引し、抽出した固有名詞と入力日本文
の固有名詞との照合を行う。
検定の結果は固有名詞検定結果確認・訂正処理部15で
修正者により修正用端末6を用いて修正する。固有名詞
辞書の属性を更新あるいは新規登録する場合は、辞書修
正用端末14を用いて行う。
第3図は固有名詞属性辞書の構成例(1)で、発明の構
成の項目■を示した実施例であり、固有名詞承接語だけ
で固有名詞の一意化ができないレコードについて示して
いる。
ここで、18は固有名詞承接語、19は一意化可能とな
る補助の固有名詞承接語、20は検定対象となる固有名
詞、21は一意化可能情報フラグ、22は一意化不能な
場合の情報フラグ(φ)、23は一意化可能な場合の情
報フラグ(1)である。
第3図の固有名詞辞書を用いた検定の実施例としては、 ■ 固有名詞属性辞書を後方の固有名詞承接語18で索
引してマツチした場合、−意化情報フラグ21がφであ
れば(22の例)、−意化できないので固有名詞の照合
を行う(例えばr神奈川大学」は「大学」だけでは−意
化できない)。
しかし、行政区画(県、市、町・・・)のように−意化
できないが、有限なものは全登録しているので、同じ固
有名詞承接語のレコード群で、固有名詞部の照合を行う
ことによって、固有名詞の妥当性を検定する(例えば「
用上村」は存在する)。
■ −意化情報フラグ21が1であれば(23の例)補
助の固有名詞承接語19を原文上の固有名詞前後におい
て探索し、存在しなければ■の処理を行い、存在すれば
固有名調の一意化の検定を行う(例えば「富野逗子市市
長」)。
第4図は固有名詞属性辞書の構成例(2)で、固有名詞
承接語だけで固有名詞の一意化が可能なレコードについ
て示している。
ここで、24は固有名詞に付与された属性情報、25は
人名、組織名等の固有名詞の存在/不在を示す属性フラ
グ、26は固有名詞の種別、27は国内外を示す属性フ
ラグ、28は固有名詞の役職の任期、会社の存続期間、
人間の生存期間等を示す属性。
29は固有名詞の有効フラグで、固有名詞の実在状況(
任期、生存、存続)が継続しているかあるいは無効かを
示す属性フラグ、30は固有名詞周辺の文字列の検定や
同形の固有名詞の属性の決定に用いるために適当に設定
するその他の属性フラグ、31は通常の記述形式のレコ
ード、32は前職を示す記述形式のレコードで、首相の
任期は終了したが。
「前首相」の役職名で新たに有効となり、継続であるこ
とを示している。33は固有名詞承接語の履歴表記の記
述形式である。
第4図の固有名詞属性辞書を用いた検定の実施例として
は、 ■ 固有名詞承接語18、補助の固有名詞承接語19を
キーとして前記固有名詞属性辞書13を索引し、固有名
詞20との照合を行う。
マツチした場合、−意化可能情報フラグ21は1で、固
有名詞の存在を示す属性フラグ25が「存在」を示して
おり、有効フラグ29が「継続」であるとき、固有名詞
の実在性が確認されて検定は成功する(例えばr中曽根
首相」)。
■ ■で、−意化可能情報フラグ21が1であっても、
有効フラグ29が無効のときで固有名詞20がマツチす
ると、誤りであると検定される(例えば「銘木首相」)
従って、この場合はさらに固有名詞で固有名詞属性辞書
13を索引して有効フラグ29が継続を示すレコードを
探索する。この場合、固有名詞承接語がr前首相」とな
るレコードが見つかるので、本例では固有名詞承接語の
誤りが検出されるほか訂正候補も抽出される。
■ ■、■の結果、固有名詞承接語のキーが非マツチあ
るいは、有効フラグ29が無効のレコードしか抽出され
ない場合、修正者に検定結果の確認、訂正を要求する 以上の実施例で示した固有名詞属性辞書は、役職名等の
固有名詞承接語をキーとする索引方法であるので、人事
異動により人名の変更が生じた場合でも、同様に更新を
行う。
すなわち、首相が「銘木」からr中曽根」に替わった場
合、「中曽根」の人名を固有名詞承接語「首相」で登録
し、有効フラグを継続とし任期開始日を投入する。
一方、従来の「銘木首相」のレコードの有効フラグを無
効とし、任期終了日を投入するほか、新たに」 「銘木
」を固有名詞承接語「前首相」で新規登録し、有効フラ
グを継続とする。
このように過去の履歴を保持するほか若干の操作で辞書
の更新が行えるなど、辞書の検定処理への対応が非常に
良い。
また、固有名詞承接語が抽出されなければ、形態素解析
により抽出された固有名詞をキーとして固有名詞属性辞
書を索引し、単語認定時の品詞等の属性の固有名詞が、
固有名詞属性辞書内に存在するのかを検定し、複数あれ
ば該当する各候補を抽出し、その一覧を修正者へ出力し
て確認、訂正を要求する(例えばr横浜」〔行政区画、
姓名、地名〕)。
このような構成および作用をするから、その効果として
は、 ■ 予め作成した固有名詞属性辞書を形態素解析により
単語認定した固有名詞承接語をキーとして索引し、固有
名詞の実在性の検定を行うので、処理負荷を大幅に削減
でき、検定速度を高速化できる、 ■ 固有名詞承接語の検定も行うので、総合的な固有名
詞の検定精度が向上する、 ■ 固有名詞をその固有名詞承接語と伴に登録し、その
属性を含めて固有名詞承接語で索引し更新できるので、
推移の激しい固有名詞でも容易に変更できるので、検定
処理への対応性が増し、総合的な処理速度が向上する、 という点で従来より改善があった。
(発明の効果) 以上説明したように、固有名詞と固有名詞の前後に承接
する固有名詞承接語とその固有名詞の属性情報を収集し
た固有名詞属性辞書を予め作成し、入力日本文文書の形
態素解析によってまず固有名詞承接語を索引し、この固
有名詞承接語、あるいは固有名詞をキーとして前記辞書
を索引して、−意化可能情報フラグがあれば固有名詞を
照合し、検定する。
この際、マツチしたが有効フラグが無効であれば、固有
名詞承接語の検定を行う。
一方、−意化可能情報フラグがなければ、固有名詞が登
録されているか調べる。
こうした検定結果を修正者へ出力して確認、訂正を求め
る。
また、固有名詞属性辞書は過去の履歴、新規登録、属性
の変更などを可能とする。
という各手段を有するのであるから、 ■ 予め作成した固有名詞属性辞書を固有名詞承接語を
キーとして索引し、固有名詞の実在性の検定を行うので
、処理負荷を大幅に削減でき、検定速度を高速化できる
、 ■ 固有名詞承接語の検定も行うので、総合的な固有名
詞の検定精度が向上する、 ■ 固有名詞をその承接語とともに登録し、その属性も
含めて固有名詞承接語で索引し更新できるので、推移の
激しい固有名詞でも容易に変更でき、検定処理への対応
が増し、総合的な処理速度が向上する、 という利点がある。
【図面の簡単な説明】
第1図は従来の固有名詞の検定方法、第2図は本発明の
構成例、第3図は固有名詞属性辞書の構成例(1)、第
4図は固有名詞属性辞書の構成例(2)である。 1 ・・・入力日本文文書、2 ・・・入力装置、3・
・・入力処理部、 4 ・・・入力日本文データベース、 5・・・文書出力部、  6・・・修正用端末、7・・
・各種固有名詞辞典あるいは資料、8・・・形態素解析
部、 9・・・単語辞書、10・・・文法辞書、 11・・・固有名詞承接語抽出部、 12・・・固有名詞検定部、 13・・・固有名詞属性辞書、 14・・・辞書修正用端末、 15・・・固有名詞検定結果確認・訂正処理部、16・
・・出力日本文データベース、 17・・・処理装置、18・・・固有名詞承接語、19
・・・補助の固有名詞承接語、 20・・・固゛有名詞、   21・・・情報フラグ、
22・・・−意化不能な場合の情報フラグ、23・・・
−意化可能な場合の情報フラグ、24・・・属性情報、 25・・・固有名詞の存在を示す属性フラグ、26・・
・固有名詞の種別、 27・・・国内外を示す属性フラグ、 28・・・任期等を示す属性、 29・・・有効フラグ、 30・・・その他の属性フラグ、 31・・・通常の記述形式のレコード、32・・・前職
を示す記述形式のレコード、33・・・履歴表記の記述
形式。 第1図 第2図 第3図

Claims (1)

  1. 【特許請求の範囲】 固有名詞と固有名詞の前後に承接する固有名詞承接語と
    前記固有名詞の属性情報を予め収集し、固有名詞承接語
    だけで固有名詞の一意化が可能である場合に、その旨を
    示す一意化可能情報フラグを付与して作成した固有名詞
    属性辞書と、単語辞書、文法辞書を用いて、入力日本文
    文書の単語認定を行う形態素解析部と、 単語認定された単語列から固有名詞承接語を抽出する固
    有名詞承接語抽出部と、 抽出した固有名詞承接語あるいは、固有名詞をキーとし
    て前出の固有名詞属性辞書を索引し、抽出した固有名詞
    と入力原文中の固有名詞との照合、検定を行う固有名詞
    検定部と、 これらの検定結果を用いて、修正者が確認、訂正を行う
    固有名詞検定結果確認・訂正処理部とから構成される日
    本文文書誤り検定装置であって、(1)固有名詞承接語
    をキーとして、固有名詞属性辞書を索引し、マッチした
    レコードに一意化可能情報フラグがあれば、固有名詞と
    の照合を行い、さらにそのレコードが過去の履歴を示す
    場合には、固有名詞承接語の検定を行う手段、 (2)(1)においてマッチしたレコードが一意化可能
    情報フラグを有しない場合、固有名詞が固有名詞属性辞
    書に登録されているかを検定する手段、(3)検定の成
    否、誤り情報、誤りの場合の訂正固有名詞候補・訂正固
    有名詞承接語候補の一覧を修正者へ出力し、確認・訂正
    を要求する手段、(4)同一固有名詞に関する固有名詞
    承接語の履歴を残し、固有名詞承接語をキーとして新規
    登録、辞書属性の変更を実施する手段、 の各手段を備え、 日本文文書データに含まれる固有名詞の誤りの検定を行
    うようにしたことを特徴とする日本文文書誤り検定装置
JP61238060A 1986-10-08 1986-10-08 日本文文書誤り検定装置 Expired - Lifetime JPH077415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61238060A JPH077415B2 (ja) 1986-10-08 1986-10-08 日本文文書誤り検定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61238060A JPH077415B2 (ja) 1986-10-08 1986-10-08 日本文文書誤り検定装置

Publications (2)

Publication Number Publication Date
JPS6394365A true JPS6394365A (ja) 1988-04-25
JPH077415B2 JPH077415B2 (ja) 1995-01-30

Family

ID=17024557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61238060A Expired - Lifetime JPH077415B2 (ja) 1986-10-08 1986-10-08 日本文文書誤り検定装置

Country Status (1)

Country Link
JP (1) JPH077415B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63163957A (ja) * 1986-12-26 1988-07-07 Sharp Corp 文書作成・校正支援装置
JPH0267675A (ja) * 1988-09-01 1990-03-07 Nec Corp かな漢字変換方式
JPH04290164A (ja) * 1991-03-19 1992-10-14 Hitachi Ltd 単語辞書方法
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63163957A (ja) * 1986-12-26 1988-07-07 Sharp Corp 文書作成・校正支援装置
JPH0267675A (ja) * 1988-09-01 1990-03-07 Nec Corp かな漢字変換方式
JPH04290164A (ja) * 1991-03-19 1992-10-14 Hitachi Ltd 単語辞書方法
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置

Also Published As

Publication number Publication date
JPH077415B2 (ja) 1995-01-30

Similar Documents

Publication Publication Date Title
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
Yerra et al. A sentence-based copy detection approach for web documents
Baron Dealing with spelling variation in Early Modern English texts
JPS6394365A (ja) 日本文文書誤り検定装置
JPS5856071A (ja) 日本語による検索システム
KR102338949B1 (ko) 기술문서 번역 지원 시스템
JP2005284776A (ja) テキストマイニング装置及びテキスト分析方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JPH05128159A (ja) キーワード抽出方法及び装置
JP3591109B2 (ja) キーワード設定装置
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
KR20000039406A (ko) 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP2574741B2 (ja) 言語処理方法
JP3109187B2 (ja) 形態素解析方式
JP3332142B2 (ja) 形態素解析装置とその方法
JP3233283B2 (ja) 日本文文章解析装置
JPS62247480A (ja) 文字認識後処理方式
JP2002297589A (ja) 未知語収集方法
JPH0540783A (ja) 自然言語解析装置
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JP2628775B2 (ja) 辞書作成装置
JPH02136959A (ja) 日本文訂正候補抽出装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term