JPS63223871A - 辞書作成システム - Google Patents

辞書作成システム

Info

Publication number
JPS63223871A
JPS63223871A JP62057527A JP5752787A JPS63223871A JP S63223871 A JPS63223871 A JP S63223871A JP 62057527 A JP62057527 A JP 62057527A JP 5752787 A JP5752787 A JP 5752787A JP S63223871 A JPS63223871 A JP S63223871A
Authority
JP
Japan
Prior art keywords
dictionary
dictionary information
information
example sentence
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62057527A
Other languages
English (en)
Inventor
Takuo Oguchi
琢夫 小口
Hidefumi Kondo
近藤 秀文
Yoichi Hitano
披田野 陽一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62057527A priority Critical patent/JPS63223871A/ja
Publication of JPS63223871A publication Critical patent/JPS63223871A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は自然言語処理用の電子化辞書作成システムに関
し、特に例文から辞書情報を抽出する作業を支援する場
合に有効な、辞書情報作成システムに関する。
〔従来の技術〕
従来、電子化辞書の作成方式としては、良く知られてい
るように、作成作業者がサンプル文のKWICの(キー
ワード・イン・コンチクスト)データや冊子体辞書を参
照しながら、単語の辞書情報を特定のフォーマットの用
紙に書込み、この用紙を集めて一括して計算機に入力す
る方式が採られている。
なお、この種の方式に関しては、日本科学技術情報セン
ター、電子技術総合研究所1京都大学による「日−英科
学技術用語辞書データベースの開発に関する報告書」(
昭和59年3月)において論じられている。
〔発明が解決しようとする問題点〕
上記従来技術は、辞書情報作成作業者の記憶や言語知識
に強く依存しており、高品質な辞書を作成するためには
、能力と経験を有する作業者を必要とするものであった
。このため、作成する辞書が大規模になるにつれ、作業
者が不足したり、作業者自身の経時的変化や複数作業者
による作業分担等により、辞書の品質が不均質になり易
いという問題があった。
本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来の辞書作成方式における上述の如き
問題を解消し、辞書情報作成作業者の負担を軽減して、
正確な辞書情報を容易に作成できる環境を実現すること
により、大規模で均質、かつ、高品質な辞書の作成を可
能とする辞書作成システムを提供することにある。
〔問題点を解決するための手段〕
本発明の上記目的は、自然言語の計算機処理で使用する
辞書情報を作成・保守する計算機システムにおいて、外
部記憶装置上に、例文を蓄積した例文ファイルと前記各
例文毎に単語、熟語等の辞書情報を蓄積した辞書データ
ベースを、また、主記憶装置内に、前記例文ファイルお
よび辞書データベースの検索・更新プログラム、および
、検索した既存辞書情報の端末装置への表示と新規追加
辞書情報の端末装置からの取込みを行う対話画面制御プ
ログラムを設けたことを特徴とする辞書作成システムに
よって達成される。
〔作用〕
例文ファイルは、例文番号と例文および訳文を含むレコ
ードを蓄積するファイルであり、蓄積順にレコードを読
出すこと、および、例文番号をキーとして上記レコード
を読み書きすることが可能に構成されている。辞書デー
タベースは、例文番号と単語およびこれらに対応する辞
書情報を蓄積するテーブルであり、例文番号と単語を条
件として辞書情報の検索・追加・更新が可能に構成され
ている。上記例文ファイルおよび辞書データベースのア
クセスは、前記検索・更新プログラムによって行われる
対話図面制御プログラムは、初めに、作業者の例文番号
指示に従って、辞書情報を付与する例文を上記検索・更
新プログラムを用いて検索し、図 −面表示する6次に
、作業者が辞書情報を付与する単語を選択すると、その
単語に関する他の例文における既存の辞書情報を、辞書
データベースから検索し、また、対応する例文を例文フ
ァイルから検索する。この検索結果は一般に複数になる
ので検索・更新プログラムは内部に検索結果を保持する
バッファを有し、対話画面制御プログラムに1件ずつ検
索結果を返す。
作業者は画面に表示された既存辞書情報を参考にして、
新規辞書情報を画面上に作成する0作業者の指示により
、対話画面制御プログラムは、作成された新規辞書情報
を画面から取込み、検索・更新プログラムを用いて辞書
データベースに蓄積する。上述の一連の動作を繰り返す
ことにより、既存辞書情報と適合した新規辞書情報を作
成することが可能になり、均質な辞書データベース拡充
が可能となる。
〔実施例〕
以下、本発明の実施例を図面に基づいて詳細に説明する
第1図は本発明の一実施例を示す辞書作成計算機システ
ムの構成図である。図において、10は中央処理装置(
以下、rCPUJという)、11は主記憶装置、12は
外部記憶装置、13は表示画面とキーボードを有する端
末装置を示している。
上記外部記憶装置12内には、例文および訳文を蓄積す
る例文ファイル16と1作成した辞書情報を蓄積してお
く辞書データベース17が設けられている。また、主記
憶装置11内には、上記例文ファイル16と辞書データ
ベース17をアクセスする検索・更新プログラム15と
、端末装置13からの指示によって、検索した例文や辞
書情報の表示、端末装置13で作成された新規辞書情報
の上記検索・更新プログラム15への引渡しを行う対話
画面制御プログラム14が設けられている。
第2図は上記例文ファイル16の構造を示す図である。
例文ファイル16は、例文番号232例文24および訳
文25のフィールドから構成される例文レコード22か
ら成るファイルであり、順アクセスおよび例文番号23
をキーとする直接アクセスが可能であるものとする。
第3図は、例文から抽出した辞書情報を蓄積する辞書デ
ータベース17の構成を示すものである。
辞書データベース17は、辞書情報レコード32の集合
であり、辞書情報レコード32は、単語の変化形34、
単語の原形36.その変化のタイプ(語形変化)35、
品詞を表わすコード37.単語の意味の種類を表わす意
味コード38.意味の様態を表わす意味素性39.訳語
41、およびその単語が動詞であれば、文の構成を表わ
す格支配パターン40等の辞書項目と、更に、対応する
例文番号33(第2図の23参照)を格納するフィール
ドから構成される。
一般に、単語には複数の辞書情報があるが、一つの例文
に関しては、一つの用法が定められるものとする。辞書
データベース17は、単語の変化形や原形等をキーとし
て直接アクセスが可能であるものとする。
第4図(a)〜(d)は辞書情報作成者が作業を行う端
末装置13の表示画面13aを示す図である0本表示画
面13aには、既存辞書情報を表示するエリア13cと
、新規追加辞書情報を作成するエリアbおよびシステム
からのメツセージやガイダンスを表示するエリア13d
が設けられている。
以下、上述の如く構成された本実施例の動作を第5図に
示したフローチャートと、第6図に示した動作説明図を
用いて、第4図(a)〜(d)の表示画面と対応させて
説明する。
本実施例の計算機システムが起動されると、対話画面制
御プログラム14は、辞書情報作成作業者がステップ5
1で入力した操作要求の種別をステップ52〜55で判
断する。
操作要求が作業例文の表示であれば、ステップ52で検
出され、ステップ56に進む、ステップ56では、表示
画面L3a内のエリア13bに作業者が入力した例文番
号(図の例では、 000512番)を読込み、検索・
更新プログラム15が上記例文番号を条件として例文フ
ァイル16を検索し、例文レコード22を取出す、対話
画面制御プログラム14は、当該例文レコードの例文お
よび訳文を、表示画面13aの前記エリア13bの位置
に同時にあるいは個別に表示しく第4図(a)参照)、
ステップ51に戻る。
ステップ51で作業者が、例えば、例文000512中
の動詞rgoJを入力して、これに関する既存辞書情報
の検索を指示すると、この情報はエリア13cの辞書参
照キー欄に表示される(第4図(b)参照)。
そして、ステップ53で上記指示が検出されてステップ
57に進む。ステップ57では、対話画面制御プログラ
ム14が1表示画面13aのエリア13cの辞書参照キ
ーrgoJを読込み、検索・更新プログラム15が該辞
書参照キーを条件として、辞書データベース17を検索
する。
辞書データベース17内には、入力された辞書参照キー
を変化形34あるいは原形36として持つ辞書レコード
が複数存在するので、該当辞書レコードは前記主記憶装
置ll内の検索結果保持バッファ61(第6図参照)内
の辞書情報エリア64に格納しておく。上記検索結果保
持バッファ61は、検索された辞書レコードを格納する
情報エリア64と、その辞書情報に対応する例文レコー
ドを格納する例文エリア63の組62から成っている。
次に、検索・更新プログラム15は、検索結果保持バッ
ファ61内の辞書情報の例文番号を条件として例文ファ
イル16を検索し、該当する例文レコードを対応する例
文エリア63に格納して行く、検索結果保持バッファ6
1内の辞書情報に対応する例文がすべて例文エリア63
に格納されたならば、対話画面制御プログラム14は、
検索結果保持バッファ61の先頭の辞書情報と例文の組
62を一つ取出し、表示画面13aのエリア13cに、
既存辞書情報および用例文、訳文として表示しく第4図
(c)参照)、ステップ51に戻る。なお、このとき同
時に、システムからのメツセージ「辞書情報を表示しま
した」が表示される。
作業者が1表示された既存辞書情報を見て、不適当であ
ると考えた場合には、ステップ51で次の検索結果の表
示要求を行う、この要求はステップ54で検出され、ス
テップ58に進む、ステップ58では、ステップ57で
セットされている検索結果保持バッファ61を参照し、
次の辞書情報と例文の組を一つ取出して、表示画面エリ
ア13cに既存辞書情報および用例文、訳文として表示
し、ステップ51に戻る。
次に、新規辞書情報の作成および追加の手順について説
明する。作業者は、辞書情報作成中の作業例文が表示さ
れている表示画面13a上のエリア13bに、エリア1
3cに示された既存辞書情報を参照し、これを参考にし
ながら、新規辞書情報を表示画面13a上のエリア13
bに作成する。作成終了後、ステップ51で、新規辞書
情報の追加を指示すると、ステップ55で検出され、対
話画面制御プログラム14が、表示画面13a上のエリ
ア13bから、上で作成された新規追加辞書情報を読込
み、主記憶袋[11内の辞書情報バッファ65(第6図
参照)にセットする。
上記辞書情報バッファ65の構造は、第3図に示した辞
書情報レコード32の構造と同一である。検索・更新プ
ログラム15は、辞書情報バッファ65にセットされて
いる新規追加辞書情報を、辞書データベース17に登録
しくステップ59)、ステップ51に戻る。ステップ5
1での操作要求が操作終了であるとき、システムは停止
する。
上記実施例によれば、新規辞書情報を作成するときに、
関連する既存の辞書情報を作業者が随時参照できる。こ
れにより1作業者は、既存辞書情報と新規辞書情報との
差分だけに意識を集中して作業を行うことができるので
、作業者の負担の軽減および作業の高速化が図れる。
また、既存辞書情報から新規追加辞書情報に流用できる
辞書項目については、両者が同一画面上に表示されてい
るため、同様な用例に異なった辞書情報を与えてしまっ
たり、入力ミスにより誤った辞書情報を与えてしまう可
能性が減少することになり1作業時点や作業者の違いに
よって、辞書情報が不均質になることを避けることがで
きるという効果がある。
更に、辞書データベースを変化形や原形以外の辞書項目
を条件として直接アクセス可能としたことにより、例え
ば、ある意味素性を有する単語とその用例を画面に表示
することができ、辞書情報付与作業中の単語にその意味
素性を与えることが適当か否かを判断する上での参考と
なる等、高品質な辞書情報が作成できるようになるとい
う効果がある。
ところで、上述の如く苦心して収集した辞書情報、実現
した辞書構造が、外部に漏洩することは著しい損失と言
わなければならない。
従来は、これに対して特別に有効な対策もないまま、な
かば放置されていたのが実情である。しかし、これにつ
いても、本出願人は以下に述べる如き有効な漏洩防止方
法を開発した。
本漏洩防止方法は、要約すれば、辞書情報を構成する下
記の各条に関する一つの辞書情報表示要素および辞書の
物理的構造と、目的辞書のそれらとを異ならしめたもの
である。ここで、辞書情報とは、見出語、各種コード系
表示記号、コード構造および各種の言語的仕掛は群を指
す。
以下、これについて、より詳細に説明する。
電子計算機による自然言語処理に関する辞書情報は、見
出語、該見出語に関する言語的情報および知識的情報(
市販辞典は、通常、以上を「辞典情報」としている)、
これらの情報に関する各種コード系表示およびこれらの
コード系による言語的情報と知識的情報に関する、自然
言語の言語現象的に見出され、抽出された特定機能・情
報処理を表示する言語的仕掛は群から構成されている。
上記辞書情報は、市販辞典が備える辞典情報を最少限の
辞書情報とし、同時に上述の各種コード系表示と、更に
これらの各種コード系による言語的情報と知識的情報に
関する、自然言語の言語現象的に見出され、抽出された
特定機能・情報処理を表示する言語的仕掛は群が付与さ
れていることが重要な特徴である。なお、見出語と上記
各種コード系による言語的情報と知識的情報に関する、
自然言語の言語現象的に見出され、抽出された特定機能
・情報処理を表示する言語的仕掛は群とを合せたものを
、以下、「辞書情報表示要素」と呼ぶことにする。
発明者らの研究により、現在の言語学1文法学的知見と
その拡大、さらに新規な知見に基づけば、電子計算機に
よる自然言語処理を完全に実現するために不可欠なコー
ド系として、三十数種類が挙げられ、それに基づいて生
成される言語的仕掛けは百三十種類を越えることが判明
している。しかし、現在、自然言語処理システムの代表
例の如き存在となっている機械翻訳システムで公表され
ているコード系の種類は、高々、十数種類であり、言語
的仕掛けとしては子種類に満たない。
上述の各種コードとは、文字種9文字の大小。
記号表記種2品詞種、用言活用行、用言活用形。
意味概念、意味マーカないし意味ロール、意味素性(意
味的特徴)、形態的路程(表層格)、意味的路程2等で
あり、また、言語的仕掛けとは4語形構造、基本構文形
、格支配パターン等である。
以下に説明する漏洩防止方法においては、辞書情報のう
ちの、見出語と各種コード系表示の記号およびコード構
造、更に、各種言語的仕掛けから成る前述の辞書情報表
示要素と、辞書の物理的構造とを、言語解析工程におけ
るものと、目的辞書におけるものとで異ならしめている
第7図はその図式表現を示すものである。図において、
71は言語解析工程(辞書情報作成工程)、72は辞書
情報、辞書構造の加工・変換工程、73は目的辞書、7
4は他の辞書作成のための加工・変換工程、75は既存
辞書の辞書情報の収集機能、76は他の辞書への辞書情
報の提供機能、77.78.79は、各種の他の辞書群
を示している。
第8図は、第7図における前記多数の辞書情報のうちか
ら「品詞」コードを選択し、「品詞」コードについて本
漏洩防止方法を適用した゛場合に使用する「品詞」コー
ド変換用対応テーブルの構成を示すものである。第7図
からも明らかな如く、言語情報、知識情報に関する言語
解析工程71において、言語解析者は、所与の文章中の
客語に、ある一定の仕様に合致するように、第8図に示
す「品詞」コード変換用テーブルの「元辞書」欄に記載
されている「品詞」コードを付与して行く。この場合、
第7図に記載の言語解析工程71においては、「元辞書
」の「品詞」コード群のみを所与の文章の客語に付与し
て行くが、「目的辞書」の「品詞」コードは言語解析工
程71の担当者には知らしめないことが必要である。
次に、本漏洩防止方法における加工・変換工程72にお
いては、1元辞書」の「品詞」コードが、計算機的に良
く知られたパターンマツチング法により検知された後、
第8図に示した「品詞」コード変換用テーブルにおいて
「目的辞書」コードに変換されて付与し直される。この
ようにして、1元辞書」において付与された「品詞」は
、すべて「目的辞書」においては置換されていることに
なる。
なお、上記加工・変換工程72におけるコード変換は、
「品詞」コードに限られるものではなく、見出語自身の
語形変換や、「意味」、「格」、「文法機能」のコード
系およびこれらによってコード表示された各種の辞書情
報すべての変換にも、適用されることは言うまでもない
上記漏洩防止法によれば、辞書情報作成工程における辞
書情報のうちの、見出語と各種コード系表示の記号およ
びコード構造、更に各種言語的仕掛は群から成る辞書情
報表示要素および辞書の物理的構造と、目的辞書のそれ
らとを異ならしめたので、目的辞書の辞書情報、辞書構
造は、最も漏洩が大きいと考えられる工程に対して、対
処することが可能であり、今後、ますます増大する自然
言語処理用辞書の法的権利保護に大きな効果があるもの
と考えられる。
〔発明の効果〕
以上、詳細に述べた如く、本発明によれば、自然言語の
計算機処理で使用する辞書情報を作成・保守する計算機
システムにおいて、外部記憶装置上に1例文を蓄積した
例文ファイルと前記各例文毎に単語、熟語等の辞書情報
を蓄積した辞書データベースを、また、主記憶装置内に
、前記例文ファイルおよび辞書データベースの検索・更
新プログラム、および、検索した既存辞書情報の端末装
置への表示と新規追加辞書情報の端末装置からの取込み
を行う対話画面制御プログラムを設けたことにより、辞
書情報作成作業者の負担を軽減し、正確な辞書情報を容
易に作成できる環境を実現して、大規模で均質、かつ、
高品質な辞書の作成を可能とする辞書作成システムを実
現することができるという顕著な効果を奏するものであ
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示す辞書作成計算機システ
ムの構成図、第2図は例文ファイルの構造を示す図、第
3図は辞書データベース17の構成を示す図、第4図(
a)〜(d)は端末装置の表示画面を示す図、第5図は
実施例の動作を示すフローチャート、第6図は実施例の
動作説明図、第7図は辞書情報漏洩防止法の図式表現を
示す図、第8図はその具体例であるコード変換用対応テ
ーブルの構成を示す図である。 第   1   図 第   5   図 第6図 第   8   図

Claims (1)

    【特許請求の範囲】
  1. 1、自然言語の計算機処理で使用する辞書情報を作成・
    保守する計算機システムにおいて、外部記憶装置上に、
    例文を蓄積した例文ファイルと前記各例文毎に単語、熟
    語等の辞書情報を蓄積した辞書データベースを、また、
    主記憶装置内に、前記例文ファイルおよび辞書データベ
    ースの検索・更新プログラム、および、検索した既存辞
    書情報の端末装置への表示と新規追加辞書情報の端末装
    置からの取込みを行う対話画面制御プログラムを設けた
    ことを特徴とする辞書作成システム。
JP62057527A 1987-03-12 1987-03-12 辞書作成システム Pending JPS63223871A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62057527A JPS63223871A (ja) 1987-03-12 1987-03-12 辞書作成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62057527A JPS63223871A (ja) 1987-03-12 1987-03-12 辞書作成システム

Publications (1)

Publication Number Publication Date
JPS63223871A true JPS63223871A (ja) 1988-09-19

Family

ID=13058217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62057527A Pending JPS63223871A (ja) 1987-03-12 1987-03-12 辞書作成システム

Country Status (1)

Country Link
JP (1) JPS63223871A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5289376A (en) * 1989-11-20 1994-02-22 Ricoh Company, Ltd. Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5289376A (en) * 1989-11-20 1994-02-22 Ricoh Company, Ltd. Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus

Similar Documents

Publication Publication Date Title
US6163775A (en) Method and apparatus configured according to a logical table having cell and attributes containing address segments
JPS619753A (ja) 文書処理装置における頻発熟語の自動登録方法
JPS63223871A (ja) 辞書作成システム
JPS60176169A (ja) 文章処理装置
JPH05250416A (ja) データベースの登録・検索装置
JP2831837B2 (ja) 文書検索装置
JPH07114565A (ja) 電子辞書
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH0353378A (ja) 同音異字および異字同音の姓を検索する氏名検索方式
JPH0237466A (ja) 情報処理システム
JP2707565B2 (ja) 文書表示装置
JP2666289B2 (ja) 辞書の編集装置
Boyce Minisis
JP2864418B2 (ja) 文書処理装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JP3226913B2 (ja) 自然言語処理用辞書の辞書表示・編集装置
JPH0623973B2 (ja) 文字処理装置の頻度変更方式
JPH09212520A (ja) 電子化辞書装置
JPH10198693A (ja) 住所録管理装置及び住所録管理方法
JPS63148369A (ja) 文書呼出し方式
JP2007133505A (ja) 情報検索支援システム、情報検索支援方法及び情報検索支援プログラム
JPH0916620A (ja) 索引検索システム
JPH02297279A (ja) 登録次符号表示機能付き文書処理装置