JPS6118072A - 辞書デ−タの自動登録方式 - Google Patents

辞書デ−タの自動登録方式

Info

Publication number
JPS6118072A
JPS6118072A JP59137131A JP13713184A JPS6118072A JP S6118072 A JPS6118072 A JP S6118072A JP 59137131 A JP59137131 A JP 59137131A JP 13713184 A JP13713184 A JP 13713184A JP S6118072 A JPS6118072 A JP S6118072A
Authority
JP
Japan
Prior art keywords
registered
idiom
word
information
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59137131A
Other languages
English (en)
Inventor
Fumiyuki Yamano
山野 文行
Atsushi Okajima
岡島 惇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59137131A priority Critical patent/JPS6118072A/ja
Publication of JPS6118072A publication Critical patent/JPS6118072A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、第1言語から第2言語への翻訳処理やある言
語の解析処理等において必要となる単語辞書を効率よく
検索可能となるように自動的に椅成し得るようにした辞
書データの自動登録方式に関するものである。
〔発明の背景〕
従来から言語間の変換処理や言語の解析処理において、
辞書が用いられている。このような辞書は、処理精度の
向上に伴い、登録しである単語数、さらに単語に関する
品詞、訳語等の各種データが豊富になってくるため、既
に作成された辞書に新たなデータを追加登録する場合に
、既登録データと新規データとの整合性をチェックする
必要が生じる。特に、イディオムのように複数の単語か
ら構成されていて、その中の1つの構成単語にのみイデ
ィオム情報を登録するような場合、整合性のチェックは
複数個の単語データに及び、その処理は極めて複雑にな
る。さらに、整合性のチェックがうまく行なわれたとし
ても、ある特定単語情報の中にイディオム情報が集中し
て登録されることが想定される。このような場合、当該
単語データを検索情報として用いてイディオム認識の処
理を行なうとすれば、当該単語が現れる毎に高々1つの
イディオムの可能性を求めて、それ以外の無駄なイディ
オム認識の処理を行なうことになり処理効率の低下を招
くという問題がある。
〔発明の目的〕
本発明は、上記の点に鑑み、イディオム情報を辞書に登
録する際、イディオム認識の処理効率を一定レベルに保
つことを目的としている。
〔発明の概要〕
上記目的を達成するため、本発明はイディオム情報が既
に辞書に登録されていないかどうかという整合性のチェ
ックを自動的に行ない、未登録であれば、単語の出現頻
度情報に基づく登録禁止単語情報や品詞情報、さらに既
登録のイディオム個数に関する情報を用いて、イディオ
ム情報を辞書中の各単語に平均して登録する方法による
〔発明の実施例〕
以下、本発明を実施例を参照して詳細に説明する。  
             1一実施例として、英語か
ら日本語への翻訳処理を行なう際に必要となる英和辞書
への自動イディオム登録方式について述べる。
第1図において、1はプロセッサ、2は英和辞書メモリ
、3はメモリ、4は構成単語テーブル用メモリ、5はイ
ディオムテーブル用メモリ、6はキーボード等の入力装
置、7はディスプレイ装置を表している。
英和辞書メモリ2内には、英語の単語をキーとして、そ
の単語に関するイディオム情報、品詞情報、属性情報、
訳語情報等が格納されている。英和辞書メモリ2内の構
成は、例えば、特願56−189327に開示されたよ
うな形式で作成することが可能であり1品詞情報とイデ
ィオムの有無を示す情報、さらに、イディオム記述部や
品詞側詳細情報記述部から成る。具体的として、”T 
I M E″に関する辞書データは第2図のように示さ
れる。図中、8は登録キー、9は品詞情報とイディオム
の有無を示すエリア、11はイディオム記述部。
12は品詞側詳細情報記述部を示す。
以下、本発明に関するイディオムの自動登録方式につい
て説明する。
イディオムの自動登録は、第3図に示されるフローに従
って行なわれる。
(101)まず、登録するイディオム情報がキーボード
6より文字列としてメモリ3内に入力され、プロセッサ
1はイディオム情報中よりイディオムパターンを抽出し
、メモリ3内にセットする。
(102)続いて、当該イディオムパターンが既に英和
辞書メモリ2内に登録されているかどうかの認識を第4
図に示されるフロゴに従って行なう。まず、当該イディ
オムパターン中のスペースをチェックすることにより構
成単語に分割し、構成単語中に!記号や@記号が付加さ
れたものを除いて、構成単語テーブル4にセットする(
201)。
続いて、構成単語テーブル4にセットする(201)、
続いて、構成単語テーブル4中の各単語について順次以
下の処理をする。
(202)構成単語をキーとして、英和辞書メモリ2の
検索を行なう。登録単語であれば、構成単語テーブル4
に品詞情報と既登録イディオム個数をセットし、イディ
オム情報があればイディオムテーブル5にセットする。
未登録単語であれば、構成単語テーブル4中より当該構
成単語を抹消しく5) (205)の処理に移る。
(203,204)イディオムテーブル5がセットされ
ていれば、イディオムテーブル5中のすべてのイディオ
ムパターンについて、当該イディオムパターンと同じも
のがあるかどうかのマツチング処理をする。マツチング
処理は、字面上の一致・不一致を調べることにより可能
である。同じものであれば、(207)の処理へ移りメ
モリ3中の登録フラグをオンにして、第3図(102)
の処理に戻り、既登録としてすべての処理を終える。
(205)すべての構成単語について(202)以降の
処理が終わったかどうかチェックし、終わっていなけれ
ば(202)の処理へ移る。終わっていれば、(206
)の処理へ移りメモリ3中の登録フラグをオフにして、
第3図102の処理に戻り、未登録として(103)お
よび(104)の処理に移る。
(103)では、当該イディオム情報を登録する登録キ
ーを決定する。登録キーの決定方法は、第5図に示すフ
ローに従う。まず、メモリ3中の候補キーのエリアを空
白文字でクリアし、イディオム個数を比較する際に用い
るメモリ3中の変数MINに9999をセットする(3
01)。引き続き、構成単語テーブル4中のすべての単
語について以下の処理を緑り返す。
(302)構成単語が、第6図(A)の登録禁止単語テ
ーブル中にあるかどうかをチェックし、あれば(306
)の処理へ移る。なければ(303)の処理へ移る。こ
こで、登録禁止単語テーブル中のデータは、英文テキス
トにおける単語の出現頻度の高いものから抽出したもの
を用いる。
(303)構成単語が第6図(B)の禁止品詞を含むか
どうかをチェックし、含めば(306)の処理へ移る。
含まなければ(304)の処理へ移る。第6図中、AR
T、PRE、AUX、CNJ。
PRNは、それぞれ英語の品詞で冠詞、前置詞、助動詞
、接続詞、代名詞を示す。
(304)構成単語テーブル4を調べ、構成単語の有す
る既登録のイディオム個数がメモリ3中の変数MINの
値より小さいかどうかチェックし、小さければ(306
)の処理へ移る。大きければ、(305)の処理へ移る
(305)現在チェック中の構成単語をメモリ3中の候
補キーにセットする。
(306)すべての構成単語について(302)以降の
処理を終了したかどうかチェックし、終了していれば(
307)の処理へうつり、終了していなければ(302
)の処理へ戻る。
(307)メモリ3中の候補キーがセットされているか
どうかチェックし、セットされていれば第3図104の
処理へ移る。セットされていなければ(30B> の処
理へ移る。
(308)構成単語テーブル4中の最終の単語をメモリ
3中の候補キーとしてセットし第3図104の処理へ移
る。
(to4)では、イディオム情報の登録処理を行なう。
登録処理は、(103)で決定されたメモリ3中の候補
キーの有する辞書データ内のイディオム記述部に新規イ
ディオム情報を追加すればよい、その際に、イディオム
パターン中の登録キー該当単語は、不変化語であれば*
記号に、変化可能語(動詞1名詞)であれば十記号に置
換する。
併せて、イディオム登録個数を1つ増やす。
〔発明の効果〕
以上説明したごとく本発明によれば、イディオム情報の
ように辞書中の複数個の単語情報への登録の可能性があ
る場合の辞書データの登録において、当該イディオム情
報が既に辞書に登録されているかどうかを自動的にチェ
ックし、併せて、未登録であれば、登録すべき単語キー
を登録禁止単語テーブル、禁止品詞、既登録イディオム
個数を調べることにより決定し、イディオム情報を辞書
中の各単語に平均化して登録することを可能としており
、イディオム認識の処理効率を一定レベルに保つことが
できる。
【図面の簡単な説明】
第1図は、本発明の一実施例の構成を示すブロック図、
第2図は、本発明英和辞書メモリ中に格納されている単
語データの一例を示した説明図、第3図から第5図まで
は、本発明の一実施例の動作を説明するためのフローチ
ャート、第6図は、本発明の一実施例で用いられるテー
ブルデータの構成図であり(A)は登録禁止単語テーブ
ル、第 1 口 第 2 目 第 3 目 第4図 第  5  日 ENTE 補〜t −9999νする。 30? es    v、学1番デー九や・・ るか? N。 ′1″″′  い、4.−7、 ? O γjs   イイtt4kMMINよ。 −1\3L1か? h 30占 N。 第 6 図

Claims (1)

    【特許請求の範囲】
  1. 1、辞書に登録するデータが、辞書内の複数個の見出し
    語データに登録可能が形態を有する辞書へのデータ登録
    装置において、新規登録データと既登録データとを比較
    してデータの重複登録を防止する処理を行なうステップ
    と、新規登録データを登録する見出し語キーを、当該辞
    書に関する言語の使用頻度情報に基づく登録禁止単語テ
    ーブル、禁止品詞テーブル、さらに既登録のデータ個数
    情報を用いて決定する処理を行なうステップを有するこ
    とを特徴とする辞書データの自動登録方式。
JP59137131A 1984-07-04 1984-07-04 辞書デ−タの自動登録方式 Pending JPS6118072A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59137131A JPS6118072A (ja) 1984-07-04 1984-07-04 辞書デ−タの自動登録方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59137131A JPS6118072A (ja) 1984-07-04 1984-07-04 辞書デ−タの自動登録方式

Publications (1)

Publication Number Publication Date
JPS6118072A true JPS6118072A (ja) 1986-01-25

Family

ID=15191538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59137131A Pending JPS6118072A (ja) 1984-07-04 1984-07-04 辞書デ−タの自動登録方式

Country Status (1)

Country Link
JP (1) JPS6118072A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271056A (ja) * 1986-05-20 1987-11-25 Ricoh Co Ltd 翻訳装置における辞書登録方式
JPS62271057A (ja) * 1986-05-20 1987-11-25 Ricoh Co Ltd 翻訳装置における辞書登録方式
JPS62297972A (ja) * 1986-06-17 1987-12-25 Nec Corp 翻訳辞書自動生成方式
JPS635470A (ja) * 1986-06-25 1988-01-11 Nec Corp 翻訳学習方式
JPS6316370A (ja) * 1986-07-08 1988-01-23 Agency Of Ind Science & Technol 単語抽出システム
JPH01113871A (ja) * 1987-10-28 1989-05-02 Sharp Corp 機械翻訳装置
JPH0728852A (ja) * 1993-11-29 1995-01-31 Casio Comput Co Ltd 文字表示装置
JPH096795A (ja) * 1995-06-15 1997-01-10 Nec Corp 電子ブック装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271056A (ja) * 1986-05-20 1987-11-25 Ricoh Co Ltd 翻訳装置における辞書登録方式
JPS62271057A (ja) * 1986-05-20 1987-11-25 Ricoh Co Ltd 翻訳装置における辞書登録方式
JPS62297972A (ja) * 1986-06-17 1987-12-25 Nec Corp 翻訳辞書自動生成方式
JPS635470A (ja) * 1986-06-25 1988-01-11 Nec Corp 翻訳学習方式
JPS6316370A (ja) * 1986-07-08 1988-01-23 Agency Of Ind Science & Technol 単語抽出システム
JPH01113871A (ja) * 1987-10-28 1989-05-02 Sharp Corp 機械翻訳装置
JPH0728852A (ja) * 1993-11-29 1995-01-31 Casio Comput Co Ltd 文字表示装置
JPH096795A (ja) * 1995-06-15 1997-01-10 Nec Corp 電子ブック装置

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5680628A (en) Method and apparatus for automated search and retrieval process
Wacholder et al. Disambiguation of proper names in text
US5109509A (en) System for processing natural language including identifying grammatical rule and semantic concept of an undefined word
US8027966B2 (en) Method and system for searching a multi-lingual database
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
Chang et al. An unsupervised iterative method for Chinese new lexicon extraction
KR20050063815A (ko) 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
JPS6118072A (ja) 辞書デ−タの自動登録方式
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN109344393B (zh) 一种主干语句的提取方法及系统
JP2960936B2 (ja) 係り受け解析装置
JPH08106474A (ja) 類似例文検索結果表示方法及び装置
Gillard et al. The LIA at QA@ CLEF-2006.
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP3136973B2 (ja) 言語解析システムおよび方法
JP2902343B2 (ja) 言語解析システムおよび方法
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
JPH0561902A (ja) 機械翻訳システム
JP3884001B2 (ja) 言語解析システムおよび方法
JPS6368972A (ja) 未登録語処理方式
JPH0262659A (ja) 日本文訂正候補文字抽出装置