JPS63106074A - 形態素解析における行末ハイフンの処理方式 - Google Patents

形態素解析における行末ハイフンの処理方式

Info

Publication number
JPS63106074A
JPS63106074A JP61252600A JP25260086A JPS63106074A JP S63106074 A JPS63106074 A JP S63106074A JP 61252600 A JP61252600 A JP 61252600A JP 25260086 A JP25260086 A JP 25260086A JP S63106074 A JPS63106074 A JP S63106074A
Authority
JP
Japan
Prior art keywords
hyphen
dictionary
line
processing
present
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61252600A
Other languages
English (en)
Inventor
Toshihiko Yokogawa
横川 壽彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61252600A priority Critical patent/JPS63106074A/ja
Publication of JPS63106074A publication Critical patent/JPS63106074A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 抜東分裏 本発明は、英文における行末のハイフンの処理方式に関
し、英文の解析、英文を日本語に翻訳する機械翻訳等に
適用可能なものである。
災米技嵐 英文等において行末にハイフンがある場合、ハイフンを
付けたままで辞書引き等の処理をすると、。
実は、1語が2行にわたったがためのハイフンであると
すれば、未知語(辞書にない語)と認定されて誤まった
処理が進んでいく、また、行末のハイフンは、1語を分
けているだけだとして常に無視するとすると本当はハイ
フンが付いた語である場合に誤まってしまう、また、ハ
イフン無しの形と、ハイフン付きの形の両方を持つので
は、処理が複雑になり、また、誤まっている形も保持し
続けるので能率の悪いものとなってしまう。
1−一孜 本発明は、上述のごとき実情に鑑みてなされたもので、
特に1行末にハイフンがある場合、まず、ハイフンはな
いものとして辞書引きし、該当する語があれば、その結
果を正しいとし、辞書にない場合は改めてハイフン付き
の形で処理するようにし、もって、誤りの起こる可能性
を減らすことができるようにすることを目的としてなさ
れたものである。
遭−一」又 本発明は、上記目的を達成するために、行末にハイフン
が存在して次行に続いている単語について、最初に、ハ
イフンをなくした形で辞書引きし、エントリがあればそ
のエントリを採用し、なければ、ハイフンの付いたまま
の形を操用することを特徴としたものである。以下1本
発明の実施例に基づいて説明する。
ハイフン付きの語について、本出願人は、先に。
一旦、全体を1つのブロックとして切り出し、以降の処
理で全体をブロックとし、ハイフンをはずして各構成要
素を辞書引き単位とすることについて提案したが、本発
明は、そのうち、特に、ハイフンが行末にきた時1例え
ば、・・・ranti−(ハイフン)−)(改行) w
arJの時、まず、antivar (ハイフンなし)
で辞書引きし、辞書にエントリがあれば、anti −
warであるという可能性を考え、辞書にエントリがな
ければ、anti −warとして改めて普通のハイフ
ン語としての処理を行うようにしたものである。
第1図は、本発明による行末ハイフン処理方式の一実施
例を説明するためのブロック線図で、以下、英日機械翻
訳の英語解析システム中の形態素解析処理の一部として
実現した例について説明する。第1図において、1は入
力装置、2は入力文書ファイル、3は辞書ファイル、4
は入力文書整形済ファイル、5は検索済辞書情報ファイ
ル。
10は本発明による行末ハイフン処理部で、該行末ハイ
フン処理部10は、入力部11.処理部12、辞書検索
部13.制御部14.出力インターフェース15等から
成り、入力部11は文字列バッファを、また、処理部1
2は辞書情報保存テーブルを有しており、以下のように
動作する。
(1)入力部11の文字列バッファに、入力文書ファイ
ル2の内容または入力装置1により所望のデータを入力
する。
(2)処理部12において、文字列データを整形し、文
字列の最初の文字から順に検索キー文字列を検索し、こ
の検索キーを辞書検索部13に転送する。
(3)辞書検索部13は、上記検索キーに基づき辞書フ
ァイル3から辞書情報を呼び出し、これを処理部12に
転送し、該処理部12の辞書情報保存テーブルに記録す
る。
(4)記録されたデータは、出力インタフェース15を
介し、検索済辞書情報ファイル4に記録される。
(5)入力部11の文字列バッファのデータのうち、確
定したものは出力インターフェース15を介して入力文
書(!!形済)ファイル5に記録される。
(6)不確定なデータは、フローチャートの処理により
確定する。
(7)前記辞書検索(3)において不確定で検索キーに
応する辞書情報がなかった場合には、フローチャートの
処理により別の可能性をもつデータをもって確定し、確
定したデータを検索キーと前記(3)の処理を行う。
(8)前記辞書検索(3)において確実で、検索キーに
応する辞書情報がなかった場合には、「なかった」とい
う情報を辞書情報保存テーブルに記録する。
第2図は、本発明の動作説明をするためのフローチャー
トで、以下、該フローチャートに付した順番に従って説
明する。
上記の文書の開始位置から終了位置までを内部のバッフ
ァに読み込む、ただし、開始、終了位置は1例であり、
何らかの手段で知ることができればよい、内部バッファ
は1例えば、You、=−are−here、=on、
= =Sun−−pday、=afternoon、−
I−−−anti−−)var・・・の文字列となって
いる。
■ 理  文 の整形 内部バッファに読み込んだ文書に次の整形処理をする。
前記1→4の順に該当するものがなくなるまで繰り返す
、スペースは、タブ等を含む。
内部バッファは、  You−are、、here−o
n、=Sun−pday −afternoon 、 
−I −−−anti−−p war−どなる。
■辞  き tの リ し 文章(内部バッファ)の先頭から順に、英字・数字・ハ
イフン・ピリオド・アポストロフィ・1以外の文字で囲
まれた文字列を切り出す(但し、アポストロフィは開始
位置にほこない、)と表1のようになる。(以下、余白
) 表1 上記各切り出し単位を切り出した直後に、以下の、処理
を行う。
曵止児乳i 切り出された辞書引き単位文字列をキーに辞書を検索す
る。
エントリが辞書中にない場合は、更に次の条件で検索す
る。
の場合・・・末尾部分を除いて検索。
■先頭が大文字の場合・・・対応する小文字に変換して
検索。
■前記■及び■の複合 ただし、前記の一〇末尾の 、(ピリオド)を検索単位
からはずした場合は1.(ピリオド)を1つの切り出し
単位として認定し直す。
例えば、辞書引き単位の表1の 辞書引き単位に5un−−)day、 unti−−)
warのように−フを含む場合、 A、まず、ハイフン十改行をとり去った形で前記■の辞
書引きを行う。
5undayをキーに検索する。
B、エントリがある(検索に成功)場合、テキスト(内
部バッファ)中、及び、辞書引き単位よリーフを取り除
いて 内部バッファ°パ−5unday−°゛辞書引き単位 
5unday とし、その後、辞書情報の読み込みへ行く。
C,エントリがない(検索失敗)場合、テキスト(内部
バッファ)及び、辞書引き単より1を取り除いて 内部バッファ…−anti−war−…辞書引き単位 
anti−var とし、その後、前記■へ行く。
■ 書  の み゛み 表2は、内部の辞書引き単位と辞書情報対応のテーブル
を示すが、このテーブルから辞書情報を辞書引き単位毎
に読み込む。
表2 ■未登録語の処理 表3は辞書の内容を示しており、未登録語の場合はフラ
グを立てる。なお、図示辞書において、エントリは、各
単語の各変化形であり、1エントリに対して複数個の品
詞をもつ場合もある。
表3 以上の説明から明らかなように、本発明によると1行末
にハイフンがきた時、まず、ハイフンがないものとして
辞書引きし、該当する語があればその結果を正しいもの
とし、辞書にない場合は改めてハイフン付きの形で処理
するようにしたので、誤りの起こる可能性が少ないハイ
フン処理を行うことができる。
【図面の簡単な説明】
第1図は、本発明によるハイフン処理の一実施例を説明
するためのブロック線図、第2図は、第1図の動作説明
をするためのフローチャートである。 1・・・入力装置、2・・・入力文書ファイル、3・・
・辞書ファイル、4・・・入力文書整形済ファイル、5
・・・検索済辞書情報ファイル、10・・・行末ハイフ
ン処理部、11・・・入力部、12・・・処理部、13
・・・辞書検索部、14・・・制御部、15・・・出力
インターフェース。

Claims (1)

    【特許請求の範囲】
  1. 行末にハイフンが存在して次行に続いている単語につい
    て、最初に、ハイフンをなくした形で辞書引きし、エン
    トリがあればそのエントリを採用し、なければ、ハイフ
    ンの付いたままの形を採用することを特徴とする形態素
    解析における行末ハイフンの処理方式。
JP61252600A 1986-10-23 1986-10-23 形態素解析における行末ハイフンの処理方式 Pending JPS63106074A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61252600A JPS63106074A (ja) 1986-10-23 1986-10-23 形態素解析における行末ハイフンの処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61252600A JPS63106074A (ja) 1986-10-23 1986-10-23 形態素解析における行末ハイフンの処理方式

Publications (1)

Publication Number Publication Date
JPS63106074A true JPS63106074A (ja) 1988-05-11

Family

ID=17239619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61252600A Pending JPS63106074A (ja) 1986-10-23 1986-10-23 形態素解析における行末ハイフンの処理方式

Country Status (1)

Country Link
JP (1) JPS63106074A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02281373A (ja) * 1989-04-24 1990-11-19 Sharp Corp 機械翻訳装置におけるハイフン生成方法
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
JPH04195692A (ja) * 1990-11-28 1992-07-15 Toshiba Corp 文書読取装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02281373A (ja) * 1989-04-24 1990-11-19 Sharp Corp 機械翻訳装置におけるハイフン生成方法
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
JPH04195692A (ja) * 1990-11-28 1992-07-15 Toshiba Corp 文書読取装置

Similar Documents

Publication Publication Date Title
US4703425A (en) Language processing dictionary for bidirectionally retrieving morphemic and semantic expressions
US4862408A (en) Paradigm-based morphological text analysis for natural languages
US6493713B1 (en) Dictionary and index creating system and document retrieval system
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPH0724055B2 (ja) 単語分割処理方法
JP2000200291A (ja) 選択された文字列をテキスト内で自動検出する方法
JPS63254559A (ja) 複合ワードのためのスペリング援助方法
JPH0211934B2 (ja)
JPH09244969A (ja) パーソナル情報抽出方法及び装置
JPS6033665A (ja) キ−ワ−ド自動抽出方式
JPS63106074A (ja) 形態素解析における行末ハイフンの処理方式
Robertson et al. Searching for historical word-forms in a database of 17th-century English text using spelling-correction methods
JP3343941B2 (ja) 例文検索システム
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH02112069A (ja) 自動要約方式
JP3061772B2 (ja) 機械翻訳方法及び記録媒体
JPH04330565A (ja) 自然言語処理システム
JP2897191B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP2592995B2 (ja) 文節切出し装置
JPS6389976A (ja) 言語解析装置
JP3332142B2 (ja) 形態素解析装置とその方法
Singh Search algorithms
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH06161995A (ja) 氏名データ整形方法および装置