JPS63106867A - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JPS63106867A
JPS63106867A JP61251916A JP25191686A JPS63106867A JP S63106867 A JPS63106867 A JP S63106867A JP 61251916 A JP61251916 A JP 61251916A JP 25191686 A JP25191686 A JP 25191686A JP S63106867 A JPS63106867 A JP S63106867A
Authority
JP
Japan
Prior art keywords
unit
dictionary
analysis
specific meaning
dictionary lookup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61251916A
Other languages
English (en)
Inventor
Toshihiko Yokogawa
横川 壽彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61251916A priority Critical patent/JPS63106867A/ja
Priority to NL8702359A priority patent/NL8702359A/nl
Priority to DE19873733674 priority patent/DE3733674A1/de
Priority to FR8713742A priority patent/FR2604814B1/fr
Publication of JPS63106867A publication Critical patent/JPS63106867A/ja
Priority to US07/714,990 priority patent/US5225981A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は4語解析装置、とくに、たとえば自動翻訳装置
に有用な[1然言語を解析する言語解析装置に関する。
史木敷潰 例えば、英語から日本語に翻訳する英日翻訳装置におい
て日本語文を作成する場合、入力された英語文は形態素
解析、構文解析、訳語選択、訳文生成専の処理が行われ
る。
形態素解析は、まずケーえられた入力文字列を単語単位
に分割しなければならない。そしてこの分割は、構文解
析を行う上で非常に重要なものとなる。
例えば、時間的なことを表わすrSunday、 28
Jan、、 ’80Jといった文字列があった場合に、
これを重なる名詞、数詞の連続として解析すると、せい
ぜい同格表現とみて「日曜ト1.281月、80」程度
の訳が生成され、[°8o年1月26日の日曜日」とい
う意味的解析を導き出すことは困難である。
このように、ある特殊なパターンを持って結びついた文
字列が存在I7た場合には、通常の文に適用される規則
的な単語単位の分割処理をこの文字列に行うと誤った解
析をする危険性が高く、しかも意味の通じない翻訳文が
生成される可能性がある。
旦−一部 本発明はこのような従来技術の欠点を解消し、ある特殊
なパターンを持って結びつくことにより特定の意味を表
わす文字列について適切な形態素解析を行なうことので
きる言語解析装置を提供することを目的とする。
構  成 本発明は上記の目的を達成させるため、辞書引き単位ご
とに辞書データが格納された辞書手段と、入力された文
を辞書引き単位に分け、辞書引き単位について辞書手段
を参照して形態素解析を行う解析手段とを有する言語解
析装置において、解析手段は、ある特定の意味要素をも
つ辞書引き単位の連続がある規則からなる特定の意味を
表わす集合単位であることを識別し、特定の意味要素を
もつ連続の辞書引き単位を単一の解析単位とすることを
特徴としたものである。以下、本発明の一実施例に基づ
いて具体的に説明する。
第2図を参照すると、本発明による言語解析装置を英日
目動翻訳装置に適用した実施例の全体構成が示されてい
る。なお本発明は、英語を日本語に翻訳する英8 [1
動翻訳装置のみならず、ある言語を他の言語に翻訳する
際おもに、入力される8語の文を解析する如何なる言語
の解析装置にも効果的に適用されることは、言うまでも
ない。
同実施例は入力部10を有し、日本語に翻訳すべき英文
テキスト12がこれにより入力される。入力部10はた
とえば、莢数字キーなどの文字キーや機能キーなどを有
するキーボード、紙に記録された英文テキストを読み取
る光学的文字読取装盾(OCR) 、および(または)
磁気ディスクなどの記憶媒体に記録された英文テキスト
を読み込むファイル記憶装置などを含んでよい。
入力部10により入力された英文テキストは、前編集部
14に読み込まれ、翻訳の前処理が行なわれる。ここで
は、主どして文の認定と未知語の処理を行なう。これは
形態素解析の一部として機能する。
前編集された英文データは、前編集で得られた情報とと
もに形態素解析部IBに転送される。形態素解析部16
では、単語辞書18を索引して文に分割し、英文の形態
素を解析し、未知語の処理、固有名詞、時の表現、数の
表現などの各種のまとめあげを行ない、伺加疑問、同格
の認定などの文全体の処理を行なう。その形態素解析ル
ールは解析ルールファイル36に格納されている。
形態素解析された英文データは、形態素解析で得られた
辞書情報とともに構文解析1部20に転送される。構文
解析1部20は、文法ルールを英文データに適用して文
について表層構造の解析を行ない、すべての構文的可能
性を見つけ出す機能部である。
構文解析工部20で構文解析された英文データは、その
解析情報とともに構文解析II部22に送られる。ご−
こでは、構文解析Iによる表層的な構文解析結果から、
構造記述を適用して解を選択する。こねによって英語文
の確からしい解析木を作成し、その構造を作る。これら
の構文解析ルールはやはり、解析ルールファイル36に
格納されている。
構文解析された英文データは、解析木のデータとして構
造変換部24に転送される。構造変換部24では、英語
文の中間的構造である構文木から対応する[1本語文の
構文木を作成j7、日本語文を訳出1、やすい11木語
基底構造に変換する。
こうして構造変換された日本語の基底構造を示す構文木
データは訳文生成部26に送出され、後者にて訳文の生
成が行なわれる。これは、日本語の構文木の木構造から
11本語の文を生成する機能部である。
訳文生成された[1木語文データ、すなわち訳文データ
は、後編集部30に送られる。後編集部30では、翻訳
処理に利用した情報を使用し、辞書18を索引して訳文
データを修正し、より自然な日本語文を完成する。こ8
の11木語文データは出力部32に転送され、翻訳され
た1木語文34として出力部32から出力される。出力
部32は、たとえばプリンタ、ディスプレイ、および(
または)磁気ディスクなどのファイル記憶装置を含む。
これらの一連の翻訳処理の流れは、本装置全体の制御を
統括する制御部38によって制御される。
中詰辞書18には、本実施例では英語および日本語の単
語についての辞書データが格納され、諸量だけでなく、
係り関係すなわち共起関係や、意味、単複、品詞などの
様々な情報が記述されている。また解析ルールファイル
36には、形態素解析および構文解析のルールデータが
格納されている。
制御部38には、操作表示部40が接続されている。操
作表示部40は、操作者から本装置に様々な指示を与え
る、たとえば翻訳指示キー、カーソルキーなどの操作キ
ーや、入力英語文テキスト、翻訳結果の日本語文、辞書
情報などの中間データ、操作者に対する様々な指示など
を可視表示するディスプレイやインジケータを有する。
なお、それらの操作表示機能の多くは、入力部10にキ
ーボードを備えている場合はそのキーボードに、また出
力部32にディスプレイを備えている場合はそのディス
ブ!/イに含まれるように構成してよい。
第1図を参照するど、形態素解析部16の数の処理に関
する詳細な構成が例示されている。形態素解析部16は
、当然他の解析機能部も有するが、ここでは本発明の理
解に直接関連のある部分について示しである。
形態素解析部16は、 7iij編集部14から入力さ
れる入力文字列データを受けて入力処理をするだめの入
力処理部100を有する。入力処理部100には、例え
ば、ASCII等のコードデータの形で英文字文字列デ
ータが入力され、その文字列データを一時的に石積する
人力文字タクパッファが備えられている。
入力処理部100に一時的に蓄積された入力文字列デー
タを単語等の辞書引き単位に切り出す単位切出し部10
2に送られる。単位切出し部102は、後に辞書検索部
10Gにおいて辞書18を検索する際、その文字列を構
成する辞書引き単位を識別するm北部である。辞書引き
単位の切出し処理で使用される辞書引きデリミタは、英
文字、数字、アポストロフィ、ハイフンおよびピリオド
以外の文字、ならびに空白文字に続くアポストロフィの
位置に置かれる。これは、プリミツトテーブル1.04
に格納され、単位切出し部102で辞書引き単位の切出
しの際に参照される。
辞書1Bは、とくに切出し単4<lを検索するための情
報が格納されている。また、辞書18には1月名、曜日
名、数字のみを表わすX数、序数、ダラム等を表わす単
位、時刻、thc 、 ofl、(コンマ)1.(ピリ
オド)等の形態素処理情報が格納されている。
辞書検索部10Bは、単位切出し部1.02から入力さ
れる文字列に基づき、辞書lBを検索して辞8情報を取
り出し、これを形態処理情報付与部i08に転送する機
能部である。
形態処理情報付与部io8は、形態的特徴を持ったもの
の連続が時刻、年1月等の時間的な意味を持つことを示
す形態素処理付与情報(第4図)を持ち、辞書検索部1
06において基数や時間的な意味を含むと認定された文
字列にさらに具体化した情報が付与される。例えば「′
数字 数字」は「年」を意味するといった情報が付与さ
れる。
形IF処処理情報付郡部08においで情報が付与された
ものは、さらに必要な局所解析を行なう。
これは、局所解析用ルールを使用して、形態素起動情報
から起動される単語等の辞書引き単位のユニット連を−
っのユニットとしてまとめ−Lげる。例えば、「旧名」
、「数字表現」を「旧名十数字表現」つまりroctl
、「18」をrOct、18Jの一つにまとめ上げる。
その他、rNovember the2ndJ等の「旧
名士the+数字表現」、「22MarchJ ?(7
) r数字表現十旧名」、r the  23rdMa
y J等のr the+数字表現十月名」旧名the 
11thof JuneJ等のr the十数字表現+
of十月名旧名r’88.Jan、27. Maul等
のr年子、十月日十、+HEJ、rsuuday、28
 Jan、、19884等の「曜日十、十月日十、→−
年」、r 11:30 a、m、J等の「数字二数字+
a、mo、 (またはP、11.) Jや「旧名千年」
、「旧名士of十年」等を−っにまとめ−Lげる。
この局所解析の処理は、初期値設足部110、マツチン
グ検索部112、単位切出し部114.形態処理情報付
与部118、検索部118 、120 、処理部122
 、124と第5図に示したような数字と時間的要素か
らなるユニットの連続がある規則をもつ時間的要素の集
合単位であることを識別する識別対応表である形態素処
理指示テーブルを格納したマツチングテーブル128に
よって行なわれる。初期値設定部110は、前述したユ
ニット連である連続した辞書引き単位をマツチング検索
部112において検索するときのマツチングの辞書引き
単位数をカウントするカウンタnの初期値を設定する。
マツチング検索部112は、各辞書引き単位についてマ
ツチングテーブル128を検索し、マツチングを行なう
。単位切出し部114は、辞書検索部106において辞
書検索を終了した辞書引き単位をrPJとして、このr
PJと前述したカウンタnにより辞書検索を終了した辞
書引き単位rPJ以降の文字列を構成する辞書引き単位
を識別する。
検索部116は、辞書検索部IHと同様の機能をもち、
単位切出し部114で識別した文字列に基づき、辞書1
8を検索して辞書情報を取り出し、これを形態処理情報
付与部118に転送する機能部である。形態処理情報付
与部118は、形態処理情報付与部10Bと同様の機能
をもち検索部116において基数や時間的なものと認定
されたものについてさらに具体化した情報がH4される
検索部■20、処理部122および124は、マツチン
グ検索部112から形態処理情報付与部118を処理す
ることにより得られたr P+nJまでの連続した辞書
引き単位を一つの辞書引き単位にまとめ上げる。そして
この結果は、検索を終了した辞書情報を格納するバッフ
ァである辞書情報保存テーブル12Bに格納される。
形態素解析された結果は、辞書情報保存テーブル126
から構文解析1部20へ転送される。
次に、本発明の形態素処理情報によるまとめ上げ処理に
ついて第3A図および第3B図に示すフローチャートに
より説明する。
例えば、入力処理部100に次のような文字列が入力さ
れたとする(300) 。
入力文字列: rss26  Jan、、  ’80  h、ee*J
単位切出し部102は、辞書18を検索するために入力
文字列を辞書引き単位に切出す(302) 、この辞書
引き単位切出しにより、入力文字列の「26」が単位切
出しされる。入力文字列についての辞書引き単位切出し
が終了したかどうかを判断し、終了した場合は動作を終
? シ(304) 、途中の場合には次のステップ30
Bに進む。
辞書引き単位切出しされた入力文字列の「28」につい
て、辞書18を検索し、「26」が「基数、基数1であ
ることの辞書情報を取り出す(30B)。そしてこの「
基数、基数」が形態的特徴を持ったもの、つまり数字の
連続であり一つのまどまった基数として取り扱われると
いった形態素処理情報が伺与される(308)。辞書情
報を得たものがステップ308において形態素処理情報
が伺与されか否かを判断しく310) 、付領されたも
のについてはさらに局所解析ルールに基づく処理を行う
ステップ314に進み、付与されなかったものについて
は辞書情報保存アーブル126に記録され(312) 
、ステップ302にもどる。したがって形態素処理情報
が付グアされた「26」は、ステップ314に進む。
ステップ314による処理は、第3B図に示したフロー
チャートの動作に従って行われる。
まず、辞書引き単位をマツチング検索部112において
検索するときのマツチングの辞書引き単位数をカウント
するカウンタnに初期値の「0」を設足する(410)
。また辞書検索部10Bにおいて辞書検索を終rした辞
書引き単位をrpJとしているのでp+B (n=0)
番目の辞書引き単位、つまり「26」をマツチング検索
部112によりマツチングテーブル128を検索する(
412) 、r26Jは、ステップ308において基数
であるという形態素処理情報が付与されており、マツチ
ングテーブル128(第5図)の並びの項[1には2番
「1以降に「基数」が並びの最初になっているものが存
在していることからこの辞書引き単位「28」はマツチ
ングテーブル128の情報と等しくなりマツチしたこと
になる。このときマツチングテーブル128でマツチし
た2番目をrMsJとし、並びの最初が「基数」になっ
ている組合せの最後のデータをrMeJとして>Is〜
□Meについてのマツチングを行う。
p+n(n=0)番目の辞書引き単位でのマツチングテ
ーブル128のマツチングの結果、マツチしているか否
かを判断しく414) 、マツチしていると判断した場
合はステップ416に進み、マツチしていないと判断し
た場合はステップ424に進む。
マツチしていると判断した場合は、カウンタnに「1」
をたて入力文字列のpal (n=1)番目の辞書引き
単位の切り出しを行う。この切り出しは、ステップ30
2と同様の処理を行う。この処理によって、「26」の
次に辞書引き単位として切出しされた入力文字列のrJ
an、、Jについて辞書18を検索し、形態素処理情報
の付与がされる(420.422)。これらの処理は、
ステップ306およびステップ308と同様の処理を行
う。
以上のステップ412からステップ422を繰り返すこ
とによりr2B Jan、、 ’80 heJまでルー
プする。しかし、rheJについてはステップ412の
マツチングテーブル128とのマツチングにおいてマツ
チしないことから、ステップ414においてステップ4
24へ進む。つまりr 2B Jan、 、 ’80J
まではマツチングテーブル128の「基数 月 年」と
マツチするが、r2B Jan、、 ’80 he J
では”’F−7チしないことを意味する。
また、入力文字列が例えばr 2B Jan、 、80
」で文章が終了している、つまり次の辞書引き単位の9
Jり出しがない場合にはステップ418でステラブ42
4へ進む。
ステップ414でマツチしないと判断された場合は、カ
ウンタnが1以下か否かを判断しく424)、1以下の
場合は単独の辞書引き単位として辞書情報保存テーブル
126に記録する(434) 。
1以上場合は、P+TI (n=3) 、つまりr 2
B Jan、 。
’80heJの「he」を並びの終了を示すrEO9J
としてマツチングを行うC426,428)。マツチし
ない場合には、ステップ434に進み、マツチした場合
は、マツチングテーブル128のMsの並びに対応する
まとめ上げ結果に従って、辞書引き単位のp〜(p+n
−1)であるr2EI Jan、、 ’80Jをまとめ
上げて辞書情報保存テーブル128にその結果を記録す
る(430) 。
そして、(p+n−1)番目まで辞書引き単位が終了し
たとして(p+n−1)をrPJ とする(432)。
効果 本発明によれば、形態素解析において入力文字列中に年
月日、曜日の表現等、形態上特有のバターンを持つ連続
した文字列があった場合に、これらのパターンを捕えて
まとめ上げ、一つの単語と同等に扱うことができる。し
たがって、構文解析等においても一つの解析単位として
扱うことができるため、単なる名詞、数詞の連続として
誤った解析をすることがなく、解析を効率よく、正確に
行うことができる。
なお本発明は、時間的要素を持つパターンだけでなく、
例えばアドレスや電話番号等の特有のパターンを持つも
のにも適用することができる。
【図面の簡単な説明】
第1図は、第2図に示す実施例の形態素解析部の詳細な
構成例を示す機能ブロック図、第2図は、本発明による
言語解析装置を英日自動翻訳装置に適用した実施例の全
体構成を示す機能ブロック図、 第3A図および第3B図は、第1図示す実施例における
形態素解析処理の例を示すフロー図、第4図は、同実施
例における形態処理情報付与部108の情報テーブルの
内容の例を示す説明図、第5図は、同実施例におけるマ
ツチングテーブル128の内容の例を示す説明図である
。 主要部分のLサーの一輩叩 1B、、、、、、、形態素解析部 1B、、、、、、、辞書

Claims (1)

  1. 【特許請求の範囲】 1、辞書引き単位ごとに辞書データが格納された辞書手
    段と、 入力された文を辞書引き単位に分け、該辞書引き単位に
    ついて該辞書手段を参照して形態素解析を行う解析手段
    とを有する言語解析装置において、 前記解析手段は、ある特定の意味要素をもつ辞書引き単
    位の連続がある規則からなる特定の意味を表わす集合単
    位であることを識別し、前記特定の意味要素をもつ連続
    の辞書引き単位を単一の解析単位とすることを特徴とす
    る言語解析装置。 2、特許請求の範囲第1項記載の装置において、前記辞
    書手段は、ある特定の意味要素をもつ辞書引き単位を識
    別するデータを含み、 前記解析手段は、前記特定の意味要素をもつ辞書引き単
    位の連続がある規則からなる特定の意味を表わす集合単
    位であることを識別する識別対応表を有し、 前記解析手段は、入力された文に含まれるそれぞれの辞
    書引き単位について前記辞書手段を参照し、前記特定の
    意味要素をもつ辞書引き単位と識別されたときに前記識
    別対応表と照合することにより、前記特定の意味要素を
    もつ連続の辞書引き単位を単一の解析単位とすることを
    特徴とする言語解析装置。 3、特許請求の範囲第1項または第2項記載の装置にお
    いて、 前記解析手段は、前記特定の意味要素をもつ辞書引き単
    位の連続が特定の意味を示す一つの辞書引き単位を表わ
    していることを識別し、解析する辞書引き単位に形態的
    特徴を付与する形態要素付与手段を有することを特徴と
    する言語解析装置。 4、特許請求の範囲第1項ないし第3項のいずれかに記
    載の装置において、 前記特定の意味要素は、数字と時間的要素を含んでいる
    ことを特徴とする言語解析装置。
JP61251916A 1986-10-03 1986-10-24 言語解析装置 Pending JPS63106867A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP61251916A JPS63106867A (ja) 1986-10-24 1986-10-24 言語解析装置
NL8702359A NL8702359A (nl) 1986-10-03 1987-10-02 Taal analyse inrichting.
DE19873733674 DE3733674A1 (de) 1986-10-03 1987-10-05 Sprachanalysator
FR8713742A FR2604814B1 (fr) 1986-10-03 1987-10-05 Analyseur de langage
US07/714,990 US5225981A (en) 1986-10-03 1991-06-14 Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61251916A JPS63106867A (ja) 1986-10-24 1986-10-24 言語解析装置

Publications (1)

Publication Number Publication Date
JPS63106867A true JPS63106867A (ja) 1988-05-11

Family

ID=17229868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61251916A Pending JPS63106867A (ja) 1986-10-03 1986-10-24 言語解析装置

Country Status (1)

Country Link
JP (1) JPS63106867A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424765A (ja) * 1990-05-15 1992-01-28 Fujitsu Ltd 西暦自動認識方式

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59214979A (ja) * 1983-05-23 1984-12-04 Hitachi Ltd 言語変換方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59214979A (ja) * 1983-05-23 1984-12-04 Hitachi Ltd 言語変換方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0424765A (ja) * 1990-05-15 1992-01-28 Fujitsu Ltd 西暦自動認識方式

Similar Documents

Publication Publication Date Title
US5640575A (en) Method and apparatus of translation based on patterns
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5895446A (en) Pattern-based translation method and system
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS5892063A (ja) イデイオム処理方式
JPS63106867A (ja) 言語解析装置
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
JPS63109572A (ja) 派生語処理方式
JP2001357065A (ja) 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
JPS62163174A (ja) 機械翻訳装置
JPS6389976A (ja) 言語解析装置
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPS6389975A (ja) 言語解析装置
JP3921904B2 (ja) 翻訳文検索装置
JPH0821032B2 (ja) 言語解析装置
JPH0687239B2 (ja) 文字処理装置
Mollah et al. Automatic learning of the morphology of medical language using information compression
JPS63113668A (ja) 言語解析装置
JPH04282764A (ja) 非文訳出装置
JPH03130873A (ja) テキストベースの検索方式
JPH03129560A (ja) インデックス作成支援装置
JPH01258069A (ja) 日本語文字列の形態素解析方式
JPS6395572A (ja) 日本語文形態素解析における未知語処理方法
JPH03191472A (ja) 文解析装置及びこれを用いた機械翻訳装置