JPS62139076A - 言語解析方式 - Google Patents

言語解析方式

Info

Publication number
JPS62139076A
JPS62139076A JP60279121A JP27912185A JPS62139076A JP S62139076 A JPS62139076 A JP S62139076A JP 60279121 A JP60279121 A JP 60279121A JP 27912185 A JP27912185 A JP 27912185A JP S62139076 A JPS62139076 A JP S62139076A
Authority
JP
Japan
Prior art keywords
analysis
stored
result
language
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60279121A
Other languages
English (en)
Other versions
JPH0345421B2 (ja
Inventor
Akihiro Hirai
平井 章博
Hideaki Shinohara
篠原 英彰
Yoichi Hitano
披田野 陽一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP60279121A priority Critical patent/JPS62139076A/ja
Publication of JPS62139076A publication Critical patent/JPS62139076A/ja
Publication of JPH0345421B2 publication Critical patent/JPH0345421B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、言語を解析するための解析方式に係り、特に
、自然言語で記述された文章の解析を効率良く行う言語
解析方式に関するものである。
〔発明の背景〕
従来の言語解析の方式、例えば、長尾真纒″言語の機械
処理′ (1984)の第3章で論じられている方式で
は、処理は一文単位で実行され、複数の文を順に解析す
る場合でも、前文までの解析結果は利用されず、既出の
文節と同一の文節が現れても、単語への分割等の解析処
理のすべてを最初から実行しなければならなかった。そ
のため、複数の文を順に解析する場合、文の数に比例し
た処理の手段を要し、処理効率が悪い、という問題があ
った。
〔発明の目的〕
本発明の目的は、かかる従来方式の問題点を解決し、複
数の文を順に解析する場合に、解析効率の向上する言語
処理方式を提供することにある。
〔発明の概要〕
本発明の言語処理方式は、自然言語の解析、あるいは、
翻訳を行う言語処理装置において、解析結果を記憶媒体
に格納し、次の文の解析の際、前文までの解析結果を利
用した解析処理の部分的省略を行うことにより、前記目
的を達成するものである。
〔発明の実施例〕
以下、本発明の一実施例を図に従って、詳細に説明する
。第1図は、本発明の実施例の言語処理システムである
ところの第1言語から第2言語への自動翻訳システムの
構成図である。ここでは、便宜上、第1言語を日本語、
!!52言語を英語とする。第1図に示すように、本発
明に係わる言語処理システムは、処理装置l、処理プロ
グラム、解析結果が格納される記憶媒体(1)2.辞書
データが格納される記憶媒体(2)3.処理すべき入力
文章が格納される記憶媒体(3)4.表示装置5、キー
・ボード6より構成される。本言語処理システムは、記
憶媒体〔3〕4内の文を順に取り出し、記憶媒体〔2〕
3内の辞書データを利用しながら翻訳し、結果を表示装
置5へ出力する。
第2.3.4図に本発明による解析方式の流れを示す。
第5図は人力文章の例、第6図は格納された解析結果の
例を示しており、第7図は入力文の単語分割処理の実例
((a)は部分列への分割、(b)は単語分割の結果を
示す図である)、第8図は解析結果の別の格納形式を示
す図である。ff16.8図に示すように、本実施例で
は、解析結果は5文節が助動詞列が一つの単位として格
納され、格納される情報は、各単位の文中での表記(以
降、これを見出し文字列と呼ぶ)、各単位を構成してい
る単語の文中での表記2品詞、活用情報(活用形。
活用の種類)等の辞書データである。なお、第6゜7.
8図における2文字の英文字から成るコードは品詞コー
ドである。
日本語を英語に自動翻訳するためには、最初のステップ
として、ベタ書きで書かれた漢字かな混じり文を単語に
分割しなければならない、この単語分割の処理を本発明
の実施例として、W52,3゜4図に従って説明する。
今、第5図に示す文章が記憶媒体〔3〕4に格納されて
おり、解析処理は第1番目の文が終了したところだとす
る。この時点で、第1f3目の文の解析結果が第6Aに
示す形式で記憶媒体〔1〕2に格納される。そして、第
2fi目の文の解析処理が実行される(101)。
解析の最初として、処理対象の文を、格納されている解
析結果の利用可能な部分列とそうでない部分列とに分離
する(102)。具体的には、格納された解析結果の見
出し文字列と一致する部分列を解析結果の利用可能な部
分列とみなす。その結果、!!52番目の入力文は第7
図(a)のようになる。ただし、斜線の部分が解析結果
の利用可能な部分列である。次に、分離した部分列中の
未処理の部分列の内、先頭のものを取り上げ(これを部
分列aとする)(103)、部分列aが解析結果の利用
可能な部分列であれば(104)、第4図■の処理(1
05)を、そうでなければ、第3図(1)の処理(10
6)を実行する。この処理を未処理の部分列が存在しな
くなるまで(107)繰返した後、解析結果(f57図
(a)の解析結果は第7図(b))を記憶媒体〔l〕2
に格納する(108)。解析結果の格納は、文節か助動
詞列を一つの単位として行うが、同一の見出し文学列を
持つ解析結果の単位に関しては、格納処理を行わない。
以上の処理を、未処理の文がなくなるまで(109)繰
り返す。
次に、■の処理について、第3図に従って説明する。こ
の処理は、格納されている解析結果が利用できない部分
列に対するものであり、最初に、最長一致を原則とした
単語の切出しを(この単語をWとする)その部分列に関
して行う(201)。
例えば、第7図(a)の先頭の部分列に関しては、″そ
して″が切出される。ただし、切出した単語が活用のあ
る語の場合は、話尾変化も含めて切出す。次に、切出し
た単語が前方の語と接続可能であるかチェックする(2
02)、接続可能であるならば、切出した語の後方の語
を最長一致の原則で切出しく203)、その品詞を基準
とし、後方接続の可能性をチェックする(204)。接
続可能であれば、単語の認定を行う(205)。前方接
続、あるいは、後方接続が不可の場合、単語Wの切出し
、認定を棄却し、同一部分列から別の単語を切出しく2
07)、前方接続可能性のチェックからやり直す。また
、207の処理が不可能ならば、単wIWの直前の単語
の切出し・認定を棄却し、(1)の処理をやり直す(2
08)。ただし、単語Wが文頭の語の場合、処理のやり
直しが出来ないため、単語分割処理は失敗したとする。
このような処理を未解析の文字列がなくなるまで(20
6)、繰り返して、+Tlの処理は終了する。
なお、第7図(a)の先頭の部分列に関しては、(1)
の処理により、″そして″が接枝詞、″、″が読点であ
ると解析される。
(bの処理について、第4図に従って説明する。
この処理は、格納されている解析結果が利用可能な部分
列に対するものである。!&初に、格納されている解析
結果から得られるその部分列の先頭の単語の品詞を井準
に、前方接続可能性のチェックを行う(30+)。第7
図(a)の第2番目の部分列に関しては、パ、″と゛太
部″の接続可能性のチェックが、301の処理に対応す
る。接続可能ならば、後方の部分列より、単語を最長一
致の原則を用いて切出し、その品詞情報を得、該部分列
の最後尾の単語との後方接続可能性のチェックを行う(
303)、第7図(、)の第2fi目の部分列に関して
は、″は″と′″栗″接続可能性のチェックを行うこと
になる。接続可能ならば、(≧1の処理は終了する。た
だし、前方接続不可の場合、該部分列に対応する解析結
果を棄却し、(I′1の処理を実行する(30’l)、
また、後方接続不可の場合は、該部分列の最後尾の単語
に対応する解析結果を棄却し、+工)の処理を実行する
(305)。
なお、記憶媒体の容量の制限のため、解析結果のすべて
を格納できない場合は、解析結果の得られた時間を基準
に優先順位をつけ、新しい解析結果が常に保持されるよ
うにすると、優先順位を付けない場合と比較して、処理
効率が良くなる。
また、第8図に示すような形式で解析結果の格納を行え
ば、すなわち、解析結果の構成要素となるべき情報の格
納番地を示す情報により、解析結果を表現すれば、同一
要素に対して、−重に記憶領域を確保する必要が無く、
解析結果の記憶効率が良くなり、全体の処理効率も向上
する。
〔発明の効果〕
以上、本発明の実施例につき説明したが1本発明によれ
ば、同一の文字列の解析処理を省略が可能となるため、
複数の文の解析処理の効率を向上せろことが出来る。特
に、繰返し表現の多い文章、文の終わり方にくせのある
文章の解析には、大きな効果を得ることができろ。
【図面の簡単な説明】
第1図は本発明による言語処理システム全体の構成図、
第2.3.4図は本発明による解析処理の流れを示す図
、第5図は人力文章の例を示す図、第6図は格納された
解析結果の例を示す図、第7図は単語分割の実行を示す
図、第8図は解析結果の別種の格納形式を示す図である
。 l・・・中央処理装置、2・・・記憶媒体〔1〕、3・
・・記憶媒体(2)、4・・・記憶媒体〔3〕、5・・
・表示装置、6・・・キー・ボード。

Claims (1)

  1. 【特許請求の範囲】 1、解析結果を保持するための記憶媒体を有する言語解
    析方式において、一単位の解析が終了し、解析結果が決
    定した時点で、その解析結果を記憶媒体に格納し、次の
    解析に該解析結果を利用することを特徴とする言語解析
    方式。 2、前記解析結果の格納を、その解析結果が、既に記憶
    媒体に格納されている解析結果と異なる場合だけ実行す
    ることを特徴とする特許請求の範囲第1項記載の言語解
    析方式。 3、前記解析結果に関し、時間的に新しいものを優先的
    に格納・保持することを特徴とする特許請求の範囲第1
    項、あるいは、第2項記載の言語解析方式。 4、前記解析結果を、その構成要素の格納番地を示す情
    報により保持することを特徴とする特許請求の範囲第1
    項、あるいは、第2項、あるいは、第3項記載の言語解
    析方式。
JP60279121A 1985-12-13 1985-12-13 言語解析方式 Granted JPS62139076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60279121A JPS62139076A (ja) 1985-12-13 1985-12-13 言語解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60279121A JPS62139076A (ja) 1985-12-13 1985-12-13 言語解析方式

Publications (2)

Publication Number Publication Date
JPS62139076A true JPS62139076A (ja) 1987-06-22
JPH0345421B2 JPH0345421B2 (ja) 1991-07-11

Family

ID=17606719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60279121A Granted JPS62139076A (ja) 1985-12-13 1985-12-13 言語解析方式

Country Status (1)

Country Link
JP (1) JPS62139076A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203276A (ja) * 1986-03-03 1987-09-07 Nec Corp 形態素解析装置
JPS63255773A (ja) * 1987-04-14 1988-10-24 Fujitsu Ltd 機械翻訳装置
JPS6417152A (en) * 1987-07-13 1989-01-20 Nippon Telegraph & Telephone Analyzing method for modified proposition
JPH02140871A (ja) * 1988-11-22 1990-05-30 Matsushita Electric Ind Co Ltd 日本語解析装置
JPH06318202A (ja) * 1993-05-06 1994-11-15 Sharp Corp 文書記憶方式及び文書管理方式並びに文書表示方式

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58192173A (ja) * 1982-05-07 1983-11-09 Hitachi Ltd 機械翻訳装置
JPS59183469A (ja) * 1983-03-31 1984-10-18 Fujitsu Ltd 機械翻訳装置
JPS59197929A (ja) * 1983-04-25 1984-11-09 Ricoh Co Ltd カナ漢字変換処理装置
JPS61156466A (ja) * 1984-12-28 1986-07-16 Ricoh Co Ltd 単語抽出方式
JPS61260366A (ja) * 1985-05-14 1986-11-18 Sharp Corp 学習機能付機械翻訳システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58192173A (ja) * 1982-05-07 1983-11-09 Hitachi Ltd 機械翻訳装置
JPS59183469A (ja) * 1983-03-31 1984-10-18 Fujitsu Ltd 機械翻訳装置
JPS59197929A (ja) * 1983-04-25 1984-11-09 Ricoh Co Ltd カナ漢字変換処理装置
JPS61156466A (ja) * 1984-12-28 1986-07-16 Ricoh Co Ltd 単語抽出方式
JPS61260366A (ja) * 1985-05-14 1986-11-18 Sharp Corp 学習機能付機械翻訳システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203276A (ja) * 1986-03-03 1987-09-07 Nec Corp 形態素解析装置
JPS63255773A (ja) * 1987-04-14 1988-10-24 Fujitsu Ltd 機械翻訳装置
JPS6417152A (en) * 1987-07-13 1989-01-20 Nippon Telegraph & Telephone Analyzing method for modified proposition
JPH02140871A (ja) * 1988-11-22 1990-05-30 Matsushita Electric Ind Co Ltd 日本語解析装置
JPH06318202A (ja) * 1993-05-06 1994-11-15 Sharp Corp 文書記憶方式及び文書管理方式並びに文書表示方式

Also Published As

Publication number Publication date
JPH0345421B2 (ja) 1991-07-11

Similar Documents

Publication Publication Date Title
US7236925B2 (en) Left-corner chart parsing
JPS6299865A (ja) 自然言語の共起関係辞書保守方法
JPH02165378A (ja) 機械翻訳システム
EP1078322B1 (en) System for creating a dictionary
US6535886B1 (en) Method to compress linguistic structures
JPS62139076A (ja) 言語解析方式
JP4573432B2 (ja) 漢字文における単語区分方法
JPS6033665A (ja) キ−ワ−ド自動抽出方式
Al-Khatib et al. A New Enhanced Arabic Light Stemmer for IR in Medical Documents.
KR20000039018A (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
KR0123238B1 (ko) 어절구조 특성을 이용한 형태소 분석 시스팀 및 분석 방법
JP2807236B2 (ja) 形態素解析方法
JPS59736A (ja) 構文解析方式
JP3136973B2 (ja) 言語解析システムおよび方法
JPS63221475A (ja) 構文解析方法
CN111967257B (zh) 一种分词方法、装置、电子设备和存储介质
JPS6126172A (ja) カナ漢字変換方式
JPH0320866A (ja) テキストベース検索方式
JPS63138465A (ja) 構文解析装置
JP3884001B2 (ja) 言語解析システムおよび方法
JPS6337472A (ja) 冠詞設定方式
JPS6324458A (ja) 自然言語処理装置
JPH02105968A (ja) 日本文誤り自動検定・訂正方式
JPS61282966A (ja) 仮名漢字変換方式
JPH0833890B2 (ja) 自然言語名詞句解析装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term