JPS61117658A - 文章抄録装置 - Google Patents

文章抄録装置

Info

Publication number
JPS61117658A
JPS61117658A JP59238871A JP23887184A JPS61117658A JP S61117658 A JPS61117658 A JP S61117658A JP 59238871 A JP59238871 A JP 59238871A JP 23887184 A JP23887184 A JP 23887184A JP S61117658 A JPS61117658 A JP S61117658A
Authority
JP
Japan
Prior art keywords
paragraph
terms
term
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59238871A
Other languages
English (en)
Inventor
Masato Kobe
正人 小部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59238871A priority Critical patent/JPS61117658A/ja
Publication of JPS61117658A publication Critical patent/JPS61117658A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文章抄録装置、特に文意をパラグラフ毎等の形
で順次分割し、該分割した各パラグラフ等中に存在する
文華位に用語を夫々分離して当該用語の使用頻度等に基
づいて文の重要度を夫々判別し、各パラグラフ毎に最重
要度の文を順次つなぐ形で抄録を自動的に編集する文章
抄録装置に関するものである。
(従来の技術と発明が解決しようとする問題点)科学文
献等が多く発行されている現今では、当該科学文献等を
構成する文章の抄録を迅速に編集することが望まれてい
る。
従来、科学文献の抄録を編集する場合、当該科学文献中
にアブストラクト等の形で全体の概要を記述した領域が
あれば、当該領域に記述されているアブストラクト等を
抄録とすればよい。
しかし、該アブストラクト等の形の抄録がない場合には
、当該科学文献中に現れた用語の使用鏝度の高いものを
いわゆるキーワード(重要用語)の形で記述することが
行われている。しかし、該キーワードの形の記述のみで
は、当該科学文献等の内容を充分理解することが困難で
あるという問題点があった。また、人が当該科学文献等
を読んで、抄録を一々編集していたのでは、多くの人手
と時間とが必要となってしまうという問題点があった。
c問題点を解決するための手段〕 本発明は、前記問題点を解決するために、文章をパラグ
ラフ毎等の形に順次分割し、該分割した各パラグラフ等
中に存在する文単位に用語を夫々分離して当該用語の使
用関度等に基づい(文の重要度を夫々判別し、各パラグ
ラフ毎に最重要度の文を順次つなぐ形で抄録をmlする
ことにより、文章の抄録を自動的に編集するようにして
いる。
そのため、本発明の文章抄録装置は、文章をパラグラフ
毎に分割し、当該分割したパラグラフ毎に代表となる文
を抽出することによって文章の抄録を編集する文章抄録
装置において、前記文章をタイトルおよびパラグラフに
分離するタイトル・パラグラフ分M装zと、該タイトル
 パラグラフ分離装置によって分離されたパラグラフ中
に存在する用語を抽出するパラグラフ内用語分析IIと
、該パラグラフ内用語分析装置によって抽出した用語の
頻度を各文語に夫々算出する頻出用語集計装置と、前記
パラグラフ内用語分析装置によって抽出した各パラグラ
フ内に存在する用語に対して与える点数を他のパラグラ
フ内に存在する用語に関連づけた形で修正するパラグラ
フ間用語比較装置と、前記パラグラフ内用語分析装置に
よって抽出された用語に対して与えられた点数を計算し
ないこととする用語を格納する除外用語記憶装置と、前
記頻出用語集計装置を用いて集計した用語のうち前記除
外用語記憶装置に記憶されている用語に対しては点数を
加算しない形で前記文語に点数の総和を算出する文の重
要度計算装置とを備え、該文の重要度計算装置によって
計算された総和の内、前記各パラグラフ中に存在する最
大の総和となる文を夫々抽出して出力することによって
抄録を編集することを特徴としている。
〔実施例〕
以下図面を参照しつつ本発明の実施例を詳細に説明する
第1図は本発明の1実施例構成図、第2図ないし第5図
は第1図図示本発明の1実施例構成の動作を説明する動
作説明図を示す。
図中、lはタイトル・パラグラフ分離装置、2はパラグ
ラフ内用語分析装置、3は頻出用!54A計装置、4−
1は用語と出現文一覧データ・ベース、4−2は除外用
語一覧テーブル、4−3はパラグラフ内頻出用語データ
・ベース、5はパラグラフ間用語比較装置、6は文の重
要変針n装置を表す。
M1図において、図中タイトル・パラグラフ分離装置l
は、抄録を作成しようとする図示文章ta+を後述する
如くタイトルおよび図示パラグラフfblO形に分離す
るためのものである。
図中パラグラフ内用語分析装置2は、前記タイトル・パ
ラグラフ分離装置lによって分離された各パラグラフ分
離装置に存在する文を構成する図示用!!(C1を夫々
抽出するためのものであるe Is油抽出た各用語fc
lは、図中用語と出現文一覧データ・ベース4−1に夫
々格納されると共に頻出用語集計装置3に通知される。
図中頻出用語集計装置3は、パラグラフ内用語分析装置
2から通知された用語(C1に対して夫々使用顧度を後
述する如く各文華位に集計するためのものである。咳四
計結果は図中パラグラフ内卯出用語データ ベース4−
3に格納される。また、後述する図中除外用語一覧テー
ブル4−2に記述されている除外用語に対しては、使用
頻度の集計を行わない。
図中パラグラフ間用語比較装置5は、前記パラグラフ内
卵出用語データ ベース4−3に格納したパラグラフ内
の各用語に対する使用頻度を直前の他のパラグラフ内の
ものと比較して当該使用頻度が増大した場合には、後述
する如く加算数を与えるためのものである。
図中文の重要度肝X装置6は、各パラグラフ中に存在す
る文単位に文の重要度を後述する如く夫々計算するため
のものである。該計算の結果、各パラグラフ中に存在す
る文の中で最も重要であると計算された文を、当該パラ
グラフを代表するキーセンテンスとして抽出する。そし
て、8亥キーセンテンスを集めたものが、図示抄録文t
d+の形で出力されるや 以上の如き構成を用いることによって、図示人力した文
章1alから各パラグラフ毎に最も重要であると判断さ
れた文(キーセンテンス)が夫々抽出され、当該抽出し
た各文を連ねた形の抄録文fd+が自動的に編集される
。以下第2図ないし第5図を用いて第1図図示構成の動
作を詳細に説明する。
第2図は第1図図中文章ia+の例をボ4°6図中■を
用いて示す“2.2.1論理通ずとネット・ノーク°は
タイトルであり、図中■および■を用いてポす31域は
夫々パラグラフil+および(2)である、ここで、タ
イトル゛2.2.1論理通信ネ7トワーク°は、当該パ
ラグラフ(節)で記述される内容を判り易い形で表現し
たものであり、後述する如(文の重要度を計算する場合
に点数が大きく設定される文に1亥当する。そして、パ
ラグラフ(1)および(2)等のパラグラフは、以下の
!lDき性質を備えている。
第1に、当該パラグラフ準位に重要なa念が述べられて
いる。これは、パラグラフ華位に重要な概念が述べられ
、順次パラグラフが進行するに伴い当該パラグラフに述
べられた概念が発展あるいは移行していくことを判別で
きる性質を瀘えていることを意味する。従って、後述す
る如く文章tarを当該パラグラフ単位に分割し、該分
割したパラグラフ箪位中に存在する文のうち最も重要な
文をキーセンテンスとして抽出する9義が存在する。
第2に、当該パラグラフ内に記述された用語の使用頻度
は、重要な概念に関連している。これは、各パラグラフ
中に存在する用語の使用頻度が記述しようとする重要な
概念に対応していることを意味する。従゛って、当該用
語の使用w度を文単位に夫々計算し、その結果から前記
最も重要な文をキーセンテンスとして抽出する手段が臀
意となる。
第3に、パラグラフが変わるに伴って当該パラグラフ中
に記述される概念の視点が動くため、頻出用語の一覧に
変化が現れる。これは、各パラグラフに記述される概念
と当該パラグラフ中で使用される用語の快用頻瓜との間
に相関が存在4゛ることを、0味し、第1図図中パラグ
ラフ内頻出用語データ・ベース4−3中に格納された各
パラグラフ毎に抽出された頻出用語の一覧テーブルを参
照することによって判明する。従って、当該パラグラフ
中に記述された概念の視点が変化していく状態(11!
移)を前記パラグラフ内頻出用語データ・ベース4−3
から把握して、当該文章の流れに追従した形でnjI記
最も重要な文を各バラクラフ中からキーセンテンスとし
て抽出することが可能となる。
このため、後述する如く、パラグラフの進展に11−い
使用頻度が増大した用語に対しては加19数を与えてい
る。
第3図は第2図図示文量telから当該文章のタイトル
およびパラグラフを夫々分離したものを示す。
1亥分離は第1図図中タイトル・パラグラフ分M装置l
によって行われる。
図中■は、第2図図中からタイトル°論理通信不、トワ
ーク”を分離した状態を示す、該分離は例えば節の番号
’2.2.1”等を参照してタイトルであることを判別
1ればよい。
図中■ないし■は、第2図図中からバラクラフfl+、
(2)ないしくn)を夫々分離した状態を示°4.該分
離は例えば文章中のいわゆる“段落” (改行)を目安
として判別すればよい。
?i4U!Jは第3図図中タイトルおよびパラグラフ中
から各用語を分析したものを示す、該分析は第1図図中
パラグラフ内用語分析装置2によって行0れる。また、
図中縦方向は、タイトルおよびバラクラフil+、(2
)ないしくnlを夫々示t0図中■を用いて示す”用語
゛(闇には、第3図図示タイトルおよびパラグラフ中か
ら分析された用語、例えば第3図図示パラグラフ+1+
中から夫ケ分析された“コンピュータダ、“プログラム
”等の用語か夫々示されている。該分析は全ての文章を
1語に分υ1し、部分7.lIした単語の内からいわゆ
る自立語を抽出する形で行われる。
図中■を用いて示す“1点数”欄には、″用語′欄■に
示した各用語に対して夫々与えられる点数を示す、該点
数は一般に“1点”を与えるが、重要な用語に対しては
大きな点数を与える0例えばタイトル中から分析された
用語例えば“論理通信ネットワーク゛に対しては、当該
用語が抄録を編集するのに重要であるので“5点°を与
える。また、各パラグラフ中の重要な用語、例えば°プ
ログラム”等に対しては“2点”を与える。これらの台
、数は、抄録を編集しようとする文章が1ffl信機関
係のものであるか、否か等に対応した形で予め設定して
おく。
図中[相]を用いて示す′カロ算数°憫には、直前のパ
ラグラフ中に存在する用語の数に封して当該パラグラフ
中に存在する用語の頻出数か増大した場合に、当該用語
に対して加算する点数を示す、該加算する点数は、第1
図図中パラグラフ間用語比較装置5によって行われるも
のであり、例えば図中Oを用いて示す°l”の如く与え
られる。これは、パラグラフ(2)中に存在する用語゛
通信”の頻出数“loが、直前のパラグラフ(1)中に
存在する頻出数10”よりも増大しているために与えら
れたものである。このように、パラグラフの進展に伴い
、頻出数の増大した用語に対して加算数を与えて、文章
中の各パラグラフに8ける概念の視点の移動あるいは展
開等に追従した形で、各パラグラフを代表する文を抽出
し易くすることかできるようにしたものである。
図中@を用いて示す“除外処理”欄には、”○′印を用
いて点数を計算する対象としない用語を示す、j*”O
”印を用いて示した用語は、夕・イトルで示す“論理通
信ネットワーク”に関して記述された文章に対して、−
最に良く使われる用語であり、特に各パラグラフを特徴
づけるものでないので、点数を計算する対象としないこ
ととしたものである。また、一般に文章の特徴づけをし
ない用語、例えば第5図図示除外用語に示す90き助詞
、助動詞等の自立語等でないものに対しても点数を計算
する対象としない。
次に、第2図ないし第5図を用いて夫々説明した第4図
図中“用語”欄、“点数”欄、“加算数′欄、゛除外処
理”欄および第5図図示除外用語を用いて各パラグラフ
中の最も重要な文を算出する動作を以)に3’F細に説
明する。該重要な文の算出は、第1図図中文の重要度肝
X装置6によって行われる。
第1ステツプとして、各パラグラフ中の各“文゛を単位
として、当該゛文”中に出現する用語(第4図図中゛用
語°欄に示す用語)に対して“点数°憫に記述された点
数を付与し、当該付与した、東故の総和を計算する。こ
の際、当該用語が゛加:lE数“欄に点数を記述したも
のに該当する場合には、当1亥欄中の点数も合わせた形
で総和を計算する。
第2ステツプとして、重要度を下式の如くして求める。
〔重要度〕−〔総和]÷〔文節数〕  ・・ il+具
体的に言うと、例えばパラグラフill中の1つの文 “コンビユニノー内のプログラムでは、玉ニゲがプロセ
スをすする・ ” に対しては、下線を引いた部分が火粉用語てあ−2て5
個の用語からなり、他の部分は第5図図示の如き除外用
語であって以下に述べる計算の対象としない。そして、
第4図図中から当該用語中“コンピュータ゛、“プログ
ラム”および“制御゛が除外処理に該当するから重要度
を計算する対象としない。従って、文中”ユーザ゛δよ
びブ〔1セス”か重要度の計算の対象となり、第4図図
中の′点数”欄から夫々“l今、”であることかI−J
I明するから、当該“文”に対する総和が“2占“とな
る・従って、!!重要度 (重要度)=  2+5−0.4 となる、同様にしてパラグラフtll中の他の“文”に
対しても夫々重要廣を計算する。そして、当該パラグラ
フ(1)中に存在する“文“の重要度の内、最も大きい
ものを当該パラグラフtl+の代表文(キーセンテンス
)として抽出する6 同様にして他のパラグラフ(2)ないしパラグラフ(n
l に対して夫々キーセンテンスを抽出する。該抽出し
たキーセンテンスを連ねたものか抄録となる。
〔発明の効果〕
以上説明した如く、本発明によれば、文章をパラグラフ
毎等の形に順次分割し、譲分i1Lだ各パラグラフ等中
に存在する用語を文華位に夫々分離して当該用語の使用
uffおよびパラグラフ間における用語の使用穎廣等に
基づいて文の重要9度を夫々量刑し、該判別の結果得ら
れた最重要廣の文を・順次つなく形で抄録を編集してい
るため、文章の抄録を自動的に編集することかできる。
【図面の簡単な説明】
第1図は本発明の1実施例構成図、第2図ないし第5図
は第1図図示本発明の1実施例構成の動作を説明する動
作説明図をボす。 図中、1は夕1トル バラクラフ分離装置、2はパラグ
ラフ内用語分析装置、3はtp出用語集計装置、4−1
は用語と出現文一覧デー夕 さ−ス、4−2は除外用語
一覧テーブル、4−3はバラ・グラフ内頻出用語データ
 ベース、5はパラグラフ間用語比較装置、6は文の重
要変針X装置を表す。

Claims (1)

    【特許請求の範囲】
  1. 文章をパラグラフ毎に分割し、当該分割したパラグラフ
    毎に代表となる文を抽出することによって文章の抄録を
    編集する文章抄録装置において、前記文章をタイトルお
    よびパラグラフに分離するタイトル・パラグラフ分離装
    置と、該タイトル・パラグラフ分離装置によって分離さ
    れたパラグラフ中に存在する用語を抽出するパラグラフ
    内用語分析装置と、該パラグラフ内用語分析装置によっ
    て抽出した用語の頻度を各文毎に夫々算出する頻出用語
    集計装置と、前記パラグラフ内用語分析装置によって抽
    出した各パラグラフ内に存在する用語に対して与える点
    数を他のパラグラフ内に存在する用語に関連づけた形で
    修正するパラグラフ間用語比較装置と、前記パラグラフ
    内用語分析装置によって抽出された用語に対して与えら
    れた点数を計算しないこととする用語を格納する除外用
    語記憶装置と、前記頻出用語集計装置を用いて集計した
    用語のうち前記除外用語記憶装置に記憶されている用語
    に対しては点数を加算しない形で前記文毎に点数の総和
    を算出する文の重要度計算装置とを備え、該文の重要度
    計算装置によって計算された総和の内、前記各パラグラ
    フ中に存在する最大の総和となる文を夫々抽出して出力
    することによって抄録を編集することを特徴とする文章
    抄録装置。
JP59238871A 1984-11-13 1984-11-13 文章抄録装置 Pending JPS61117658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59238871A JPS61117658A (ja) 1984-11-13 1984-11-13 文章抄録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59238871A JPS61117658A (ja) 1984-11-13 1984-11-13 文章抄録装置

Publications (1)

Publication Number Publication Date
JPS61117658A true JPS61117658A (ja) 1986-06-05

Family

ID=17036495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59238871A Pending JPS61117658A (ja) 1984-11-13 1984-11-13 文章抄録装置

Country Status (1)

Country Link
JP (1) JPS61117658A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
US5297027A (en) * 1990-05-11 1994-03-22 Hitachi, Ltd. Method of and apparatus for promoting the understanding of a text by using an abstract of that text
JPH06195336A (ja) * 1992-12-24 1994-07-15 Fuji Xerox Co Ltd 文書編集方法及び文書編集装置
JPH08297677A (ja) * 1995-04-14 1996-11-12 Xerox Corp 主題の要約を生成する自動的な方法
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272664A (ja) * 1998-03-19 1999-10-08 Sharp Corp テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2000003126A (ja) * 1998-03-23 2000-01-07 Xerox Corp 音声部を使用するテキスト要約方法
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
US5297027A (en) * 1990-05-11 1994-03-22 Hitachi, Ltd. Method of and apparatus for promoting the understanding of a text by using an abstract of that text
JPH0424869A (ja) * 1990-05-21 1992-01-28 Toshiba Corp 文書処理システム
JPH06195336A (ja) * 1992-12-24 1994-07-15 Fuji Xerox Co Ltd 文書編集方法及び文書編集装置
JPH08297677A (ja) * 1995-04-14 1996-11-12 Xerox Corp 主題の要約を生成する自動的な方法
JPH10307837A (ja) * 1997-05-09 1998-11-17 Sharp Corp 検索装置並びに検索プログラムを記録した記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272664A (ja) * 1998-03-19 1999-10-08 Sharp Corp テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP2000003126A (ja) * 1998-03-23 2000-01-07 Xerox Corp 音声部を使用するテキスト要約方法
JP2009093650A (ja) * 2007-10-05 2009-04-30 Fujitsu Ltd 文書の段落分析によるその文書のタグの選択

Similar Documents

Publication Publication Date Title
Mahata et al. Key2vec: Automatic ranked keyphrase extraction from scientific articles using phrase embeddings
US10146767B2 (en) Automatic text skimming using lexical chains
WO2018066445A1 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
US6098034A (en) Method for standardizing phrasing in a document
US7493252B1 (en) Method and system to analyze data
JPH10207911A (ja) 文書検索装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110362824A (zh) 一种自动纠错的方法、装置、终端设备及存储介质
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
JPS61117658A (ja) 文章抄録装置
CN104778157A (zh) 一种多文档摘要句的生成方法
Mao et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words
JP4017354B2 (ja) 情報分類装置および情報分類プログラム
Trieschnigg et al. TNO Hierarchical topic detection report at TDT 2004
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR100331029B1 (ko) 한국어개념분류체계구축방법과,수정방법및구축장치
Guadie et al. Amharic text summarization for news items posted on social media
JP2002169803A (ja) 複数の文書を閲覧するための装置および方法
JPH0877196A (ja) 文書情報抽出装置
JP2005063157A (ja) 文書クラスタ抽出装置および方法
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JPH0619968A (ja) 専門用語自動抽出装置
JP4468608B2 (ja) 意味情報推定装置、意味情報推定方法、及びプログラム
RU2777693C1 (ru) Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
JPS62196726A (ja) 意味照合装置