WO2012008503A1 - Passage extraction apparatus and method of passage extraction - Google Patents

Passage extraction apparatus and method of passage extraction Download PDF

Info

Publication number
WO2012008503A1
WO2012008503A1 PCT/JP2011/066017 JP2011066017W WO2012008503A1 WO 2012008503 A1 WO2012008503 A1 WO 2012008503A1 JP 2011066017 W JP2011066017 W JP 2011066017W WO 2012008503 A1 WO2012008503 A1 WO 2012008503A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
statement
passage
score
conflict
Prior art date
Application number
PCT/JP2011/066017
Other languages
French (fr)
Japanese (ja)
Inventor
辰則 森
英潔 渋木
正寛 中野
林太郎 宮▲崎▼
円香 石下
Original Assignee
国立大学法人横浜国立大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人横浜国立大学 filed Critical 国立大学法人横浜国立大学
Priority to JP2012524582A priority Critical patent/JP5858407B2/en
Publication of WO2012008503A1 publication Critical patent/WO2012008503A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Disclosed is a passage extraction apparatus and so forth whereby a Web or a document database is searched, and a direct mediatory summary whereby a passage briefly explaining a situation wherein a focus sentence determined to be true or false is established along with a situation wherein an opposing sentence for an opposition is established is extracted. In particular, the relevance and impartiality with the focus sentence and the density of characteristic language is considered. A document is searched for with a focus statement as a condition; in addition a document is searched for with an opposing statement as a condition; a pure focus search document collection relating only to the focus statement and a pure opposing search document collection relating only to the opposing statement are classified (S103); a word score is calculated (S104, S105) from the frequency of pure focus search documents and from the frequency of pure opposing search documents; in addition the characteristic language of the affirmative argument and the characteristic language of the negative argument are determined (S2801); and a sentence score is obtained from the characteristic language (S3501) and a passage score is calculated (S107).

Description

パッセージ抽出装置及びパッセージ抽出方法Passage extraction apparatus and passage extraction method
 本発明は、着目文が成立する状況とともに、対立文が成立する状況を端的に説明した文章を得るパッセージ抽出に関する。 The present invention relates to passage extraction that obtains a sentence that briefly explains a situation in which a conflict sentence is established together with a situation in which a sentence of interest is established.
 利用者が文の真偽について、世の中に出回っている情報に照らし合わせて正しいか否かを判断したいとする。このとき、その文がいかなる状況においても真であったり偽であったりすることもあるが、ある状況においては真であり、また別の状況においては偽であることが多く観察される。 Suppose that a user wants to judge whether a sentence is true or false in light of the information available in the world. At this time, it is often observed that the sentence is true or false in any situation, but is true in one situation and false in another.
 このような場合、どのような状況においては着目文の内容が成り立ち、また別のどのような状況で対立文の内容が成り立つのかを端的に説明した文章を見つけることができれば、真偽の判断に役立つ。 In such a case, if it is possible to find a sentence that clearly explains the content of the target sentence under what circumstances and the content of the conflicted sentence under other circumstances, it can be judged as true or false. Useful.
 例えば、着目文の「ディーゼル車は環境に良い。」ということの真偽を知りたいとする。対立文は「ディーゼル車は環境に悪い。」となる。実は、いずれの内容も状況の如何によって真である。 Suppose, for example, that you want to know the truth of the sentence of interest: “Diesel cars are good for the environment.” The confrontation is “diesel is bad for the environment”. In fact, any content is true depending on the situation.
 例えば、「CO2(温室効果ガス)に重点を置くか、NOx(光化学スモッグなどの空気の汚れ)に重点を置くか、の違いによって評価が分かれてしまったと思います。ディーゼルエンジンはガソリンエンジンに比べCO2の排出量は少ないが、NOxと固形物の排出が多いと言われてきましたが、触媒やフィルターの発達によって、画期的に改善されてきており、燃費の良さもあって、ヨーロッパでは好評を受けています。」というような文章を、自動的に見つけられることが望ましい。 For example, I think that the evaluation was divided depending on whether the focus was on CO2 (greenhouse gas) or NOx (air pollution such as photochemical smog). Although it has been said that CO2 emissions are small, but NOx and solids emissions are large, but it has been dramatically improved by the development of catalysts and filters, and because of its good fuel efficiency, in Europe, It is desirable to be able to automatically find sentences such as “Received popularity”.
 非特許文献1には、二つの文が対立しているか否かの判断をする手法と、ある一つの文に条件となる表現が含まれているか否かを判断する手法が開示されている。また、非特許文献2には、複数の文章について、それらを端的に説明する別の文章を見つける要約手法が開示されている。しかし、これらの既知の方法においても、上述の目的を達成することはできない。 Non-Patent Document 1 discloses a method for determining whether or not two sentences are in conflict and a method for determining whether or not a certain sentence includes a conditional expression. Non-Patent Document 2 discloses a summarization technique for finding another sentence that briefly explains a plurality of sentences. However, even these known methods cannot achieve the above-mentioned object.
 解決しようとする問題点は、利用者が入力した、真偽の判断をしたいと思っている事柄を表す着目文が成立する状況とともに、着目文と真偽が反対となる対立文が成立する状況を端的に説明した文章を得る直接調停要約を実現することを課題とする。 The problem to be solved is the situation in which the target sentence that represents the matter that the user wants to make a true / false judgment is established and the opposite sentence in which the target sentence and the truth are opposite is established It is an object to realize a direct mediation summary that obtains a sentence that briefly explains.
 本願発明に係るパッセージ抽出装置は、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置であって、以下の要素を有することを特徴とする
(1)着目言明を入力する着目言明入力部
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定部
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索部
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出部
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出部
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出部
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力部。
The passage extraction device according to the present invention is:
A passage extraction device that extracts from a search document a passage including affirmative contents and negative contents with respect to a statement of interest indicating a matter for judging authenticity, and has the following elements: (1) Input a statement of interest Attention statement input unit (2) An allegation statement specifying unit (3) that identifies an opposition statement showing the content opposite to the attentive statement (3) A statement-related document retrieval unit that retrieves a document based on the attentive statement and retrieves a document based on the opposition statement ( 4) For each word included in the net focus search document that is searched with the focus statement and not searched with the conflict statement, the number of net focus search documents including the word is calculated to obtain the net focus search document frequency. Pure conflict search document frequency is calculated by calculating the number of pure conflict search documents including the word for each word included in the pure conflict search document that is searched with the conflict statement and not searched with the statement of interest. Demand,
In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set for each word. A word score calculation unit that calculates a word score indicating a positive characteristic and a negative characteristic with respect to a statement of interest of the word based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure conflict search document set 6) A passage score calculation unit (7) that calculates, for each passage, a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest of the passage, based on the word score of the word included in the passage. A passage output unit that outputs passages based on the passage score.
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部と、
 前記着目言明で検索された文書及び/又は対立言明で検索された文書に含まれる文毎に、当該文に含む肯定側特徴語と否定側特徴語の数を計数して文スコアとする文スコア算出部を有し、
 前記パッセージスコア算出部は、パッセージに含まれる文のうち最大の文スコアをパッセージスコアとすることを特徴とする。
Further, the passage extraction device further includes:
A feature word determination unit that determines, based on the word score, an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion, and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
For each sentence included in the document searched with the statement of interest and / or the document searched with the conflict statement, the sentence score is obtained by counting the number of positive feature words and negative feature words included in the sentence. Have a calculator,
The passage score calculation unit sets a maximum sentence score among sentences included in the passage as a passage score.
 また、前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記文スコア算出部は、当該文に含むトピック特徴語の数を計数して文スコアに加えることを特徴とする。
In addition, the feature word determination unit determines a topic feature word that is a content word of the statement of interest that does not correspond to the positive feature word and the negative feature word,
The sentence score calculation unit is characterized in that the number of topic feature words included in the sentence is counted and added to the sentence score.
 また、前記パッセージスコア算出部は、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語を含む場合に、最大の文スコアに1より大きいボーナス係数を乗じてパッセージスコアとすることを特徴とする。 The passage score calculation unit may multiply the maximum sentence score by a bonus coefficient larger than 1 to obtain a passage score when the passage includes a positive feature word, a negative feature word, and a topic feature word. And
 また、前記文スコア算出部は、パッセージに肯定側特徴語と否定側特徴語のいずれか一方と、トピック特徴語を含む場合に、1より大きい低ボーナス係数を文スコアに乗じ、パッセージに肯定側特徴語と否定側特徴語の両方と、トピック特徴語を含む場合に、低ボーナス係数より大きい高ボーナス係数を文スコアに乗じることを特徴とする。 Further, the sentence score calculation unit multiplies the sentence score by a low bonus coefficient larger than 1 when the passage includes either a positive feature word or a negative feature word and a topic feature word. When both feature words and negative side feature words and topic feature words are included, the sentence score is multiplied by a high bonus coefficient larger than the low bonus coefficient.
 更に、文スコアに基づいてパッセージの範囲を設定するパッセージ範囲設定部を有することを特徴とする。 Furthermore, it has a passage range setting section for setting a passage range based on a sentence score.
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、当該パッセージに含まれる肯定側特徴語の数と否定側特徴語の数に基づいて、パッセージスコアを算出することを特徴とする。
Further, the passage extraction device further includes:
Based on the word score, it has a feature word determination unit that determines an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
The passage score calculation unit calculates a passage score based on the number of positive feature words and the number of negative feature words included in the passage.
 また、特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、当該パッセージに含まれるトピック特徴語の数に基づいて、パッセージスコアを算出することを特徴とする。
In addition, the feature word determination unit determines a topic feature word that is not a positive feature word and a negative feature word and is a content word of the statement of interest,
The passage score calculation unit further calculates a passage score based on the number of topic feature words included in the passage.
 また、パッセージ抽出装置は、更に、
 単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
 前記パッセージスコア算出部は、肯定側特徴語毎に、当該パッセージに含まれる文のうち、当該肯定側特徴語を含む文の数を計数して肯定側特徴語の出現度数を求め、否定側特徴語毎に、当該パッセージに含まれる文のうち、当該否定側特徴語を含む文の数を計数して否定側特徴語の出現度数を求め、肯定側特徴語の出現度数と否定側特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする。
Further, the passage extraction device further includes:
Based on the word score, it has a feature word determination unit that determines an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
The passage score calculation unit calculates, for each affirmative feature word, the number of sentences including the affirmative feature word among sentences included in the passage, and obtains the appearance frequency of the affirmative feature word, and the negative feature For each word, out of the sentences included in the passage, the number of sentences including the negative feature word is counted to obtain the appearance frequency of the negative feature word, and the appearance frequency of the positive feature word and the negative feature word A passage score is calculated based on the appearance frequency.
 また、前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
 前記パッセージスコア算出部は、更に、トピック特徴語毎に、当該パッセージに含まれる文のうち、当該トピック特徴語を含む文の数を計数してトピック特徴語の出現度数を求め、トピック特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする。
In addition, the feature word determination unit determines a topic feature word that is a content word of the statement of interest that does not correspond to the positive feature word and the negative feature word,
The passage score calculation unit further calculates, for each topic feature word, the number of sentences including the topic feature word among the sentences included in the passage, and obtains the appearance frequency of the topic feature word. A passage score is calculated based on the appearance frequency.
 また、前記特徴語判定部は、単語スコアに基づいて、単語毎に着目言明に対する肯定の特性の順位と、着目言明に対する否定の特性の順位を求め、着目言明に対する肯定の特性の順位と着目言明に対する否定の特性の順位に基づいて、肯定側特徴語と否定側特徴語を判定することを特徴とする。 In addition, the feature word determination unit obtains the ranking of the affirmative characteristic with respect to the focused statement and the ranking of the negated characteristic with respect to the focused statement based on the word score, and determines the ranking of the positive characteristic with respect to the focused statement and the focused statement. Based on the ranking of the negative characteristics with respect to, a positive side feature word and a negative side feature word are determined.
 本願発明に係るパッセージ抽出方法は、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置によるパッセージ抽出方法であって、以下の要素を有することを特徴とする
(1)着目言明を入力する着目言明入力工程
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定工程
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索工程
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出工程
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出工程
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出工程
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力工程。
The passage extraction method according to the present invention is as follows:
A passage extraction method by a passage extraction device that extracts a passage including a positive content and a negative content with respect to a statement of interest indicating a matter for judging true / false from a search document, and has the following elements (1) Statement-of-interest input process for inputting a statement (2) Conflict-statement specifying step for identifying an opposing statement indicating the opposite content of the statement of interest (3) Statement-related for retrieving a document based on the statement of interest and retrieving a document based on the conflicting statement Document Retrieval Step (4) For each word included in a net focus search document that has been searched with a focus statement and not searched with a conflict statement, a net focus search document is calculated by calculating the number of net focus search documents that include the word. For each word included in a pure conflict search document that is searched for by conflict statement but not searched by the statement of interest, the number of pure conflict search documents including the word is calculated. Determine the net confrontation search document frequency by,
In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set Based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure confrontation search document set, the word score calculation that calculates the word score indicating the positive characteristic and the negative characteristic with respect to the statement of interest of the word (6) For each passage, a passage score calculation step of calculating a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest of the passage based on the word score of the word included in the passage. 7) A passage output step of outputting a passage based on the passage score.
 本願発明に係るプログラムは、
 真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置となるコンピュータに、以下の手順を実行させることを特徴とする
(1)着目言明を入力する着目言明入力手順
(2)着目言明と反対の内容を示す対立言明を特定する対立言明特定手順
(3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索手順
(4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
 且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出手順
(5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出手順
(6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出手順
(7)パッセージスコアに基づいてパッセージを出力するパッセージ出力手順。
The program according to the present invention is:
(1) A statement of interest characterized by causing a computer to be a passage extraction device to extract a passage including a positive content and a negative content with respect to a statement of interest indicating an item for judging true / false from a search document by executing the following procedure. Input statement of interest statement input procedure (2) Conflict statement identification procedure for specifying conflict statement indicating content opposite to statement of interest statement (3) Document-related document search for searching documents based on statement of interest and searching documents based on conflict statements Procedure (4) For each word included in the net focus search document that is searched with the focus statement and not searched with the conflict statement, the net focus search document frequency is calculated by calculating the number of net focus search documents including the word. The number of pure conflict search documents including the word is calculated for each word included in the pure conflict search document that is searched for by the conflict statement and not searched by the statement of interest. Ri determine the net confrontation search document frequency,
In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set Frequency calculation procedure for calculating the frequency of words appearing in a pure conflict search document set by calculating (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set Based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure confrontation search document set, the word score calculation that calculates the word score indicating the positive characteristic and the negative characteristic with respect to the statement of interest of the word In order (6), for each passage, a passage score calculation procedure for calculating a passage score indicating the degree of juxtaposition of both positive and negative characteristics with respect to the statement of interest of the passage, based on the word score of the word included in the passage. 7) A passage output procedure for outputting a passage based on the passage score.
 Web上の情報信憑性に関する利用者の判断を支援する直接調停要約の自動生成を実現することができる。直接調停要約とは、対立しているようにみえる二つの言明が実は共存可能である場合に、共存可能となる状況を簡潔に説明している文章をWeb文書から見つける要約である。 It is possible to automatically generate a direct mediation summary that supports the user's judgment regarding information credibility on the Web. A direct mediation summary is a summary that finds from a Web document a concise explanation of a situation where coexistence is possible when two statements that appear to be in conflict can actually coexist.
 特に、着目言明との関連性、公平性、特徴語の密集度に基づいて直接調停要約を生成する。着目言明との関連性は、着目言明中の単語を含んでいるか否かによって近似的に求められると考えられる。公平性は、着目言明を肯定する意見や根拠等と否定する意見や根拠等の両方を等しく言及しているかということである。両方の意見や根拠等において対となる単語を含んでいるか否かによって近似的に求められると考えられる。特徴語について高い密集度をもつパッセージは、簡潔な要約としての妥当性に加えて、両方の意見や根拠等を対比的に記述していることが多く、調停要約として、より適切であると考えられる。 Especially, a mediation summary is generated directly based on relevance to the statement of interest, fairness, and feature word density. It is considered that the relevance to the statement of interest is approximately obtained depending on whether or not the word in the statement of interest is included. Fairness refers to whether the opinions and grounds that affirm the statement of interest and the negative opinions and grounds are referred to equally. It is considered that it is approximately obtained depending on whether or not a pair of words is included in both opinions and grounds. Passages with high density of feature words often describe both opinions and grounds in contrast to their validity as a concise summary, and are considered more appropriate as mediation summaries. It is done.
図1は、全体処理フローを示す図である。FIG. 1 is a diagram showing an overall processing flow. 図2は、パッセージ抽出装置のうち着目言明入力と対立言明特定に係る構成を示す図である。FIG. 2 is a diagram illustrating a configuration relating to a focus statement input and conflict statement specification in the passage extraction device. 図3は、対立言明特定処理フローを示す図である。FIG. 3 is a diagram showing a conflict statement specifying process flow. 図4は、パッセージ抽出装置のうち言明関連文書検索に係る構成を示す図である。FIG. 4 is a diagram showing a configuration relating to a statement-related document search in the passage extraction device. 図5は、言明関連文書検索処理フローを示す図である。FIG. 5 is a diagram showing a statement related document search processing flow. 図6は、パッセージ抽出装置のうち文書頻度算出に係る構成を示す図である。FIG. 6 is a diagram showing a configuration relating to document frequency calculation in the passage extraction device. 図7は、文書頻度算出処理フローを示す図である。FIG. 7 is a diagram showing a document frequency calculation processing flow. 図8は、純着目検索文書頻度算出処理フローを示す図である。FIG. 8 is a diagram showing a pure focus search document frequency calculation processing flow. 図9は、純対立検索文書頻度算出処理フローを示す図である。FIG. 9 is a diagram showing a pure conflict search document frequency calculation processing flow. 図10は、重複検索文書頻度算出処理フローを示す図である。FIG. 10 is a diagram showing a duplicate search document frequency calculation processing flow. 図11は、パッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。FIG. 11 is a diagram illustrating a configuration relating to word score calculation in the passage extraction device. 図12は、単語スコア算出処理フローを示す図である。FIG. 12 is a diagram showing a word score calculation processing flow. 図13は、パッセージ抽出装置のうちパッセージ範囲設定に係る構成を示す図である。FIG. 13 is a diagram illustrating a configuration relating to passage range setting in the passage extraction device. 図14は、パッセージ範囲設定処理フローを示す図である。FIG. 14 is a diagram showing a passage range setting process flow. 図15は、パッセージ抽出装置のうちパッセージスコア算出に係る構成を示す図である。FIG. 15 is a diagram illustrating a configuration relating to passage score calculation in the passage extraction device. 図16は、パッセージスコア算出処理フローを示す図である。FIG. 16 is a diagram showing a passage score calculation processing flow. 図17は、パッセージ抽出装置のうちパッセージ選択とパッセージ出力に係る構成を示す図である。FIG. 17 is a diagram illustrating a configuration relating to passage selection and passage output in the passage extraction device. 図18は、実施の形態2におけるパッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。FIG. 18 is a diagram illustrating a configuration relating to word score calculation in the passage extraction device according to the second embodiment. 図19は、実施の形態2における単語スコア算出処理フローを示す図である。FIG. 19 is a diagram showing a word score calculation processing flow in the second embodiment. 図20は、実施の形態2におけるパッセージスコア算出処理フローを示す図である。FIG. 20 is a diagram showing a passage score calculation processing flow in the second embodiment. 図21は、実施の形態3における単語スコア算出処理フローを示す図である。FIG. 21 is a diagram showing a word score calculation processing flow in the third embodiment. 図22は、実施の形態4における単語スコア算出処理フローを示す図である。FIG. 22 is a diagram showing a word score calculation processing flow in the fourth embodiment. 図23は、実施の形態5における単語スコア算出処理フローを示す図である。FIG. 23 is a diagram showing a word score calculation processing flow in the fifth embodiment. 図24は、実施の形態5におけるパッセージスコア算出処理フローを示す図である。FIG. 24 is a diagram showing a passage score calculation processing flow in the fifth embodiment. 図25は、実施の形態6における単語スコア算出処理フローを示す図である。FIG. 25 is a diagram showing a word score calculation processing flow in the sixth embodiment. 図26は、実施の形態7における単語スコア算出処理フローを示す図である。FIG. 26 is a diagram showing a word score calculation processing flow in the seventh embodiment. 図27は、実施の形態8における単語スコア算出処理フローを示す図である。FIG. 27 is a diagram showing a word score calculation processing flow in the eighth embodiment. 図28は、実施の形態9における全体処理フローを示す図である。FIG. 28 is a diagram showing an overall processing flow in the ninth embodiment. 図29は、パッセージ抽出装置のうち特徴語判定に係る構成を示す図である。FIG. 29 is a diagram illustrating a configuration related to feature word determination in the passage extraction device. 図30は、特徴語判定処理フロー(その1)を示す図である。FIG. 30 is a diagram showing a feature word determination processing flow (No. 1). 図31は、特徴語判定処理フロー(その2)を示す図である。FIG. 31 is a diagram showing a feature word determination processing flow (2). 図32は、実施の形態9におけるパッセージスコア算出処理フローを示す図である。FIG. 32 is a diagram showing a passage score calculation process flow in the ninth embodiment. 図33は、実施の形態10におけるパッセージスコア算出処理フローを示す図である。FIG. 33 is a diagram showing a passage score calculation processing flow in the tenth embodiment. 図34は、実施の形態11における特徴語判定処理フローを示す図である。FIG. 34 is a diagram illustrating a feature word determination processing flow according to the eleventh embodiment. 図35は、実施の形態12における全体処理フローを示す図である。FIG. 35 is a diagram showing an overall processing flow in the twelfth embodiment. 図36は、文スコア算出処理フローを示す図である。FIG. 36 is a diagram showing a sentence score calculation processing flow. 図37は、実施の形態12におけるパッセージスコア算出処理フローを示す図である。FIG. 37 is a diagram showing a passage score calculation process flow according to the twelfth embodiment. 図38は、実施の形態13におけるパッセージスコア算出処理フローを示す図である。FIG. 38 is a diagram showing a passage score calculation processing flow in the thirteenth embodiment. 図39は、実施の形態14における文スコア算出処理フローを示す図である。FIG. 39 is a diagram showing a sentence score calculation processing flow in the fourteenth embodiment. 図40は、実施の形態15におけるパッセージ範囲設定処理フローを示す図である。FIG. 40 is a diagram showing a passage range setting process flow according to the fifteenth embodiment. 図41は、パッセージ抽出装置のハードウェアの構成を示す図である。FIG. 41 is a diagram illustrating a hardware configuration of the passage extraction device.
 実施の形態1.
パッセージ抽出装置が、インターネットやイントラネットなどのネットワークを介してクライアント端末と接続するサーバである場合には、自ら保持する検索エンジンを利用し、あるいはインターネットやイントラネットなどのネットワークを介して他の検索サーバを利用して文書検索し、パッセージを抽出するように構成される。利用者はクライアント端末からパッセージ抽出装置に着目言明を送信し、抽出結果をしてパッセージを受信する。
Embodiment 1 FIG.
If the passage extraction device is a server that is connected to a client terminal via a network such as the Internet or an intranet, use a search engine that is held by itself or use another search server via a network such as the Internet or an intranet. It is configured to retrieve documents and extract passages. The user transmits a statement of interest from the client terminal to the passage extraction device, receives the passage as the extraction result.
 パッセージ抽出装置が利用者のクライアント端末である場合には、インターネットやイントラネットなどのネットワークを介して検索サーバを利用して文書検索し、パッセージを抽出するように構成される。クライアント端末は文字入力デバイスから着目言明を受け付け、抽出結果をしてパッセージを画面に表示する。 When the passage extraction device is a user's client terminal, the passage is extracted by searching for a document using a search server via a network such as the Internet or an intranet. The client terminal accepts the statement of interest from the character input device, displays the passage result on the screen as the extraction result.
 図1は、全体処理フローを示す図である。パッセージ抽出装置の動作について説明する。着目言明入力処理(S101)では、真偽(肯定と否定)を判断したい内容を示す着目言明を入力する。対立言明特定処理(S102)では、着目言明の内容と対立する内容の対立言明を特定する。 FIG. 1 is a diagram showing an overall processing flow. The operation of the passage extraction device will be described. In the focused statement input process (S101), a focused statement indicating the content to be judged true / false (affirmative and negative) is input. In the conflict statement specifying process (S102), the conflict statement of the content that conflicts with the content of the statement of interest is specified.
 言明関連文書検索処理(S103)では、着目言明と対立言明を条件として言明関連文書を検索する。言明関連文書は、純着目検索文書集合と純対立検索文書集合と重複検索文書集合に分別する。 In the statement related document search process (S103), a statement related document is searched on condition of the statement of interest and the conflict statement. Statement-related documents are classified into a purely focused search document set, a pure conflict search document set, and a duplicate search document set.
 文書頻度算出処理(S104)では、所定の単語が文書集合中に出現する文書の数である文書頻度を算出する。具体的には、純着目検索文書集合に対する純着目検索文書頻度と、純対立検索文書集合に対する純対立検索文書頻度と、重複検索文書集合に対する重複検索文書頻度を算出する。 In the document frequency calculation process (S104), a document frequency that is the number of documents in which a predetermined word appears in the document set is calculated. Specifically, the net focus search document frequency for the net focus search document set, the net conflict search document frequency for the net conflict search document set, and the duplicate search document frequency for the duplicate search document set are calculated.
 単語スコア算出処理(S105)では、着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する。単語スコアは、両特性を反対特性として一次元的に示す肯否スコアである場合と、両特性をそれぞれ独立して示す肯定スコアと否定スコアである場合がある。 In the word score calculation process (S105), a word score indicating a positive characteristic and a negative characteristic for the statement of interest is calculated. The word score may be a positive or negative score that indicates one characteristic in a one-dimensional manner with both characteristics as opposite characteristics, or a positive score and a negative score that indicate both characteristics independently.
 パッセージ範囲設定処理(S106)では、パッセージ範囲を判定する。パッセージは、検索文書中の部分的な文の連なりである。パッセージは固定サイズとする場合と、任意サイズとする場合がある。 In the passage range setting process (S106), the passage range is determined. A passage is a series of partial sentences in a search document. The passage may be a fixed size or an arbitrary size.
 パッセージスコア算出処理(S107)では、着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出する。つまり、パッセージが肯定の特性を備え、更に否定の特性を備えるという条件をどの程度達成しているかを数値化する。また、肯定と否定の前提となる命題あるいは論題(トピック)の適応の度合いも合わせて評価することもある。パッセージスコアの算出においては、単語スコアを直接用いる方法の他に、単語スコアを基礎にして定めた特徴語の出現態様に従って判断する方法、あるいは文スコアを介する方法など、間接的に単語スコアを用いる方法が考えられる。 In the passage score calculation process (S107), a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest is calculated. That is, the degree to which the condition that the passage has a positive characteristic and further a negative characteristic is achieved is quantified. In addition, the degree of adaptation of propositions or themes (topics) that are the premise of affirmation and denial may be evaluated together. In the passage score calculation, in addition to the method of directly using the word score, the word score is indirectly used, such as a method of judging according to the appearance mode of the feature word determined based on the word score, or a method using a sentence score. A method is conceivable.
 パッセージ選択処理(S108)では、パッセージスコアに基づいてパッセージを選択する。大きな値、つまり優位なスコアを優先して選択する。そして、パッセージ出力処理(S109)では、選択したパッセージを出力する。 In the passage selection process (S108), a passage is selected based on the passage score. Select a higher value, that is, a superior score. In the passage output process (S109), the selected passage is output.
 まず、着目言明入力処理(S101)と対立言明特定処理(S102)について説明する。図2は、パッセージ抽出装置のうち着目言明入力と対立言明特定に係る構成を示す図である。パッセージ抽出装置は、着目言明入力部201、着目言明記憶部202、対立言明特定部203、及び対立言明記憶部204を有する。 First, the focused statement input process (S101) and the conflict statement specifying process (S102) will be described. FIG. 2 is a diagram illustrating a configuration relating to a focus statement input and conflict statement specification in the passage extraction device. The passage extraction apparatus includes a notice statement input unit 201, a notice statement storage unit 202, a conflict statement specifying unit 203, and a conflict statement storage unit 204.
 着目言明入力部201は、着目言明を入力し、着目言明記憶部202に記憶させる。着目言明は、真偽を判断する事項を示す自然文あるいは句である。主には「ディーゼル車は環境に良い。」などの自然文であるが、「環境に良いディーゼル車」などの句に対しても有効である。例えば、操作者が文字入力デバイスを介して入力する。あるいは、ネットワークを介してクライアント端末から受信する。 The focus statement input unit 201 inputs a focus statement and stores it in the focus statement storage unit 202. A statement of interest is a natural sentence or a phrase indicating a matter for judging authenticity. Although it is mainly a natural sentence such as “diesel cars are good for the environment”, it is also effective for phrases such as “diesel cars that are good for the environment”. For example, an operator inputs via a character input device. Or it receives from a client terminal via a network.
 対立言明特定部203は、着目言明記憶部202から着目言明を読み出し、対立言明を生成する。図3は、対立言明特定処理フローを示す図である。着目言明に含まれる内容語を特定する(S301)。内容語は、文法的な役割を持つ機能語以外の一般的な意味を持つ語である。この例では、形容詞、動詞、名詞、サ変名詞を対象とする。そして、それらの内容語毎に(S302)、対義語があるか判定し(S303)、対義語がある場合に、着目言明中の当該内容語を当該対義語に置き換えて、対立言明とする(S304)。対義語は、対義語辞書データベースから取得する。すべての内容語について処理した時点で終了する(S305)。つまり、対義語が存在した数の対立言明を生成して、対立言明記憶部204に記憶させる。着目言明が自然文である場合には、対立言明も自然文であり、着目言明が句である場合には、対立言明も句となる。例えば、「ディーゼル車は環境に良い。」という着目言明に対して「ディーゼル車は環境に悪い。」という対立言明が生成され、「環境に良いディーゼル車」という着目言明に対して「環境に悪いディーゼル車」という対立言明が生成される。 The conflict statement specifying unit 203 reads the focus statement from the focus statement storage unit 202 and generates a conflict statement. FIG. 3 is a diagram showing a conflict statement specifying process flow. Content words included in the statement of interest are identified (S301). The content word is a word having a general meaning other than the function word having a grammatical role. In this example, adjectives, verbs, nouns, and saun nouns are targeted. Then, for each of the content words (S302), it is determined whether there is an antonym (S303). If there is an antonym, the content word in the statement of interest is replaced with the antonym to make an opposing statement (S304). An antonym is acquired from an antonym dictionary database. The process ends when all content words have been processed (S305). That is, the number of conflict statements in which there is an antonym is generated and stored in the conflict statement storage unit 204. When the statement of interest is a natural sentence, the conflict statement is also a natural sentence, and when the statement of attention is a phrase, the conflict statement is also a phrase. For example, a confrontation statement “diesel vehicle is bad for the environment” is generated for the focus statement “diesel vehicle is good for the environment”, and “a bad environment is good” for the statement “the diesel vehicle is good for the environment”. A conflict statement of “diesel vehicle” is generated.
 この例では、着目言明から対義語を用いて対立言明を生成したが、文法的に否定形に変換する方法もある。例えば、肯定文を否定文に変換する。あるいは、着目言明の入力と合わせて対立言明を入力する方法もある。つまり、着目言明と対立言明を対として受け付ける。対立言明を受け付ける方法では、利用者が意識する命題あるいは論題に沿った適切な対立言明を特定できるという利点がある。 In this example, a conflict statement was generated from the statement of interest using an antonym, but there is also a method of converting it into a negative form grammatically. For example, a positive sentence is converted into a negative sentence. Alternatively, there is a method of inputting a conflict statement together with the input of the statement of interest. That is, the statement of interest and the conflict statement are accepted as a pair. The method of accepting a conflict statement has the advantage that an appropriate conflict statement can be identified in line with the proposition or topic that the user is aware of.
 続いて、言明関連文書検索処理(S103)について説明する。図4は、パッセージ抽出装置のうち言明関連文書検索に係る構成を示す図である。パッセージ抽出装置は、着目言明記憶部202と対立言明記憶部204の他、言明関連文書検索部401、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404を備えている。 Subsequently, the statement related document search process (S103) will be described. FIG. 4 is a diagram showing a configuration relating to a statement-related document search in the passage extraction device. The passage extraction apparatus includes a statement-related document search unit 401, a pure-focus search document storage unit 402, a pure conflict search document storage unit 403, and a duplicate search document storage unit 404 in addition to the focus statement storage unit 202 and the conflict statement storage unit 204. I have.
 図5は、言明関連文書検索処理フローを示す図である。まず、着目言明を条件として文書を検索して(S501)、着目言明の検索結果を得る。検索対象は、Webあるいは文書データベースである。Webを対象とする場合には、Web文書のURL(検索文書識別情報の例)と、Web文書のデータを取得する。文書データベースを対象とする場合には、文書ID(検索文書識別情報の例)と、文書データを取得する。 FIG. 5 is a diagram showing a statement-related document search processing flow. First, a document is searched on the condition of the statement of interest (S501), and a retrieval result of the statement of interest is obtained. The search target is the Web or a document database. When targeting the Web, the URL of the Web document (example of search document identification information) and the Web document data are acquired. When a document database is targeted, a document ID (an example of search document identification information) and document data are acquired.
 更に、対立言明を条件として文書を検索して(S502)、対立言明の検索結果を得る。検索対象は、同様にWebあるいは文書データベースである。Webを対象とする場合には、Web文書のURL(検索文書識別情報の例)と、Web文書のデータを取得する。文書データベースを対象とする場合には、文書ID(検索文書識別情報の例)と、文書データを取得する。 Further, the document is searched on the condition of the conflict statement (S502), and the search result of the conflict statement is obtained. The search target is similarly the Web or a document database. When targeting the Web, the URL of the Web document (example of search document identification information) and the Web document data are acquired. When a document database is targeted, a document ID (an example of search document identification information) and document data are acquired.
 検索エンジンをパッセージ抽出装置内部に備えている場合には、内部インターフェースに従って検索条件を渡して、検索結果を受ける。外部の検索エンジンを利用する場合には、インターネットやイントラネットなどの通信を介して検索条件を送信して、検索結果を受信する。 When the search engine is provided inside the passage extraction device, the search condition is passed according to the internal interface and the search result is received. When an external search engine is used, the search condition is transmitted via communication such as the Internet or an intranet, and the search result is received.
 この例では、検索エンジンが検索条件として自然文や句を受け付けることを前提としているが、単語による論理式を検索条件とする検索エンジンを用いることもできる。その場合には、言明関連文書検索処理(S103)において、自然文や句から内容語を特定して、例えばその内容語をAND条件で連結して論理式を生成する。 In this example, it is assumed that the search engine accepts a natural sentence or a phrase as a search condition, but a search engine using a logical expression based on a word as a search condition can also be used. In that case, in the statement-related document search process (S103), a content word is specified from a natural sentence or a phrase and, for example, the content word is connected with an AND condition to generate a logical expression.
 そして、検索結果に含まれる文書を分類する。着目言明の検索結果に含まれ、対立言明の検索結果に含まれない文書を純着目検索文書として文書IDと対応付けて、純着目検索文書記憶部402に記憶する(S503)。対立言明の検索結果に含まれ、着目言明の検索結果に含まれない文書を純対立検索文書として文書IDと対応付けて、純対立検索文書記憶部403に記憶する(S504)。着目言明の検索結果と対立言明の検索結果に含まれる文書を重複検索文書として文書IDと対応付けて、重複検索文書記憶部404に記憶する(S505)。文書IDは、検索結果の文書URLを用いてもよい。また、新たに振り直してもよい。 And classify the documents included in the search results. A document included in the focus statement search result and not included in the conflict statement search result is associated with the document ID as a net focus search document and stored in the net focus search document storage unit 402 (S503). A document included in the conflict statement search result and not included in the focus statement search result is associated with the document ID as a pure conflict search document and stored in the pure conflict search document storage unit 403 (S504). A document included in the search result of the statement of interest and the search result of the conflict statement is associated with the document ID as a duplicate search document and stored in the duplicate search document storage unit 404 (S505). The document ID of the search result may be used as the document ID. Moreover, you may re-shuffle.
 続いて、文書頻度算出処理(S104)について説明する。図6は、パッセージ抽出装置のうち文書頻度算出に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404に加えて、文書頻度算出部601と単語テーブル602を備えている。単語テーブル602は、単語毎にレコードを設け、純着目検索文書頻度と純対立検索文書頻度と重複検索文書頻度と全検索文書頻度を対応付けて記憶するように構成されている。 Subsequently, the document frequency calculation process (S104) will be described. FIG. 6 is a diagram showing a configuration relating to document frequency calculation in the passage extraction device. The passage extraction apparatus includes a document frequency calculation unit 601 and a word table 602 in addition to a pure focus search document storage unit 402, a pure conflict search document storage unit 403, and a duplicate search document storage unit 404. The word table 602 is configured so that a record is provided for each word, and the net search document frequency, the net conflict search document frequency, the duplicate search document frequency, and the all search document frequency are stored in association with each other.
 図7は、文書頻度算出処理フローを示す図である。純着目検索文書頻度算出処理(S701)と、純対立検索文書頻度算出処理(S702)と、重複検索文書頻度算出処理(S703)を順次行う。純着目検索文書頻度は、対象の単語が純着目検索文書集合中に出現する純着目検索文書の数である。同様に、純対立検索文書頻度は、対象の単語が純対立検索文書集合中に出現する純対立検索文書の数であり、重複検索文書頻度は、対象の単語が重複検索文書集合中に出現する重複検索文書の数である。更に、全検索文書頻度は、対象の単語が純着目検索文書、純対立検索文書、及び重複検索文書の全体集合中に出現する文書の数である。 FIG. 7 is a diagram showing a document frequency calculation processing flow. Purely focused search document frequency calculation processing (S701), pure conflict search document frequency calculation processing (S702), and duplicate search document frequency calculation processing (S703) are sequentially performed. The net focus search document frequency is the number of net focus search documents in which the target word appears in the net focus search document set. Similarly, the pure conflict search document frequency is the number of pure conflict search documents in which the target word appears in the pure conflict search document set, and the duplicate search document frequency is the target search word frequency in the duplicate search document set. This is the number of duplicate search documents. Furthermore, the total search document frequency is the number of documents in which the target word appears in the entire set of the net focus search document, the net conflict search document, and the duplicate search document.
 純着目検索文書頻度算出処理(S701)を図示する。図8は、純着目検索文書頻度算出処理フローを示す図である。純着目検索文書毎に以下の処理を繰り返す(S801)。当該純着目検索文書に含まれる単語を順次特定し、以下の処理を繰り返す(S802)。このとき、同一の文書に複数含まれる単語は、一度のみ処理する。つまり、重複は除外する。単語テーブル602に当該単語のレコードがない場合には(S803)当該単語のレコードを新たに追加する(S804)。単語IDと単語を書き込む。文書頻度は、いずれも初期値を0とする。そして、純着目検索文書頻度と全検索文書頻度に1を加える(S805)。この動作を当該純着目検索文書に含まれるすべての単語について処理して(S806)、次の純着目検索文書の処理に移行する。すべての純着目検索文書について処理した時点で終了する(S807)。 The net focus search document frequency calculation process (S701) is illustrated. FIG. 8 is a diagram showing a pure focus search document frequency calculation processing flow. The following processing is repeated for each purely focused search document (S801). Words included in the net focused search document are sequentially identified, and the following processing is repeated (S802). At this time, a plurality of words included in the same document are processed only once. In other words, duplication is excluded. If there is no record of the word in the word table 602 (S803), a record of the word is newly added (S804). Write the word ID and word. The initial value of the document frequency is 0. Then, 1 is added to the pure focus search document frequency and the total search document frequency (S805). This operation is processed for all the words included in the net focused search document (S806), and the process proceeds to the next pure focused search document. The process ends when all the net focus search documents have been processed (S807).
 純対立検索文書頻度算出処理(S702)も、同様に純対立検索文書頻度と全検索文書頻度を計数する。図9は、純対立検索文書頻度算出処理フローを示す図である。純対立検索文書毎に以下の処理を繰り返し(S901)、更に純対立検索文書に含まれる単語毎に処理を繰り返す(S902)。そして、純対立検索文書頻度と全検索文書頻度に1を加える(S905)。前述と同様に同一文書内で2回目以降に出現する単語は無視する。 In the pure conflict search document frequency calculation process (S702), the pure conflict search document frequency and the total search document frequency are similarly counted. FIG. 9 is a diagram showing a pure conflict search document frequency calculation processing flow. The following processing is repeated for each pure conflict search document (S901), and further, the processing is repeated for each word included in the pure conflict search document (S902). Then, 1 is added to the pure conflict search document frequency and the total search document frequency (S905). Similar to the above, words appearing after the second time in the same document are ignored.
 重複検索文書頻度算出処理(S703)も、同様に重複検索文書頻度と全検索文書頻度を計数する。図10は、重複検索文書頻度算出処理フローを示す図である。重複検索文書毎に以下の処理を繰り返し(S1001)、更に重複検索文書に含まれる単語毎に処理を繰り返す(S1002)。そして、重複検索文書頻度と全検索文書頻度に1を加える(S1005)。この処理も同様に、文書内に同じ単語が複数回出現しても1回出現として計数する。 In the duplicate search document frequency calculation process (S703), the duplicate search document frequency and the total search document frequency are similarly counted. FIG. 10 is a diagram showing a duplicate search document frequency calculation processing flow. The following process is repeated for each duplicate search document (S1001), and further, the process is repeated for each word included in the duplicate search document (S1002). Then, 1 is added to the duplicate search document frequency and the total search document frequency (S1005). Similarly, in this process, even if the same word appears several times in the document, it is counted as one occurrence.
 続いて、単語スコア算出処理(S105)について説明する。図11は、パッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。パッセージ抽出装置は、単語テーブル602の他、単語スコア算出部1101と単語スコアテーブル1102を有している。 Subsequently, the word score calculation process (S105) will be described. FIG. 11 is a diagram illustrating a configuration relating to word score calculation in the passage extraction device. The passage extraction device includes a word score calculation unit 1101 and a word score table 1102 in addition to the word table 602.
 この例で、単語スコアは「肯否スコア=純着目検索文書頻度-純対立検索文書頻度」である。この単語スコアは、相反する肯定と否定の両方の特性をプラスとマイナスの極性で示している。尚、他の単語スコアの例については、後に述べる。 In this example, the word score is “positive score = pure focus search document frequency−pure conflict search document frequency”. This word score shows both opposing positive and negative characteristics with positive and negative polarities. Examples of other word scores will be described later.
 図12は、単語スコア算出処理フローを示す図である。単語毎に(S1201)、単語テーブル602から純着目検索文書頻度と純対立検索文書頻度を取得して、純着目検索文書頻度から純対立検索文書頻度を引いて、差を求める(S1202)、そして、差を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S1203)。この処理を、すべての単語について行う(S1204)。 FIG. 12 is a diagram showing a word score calculation processing flow. For each word (S1201), the net focus search document frequency and the net conflict search document frequency are acquired from the word table 602, the net conflict search document frequency is subtracted from the net focus search document frequency, and a difference is obtained (S1202). The difference is stored as a positive / negative score (word score) in association with the word ID (S1203). This process is performed for all words (S1204).
 続いて、パッセージ範囲設定処理(S106)について説明する。図13は、パッセージ抽出装置のうちパッセージ範囲設定に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、及び重複検索文書記憶部404の他、パッセージ範囲判定部1301とパッセージテーブル1302を備えている。 Subsequently, the passage range setting process (S106) will be described. FIG. 13 is a diagram illustrating a configuration relating to passage range setting in the passage extraction device. The passage extraction apparatus includes a passage range determination unit 1301 and a passage table 1302 in addition to a pure focus search document storage unit 402, a pure conflict search document storage unit 403, and a duplicate search document storage unit 404.
 図14は、パッセージ範囲設定処理フローを示す図である。検索文書毎に以下の処理を繰り返す(S1401)。先頭から1分ずつ順次開始文を選択し(S1402)、開始文から、所定サイズ内の最大連続文(パッセージ)を特定する(S1403)。パッセージIDに対応付けて、文書ID、開始文ID、終了文IDを記憶する(S1404)。文書ID、開始文ID、終了文IDによりパッセージ範囲が設定される。すべての文について処理した時点で次の検索文書の処理に移行し(S1405)、すべての文書について処理した時点で終了する(S1406)。所定サイズは、全体の文字数、所定文字数からなる行の数、あるいは文の数などが考えられる。パッセージの範囲は、文単位ではなく文字単位で設定することもできる。パッセージ範囲を設定する検索文書は、着目言明で検索された文書及び対立言明で検索された文書を対象とする場合の他、着目言明で検索された文書のみ、あるいは対立言明で検索された文書のみを対象とすることもできる。 FIG. 14 is a diagram showing a passage range setting process flow. The following processing is repeated for each search document (S1401). Starting sentences are sequentially selected one minute at a time from the top (S1402), and the maximum continuous sentence (passage) within a predetermined size is specified from the starting sentence (S1403). The document ID, the start sentence ID, and the end sentence ID are stored in association with the passage ID (S1404). The passage range is set by the document ID, the start sentence ID, and the end sentence ID. When all the sentences have been processed, the process proceeds to the processing of the next search document (S1405), and ends when all the documents have been processed (S1406). The predetermined size may be the total number of characters, the number of lines composed of the predetermined number of characters, or the number of sentences. The range of passages can be set in character units instead of sentence units. The search document that sets the passage range is not limited to the document searched with the statement of interest and the document searched with the conflict statement, but only the document searched with the statement of interest, or only the document searched with the conflict statement. Can also be targeted.
 続いて、パッセージスコア算出処理(S107)について説明する。図15は、パッセージ抽出装置のうちパッセージスコア算出に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、重複検索文書記憶部404、単語テーブル602、及び単語スコアテーブル1102の他、パッセージスコア算出部1301とパッセージテーブル1302を備えている。 Subsequently, the passage score calculation process (S107) will be described. FIG. 15 is a diagram illustrating a configuration relating to passage score calculation in the passage extraction device. The passage extraction device includes a passage score calculation unit 1301 and a passage table 1302 in addition to a pure focus search document storage unit 402, a pure conflict search document storage unit 403, a duplicate search document storage unit 404, a word table 602, and a word score table 1102. I have.
 図16は、パッセージスコア算出処理フローを示す図である。設定したパッセージ毎に以下の処理を繰り返す(S1601)。パッセージテーブル1302に設定したパッセージ範囲(文書ID、開始文ID、終了文ID)に従って、各検索文書記憶部からパッセージを読み込む(S1602)。当該パッセージに含まれる単語を特定し、それぞれの単語の肯否スコアを単語スコアテーブル1102から読み取り、比較して最大の肯否スコアを判定する(S1603)。そして、最大の肯否スコアを最肯定スコアとする(S1604)。最肯定スコアは、単語の肯定特性が最も高いもののその程度を値の大きさで示している。同様にパッセージに含まれる単語のうち、最小の肯否スコアも判定し(S1605)、最小の肯否スコアの絶対値を最否定スコアとする(S1606)。最否定スコアは、単語の否定特性が最も高いもののその程度を値の大きさで示している。最肯定スコアに最否定スコアを乗じて、積をパッセージスコアとして記憶する(S1607)。これらの処理をすべてのパッセージについて処理した時点で終了する(S1608)。尚、最肯定スコアに最否定スコアを加えて、和をパッセージスコアとする方法もある。また、最肯定スコア及び最否定スコアがそれぞれ最低値の条件を満たさない場合には、パッセージスコアを無効とすることも有効である。 FIG. 16 is a diagram showing a passage score calculation processing flow. The following processing is repeated for each set passage (S1601). In accordance with the passage range (document ID, start sentence ID, end sentence ID) set in the passage table 1302, the passage is read from each search document storage unit (S1602). The word contained in the passage is specified, the positive / negative score of each word is read from the word score table 1102, and compared to determine the maximum positive / negative score (S1603). Then, the maximum positive / negative score is set as the maximum positive score (S1604). The most affirmative score indicates the degree of a word having the highest affirmative characteristic by the magnitude of the value. Similarly, the minimum positive score among the words included in the passage is also determined (S1605), and the absolute value of the minimum positive score is set as the maximum negative score (S1606). The most negative score indicates the degree of the negative characteristic of the word with the highest value. The most negative score is multiplied by the most negative score, and the product is stored as a passage score (S1607). These processes are terminated when all passages have been processed (S1608). There is also a method in which the most negative score is added to the most positive score, and the sum is used as the passage score. It is also effective to invalidate the passage score when the most positive score and the most negative score do not satisfy the minimum value condition.
 最後に、パッセージ選択処理(S108)とパッセージ出力処理(S109)について説明する。図17は、パッセージ抽出装置のうちパッセージ選択とパッセージ出力に係る構成を示す図である。パッセージ抽出装置は、純着目検索文書記憶部402、純対立検索文書記憶部403、重複検索文書記憶部404、及びパッセージテーブル1302の他パッセージ選択部1701とパッセージ出力部1702を備えている。 Finally, the passage selection process (S108) and the passage output process (S109) will be described. FIG. 17 is a diagram illustrating a configuration relating to passage selection and passage output in the passage extraction device. The passage extraction apparatus includes a pure focus search document storage unit 402, a pure conflict search document storage unit 403, a duplicate search document storage unit 404, and a passage selection unit 1701 and a passage output unit 1702 in addition to the passage table 1302.
 パッセージ選択部1701は、パッセージテーブル1302からパッセージスコアを読み取り、最大のパッセージスコアを特定する。そして、当該パッセージスコアのパッセージ範囲(文書ID、開始文ID、終了文ID)を読み取る。パッセージ出力部1702は、当該パッセージ範囲(文書ID、開始文ID、終了文ID)のパッセージを検索文書記憶部から読み取り、出力する。出力形態は、表示、印刷、送信、記憶媒体への記憶などが想定される。複数のパッセージを出力する場合には、パッセージスコアの大きい順に、当該複数分のパッセージを特定して、出力する。 The passage selection unit 1701 reads the passage score from the passage table 1302 and identifies the maximum passage score. Then, the passage range (document ID, start sentence ID, end sentence ID) of the passage score is read. The passage output unit 1702 reads a passage in the passage range (document ID, start sentence ID, end sentence ID) from the search document storage unit and outputs the passage. As the output form, display, printing, transmission, storage in a storage medium, and the like are assumed. When outputting a plurality of passages, the passages for the plurality of passages are specified and output in descending order of the passage score.
 実施の形態2.
上述の例では、単一の肯否スコアで肯定特性と否定特性の両方を示す例を説明したが、単語スコアとして、肯定特性を示す肯定側スコアと否定特性を示す否定側スコアを別個に設けることもできる。この例では、単語スコアは「肯定側スコア=純着目検索文書頻度-純対立検索文書頻度」と「否定側スコア=純対立検索文書頻度-純着目検索文書頻度」の2つとなる。
Embodiment 2. FIG.
In the above-described example, an example in which both a positive characteristic and a negative characteristic are indicated by a single positive / negative score has been described. However, a positive score indicating a positive characteristic and a negative score indicating a negative characteristic are separately provided as word scores. You can also. In this example, there are two word scores: “positive side score = pure focused search document frequency−pure conflict search document frequency” and “negative side score = pure conflict search document frequency−pure focused search document frequency”.
 図18は、実施の形態2におけるパッセージ抽出装置のうち単語スコア算出に係る構成を示す図である。この例では、単語スコア算出部1101は、単語毎に肯定側スコアと否定側スコアを単語スコアテーブル1102に記憶させる。 FIG. 18 is a diagram illustrating a configuration relating to word score calculation in the passage extraction apparatus according to the second embodiment. In this example, the word score calculation unit 1101 stores a positive score and a negative score in the word score table 1102 for each word.
 本形態における単語スコア算出処理(S105)について説明する。図19は、実施の形態2における単語スコア算出処理フローを示す図である。この例では、純着目検索文書頻度から純対立検索文書頻度を引いて、文書頻度の差を求め(S1902)、文書頻度の差を肯定側スコア(単語スコア)として、単語IDに対応付けて単語スコアテーブル1102に記憶する(S1903)。更に、純対立検索文書頻度から純着目検索文書頻度を引いて、別に文書頻度の差を求め(S1904)、別の文書頻度の差も否定側スコア(単語スコア)として、単語IDに対応付けて単語スコアテーブル1102に記憶する(S1905)。 The word score calculation process (S105) in this embodiment will be described. FIG. 19 is a diagram showing a word score calculation processing flow in the second embodiment. In this example, the net conflict search document frequency is subtracted from the net focused search document frequency to obtain a difference in document frequency (S1902), and the word frequency is correlated with the word ID as a positive score (word score). It is stored in the score table 1102 (S1903). Further, the net focused search document frequency is subtracted from the pure conflict search document frequency to obtain another document frequency difference (S1904), and another document frequency difference is also associated with the word ID as a negative score (word score). It memorize | stores in the word score table 1102 (S1905).
 本形態におけるパッセージスコア算出処理(S107)について説明する。図20は、実施の形態2におけるパッセージスコア算出処理フローを示す図である。パッセージに含まれる単語のうち、最大の肯定側スコアを判定して(S2003)、最大の肯定側スコアを最肯定スコアとし(S2004)、パッセージに含まれる単語のうち、最大の否定側スコアを判定し(S2005)、最大の否定側スコアをそのまま最否定スコアに用いて、パッセージスコアを求める(S2006,S2007)。 The passage score calculation process (S107) in this embodiment will be described. FIG. 20 is a diagram showing a passage score calculation processing flow in the second embodiment. Of the words included in the passage, the maximum positive score is determined (S2003), the maximum positive score is set as the highest positive score (S2004), and the maximum negative score is determined among the words included in the passage. Then, the passage score is obtained using the maximum negative score as it is as the maximum negative score (S2006, S2007).
 実施の形態3.
実施の形態1では、各単語の検索文書頻度同士の差を単語スコアとしたが、各単語の検索文書頻度を文書数で割って、検索文書頻度の比率を求め、検索文書頻度の比率の差を単語スコアとすることも有効である。この例で、単語スコアは「肯否スコア=(純着目検索文書頻度/純着目検索文書数)-(純対立検索文書頻度/純対立検索文書数)」である。
Embodiment 3 FIG.
In the first embodiment, the difference between the search document frequencies of each word is used as the word score. However, the search document frequency ratio is calculated by dividing the search document frequency of each word by the number of documents, and the difference of the search document frequency ratios. It is also effective to use as a word score. In this example, the word score is “positive score = (pure target search document frequency / pure target search document number) − (pure conflict search document frequency / pure conflict search document number)”.
 図21は、実施の形態3における単語スコア算出処理フローを示す図である。単語毎に(S2101)、純着目検索文書頻度を純着目検索文書数で割って、純着目検索文書頻度の比率を求め(S2102)、更に純対立検索文書頻度を純対立検索文書数で割って、純対立検索文書頻度の比率を求める(S2103)。そして、純着目検索文書頻度の比率から純対立検索文書頻度の比率を引いて、文書頻度の比率の差を求め(S2104)、この文書頻度の比率の差を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2105)。 FIG. 21 is a diagram showing a word score calculation processing flow in the third embodiment. For each word (S2101), the net focus search document frequency is divided by the net focus search document number to obtain the net focus search document frequency ratio (S2102), and the net conflict search document frequency is further divided by the net conflict search document number. Then, the ratio of the pure conflict search document frequency is obtained (S2103). Then, the ratio of the net conflict search document frequency is subtracted from the ratio of the net focused search document frequency to obtain a difference in the document frequency ratio (S2104), and the difference in the document frequency ratio is set as a positive score (word score). It is stored in association with the word ID (S2105).
 純着目検索文書の数と純対立検索文書の数が大きく相違する場合に、両文書間での1文書あたりのスコアに与える寄与度を均一化することができる。 When the number of net-focused search documents and the number of net-conflict search documents are greatly different, the degree of contribution to the score per document between both documents can be made uniform.
 実施の形態4.
肯定側スコアと否定側スコアで、検索文書頻度の比率の差を用いることも考えられる。この例で、単語スコアは「肯定側スコア=(純着目検索文書頻度/純着目検索文書数)-(純対立検索文書頻度/純対立検索文書数)」と「否定側スコア=(純対立検索文書頻度/純対立検索文書数)-(純着目検索文書頻度/純着目検索文書数)」である。
Embodiment 4 FIG.
It is also conceivable to use a difference in the ratio of search document frequencies between the positive score and the negative score. In this example, the word score is “positive score = (pure focused search document frequency / pure focused search document count) − (pure conflict search document frequency / pure conflict search document count)” and “negative score = (pure conflict search document). Document frequency / number of pure conflict search documents) − (pure focus search document frequency / pure focus search document count) ”.
 図22は、実施の形態4における単語スコア算出処理フローを示す図である。単語毎に(S2201)、前述と同様に、純着目検索文書頻度を純着目検索文書数で割って、純着目検索文書頻度の比率を求め(S2202)、純対立検索文書頻度を純対立検索文書数で割って、純対立検索文書頻度の比率を求める(S2203)。そして、純着目検索文書頻度の比率から純対立検索文書頻度の比率を引いて、文書頻度の比率の差を求めて(S2204)、この文書頻度の比率の差を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2205)。更に、純対立検索文書頻度の比率から純着目検索文書頻度の比率を引いて、別に文書頻度の比率の差を求める(S2206)。別に求めた文書頻度の比率の差を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2207)。 FIG. 22 is a diagram showing a word score calculation processing flow in the fourth embodiment. For each word (S2201), as described above, the net focus search document frequency is divided by the net focus search document number to obtain the net focus search document frequency ratio (S2202), and the net conflict search document frequency is determined as the net conflict search document. By dividing by the number, the ratio of the pure conflict search document frequency is obtained (S2203). Then, the ratio of the pure confrontation search document frequency is subtracted from the ratio of the net focused search document frequency to obtain the difference in the document frequency ratio (S2204), and the difference in the document frequency ratio is set as an affirmative score (word score). And stored in association with the word ID (S2205). Further, the ratio of the net focus search document frequency is subtracted from the ratio of the net conflict search document frequency, and a difference in the document frequency ratio is obtained separately (S2206). The difference in the document frequency ratio obtained separately is stored as a negative score (word score) in association with the word ID (S2207).
 実施の形態5.
実施の形態2では、文書頻度の差を単語スコアとしたが、文書頻度の比を単語スコアとすることもできる。この例で、単語スコアは「肯否スコア=純着目検索文書頻度/純対立検索文書頻度」である。この単語スコアは、単独で相反する肯定と否定の両方の特性を無限大と0の極値として示している。
Embodiment 5 FIG.
In the second embodiment, the difference in document frequency is used as the word score, but the ratio of document frequencies can also be used as the word score. In this example, the word score is “positive score = pure focus search document frequency / pure conflict search document frequency”. This word score shows both the positive and negative characteristics, which are contradictory alone, as extreme values of infinity and zero.
 図23は、実施の形態5における単語スコア算出処理フローを示す図である。単語毎に(S2301)、純着目検索文書頻度を純対立検索文書頻度で割って、文書頻度比を求め(S2302)、文書頻度比を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2303)。そして、すべての単語について処理した時点で終了する(S2304)。 FIG. 23 is a diagram showing a word score calculation processing flow in the fifth embodiment. For each word (S2301), the net focus search document frequency is divided by the net conflict search document frequency to obtain a document frequency ratio (S2302), and the document frequency ratio is set as a positive score (word score) and associated with the word ID. Store (S2303). Then, the process ends when all the words are processed (S2304).
 図24は、実施の形態5におけるパッセージスコア算出処理フローを示す図である。パッセージに含まれる単語のうち、最大の肯否スコアを判定し(S2403)、最大の肯否スコアを最肯定スコアとする(S2404)。更に、パッセージに含まれる単語のうち、最小の肯否スコアを判定し(S2405)、最小の肯否スコアの逆数を最否定スコアとする(S2406)。最肯定スコアに最否定スコアを乗じて、積をパッセージスコアとして記憶する(S2407)。あるいは、最肯定スコアに最否定スコアを加えて、和をパッセージスコアとして記憶する(S2407)。前述と同様に、最低値の条件を課すこともできる。 FIG. 24 is a diagram showing a passage score calculation processing flow in the fifth embodiment. Among words included in the passage, the maximum positive score is determined (S2403), and the maximum positive score is set as the highest positive score (S2404). Furthermore, among the words included in the passage, the minimum positive score is determined (S2405), and the reciprocal of the minimum positive score is set as the maximum negative score (S2406). The most negative score is multiplied by the most negative score, and the product is stored as a passage score (S2407). Alternatively, the most negative score is added to the most positive score, and the sum is stored as a passage score (S2407). As before, a minimum value condition can be imposed.
 実施の形態6.
比を指標とする場合、母数が0となるとその値が無限大となるため、母数に定数を加えることにより、指標の極大化を防ぐことが有効である。この例で、単語スコアは「肯否スコア=(純着目検索文書頻度+定数)/(純対立検索文書頻度+定数)」である。
Embodiment 6 FIG.
When the ratio is used as an index, the value becomes infinite when the parameter is 0. Therefore, it is effective to prevent the index from being maximized by adding a constant to the parameter. In this example, the word score is “positive score = (pure focus search document frequency + constant) / (pure conflict search document frequency + constant)”.
 図25は、実施の形態6における単語スコア算出処理フローを示す図である。単語毎に、純着目検索文書頻度に定数を加え(S2502)、純対立検索文書頻度に定数を加え(S2503)、加算した純着目検索文書頻度を加算した純対立検索文書頻度で割って、文書頻度比を求める(S2504)。文書頻度比を肯否スコア(単語スコア)として、単語IDに対応付けて記憶する(S2505)。すべての単語について処理して終了する(S2506)。定数は、例えば頻度の最小単位である「1」を用いる。 FIG. 25 is a diagram showing a word score calculation processing flow in the sixth embodiment. For each word, a constant is added to the net focused search document frequency (S2502), a constant is added to the pure conflict search document frequency (S2503), and the added net focused search document frequency is divided by the net conflict search document frequency to obtain the document. A frequency ratio is obtained (S2504). The document frequency ratio is stored as a positive / negative score (word score) in association with the word ID (S2505). Processing is completed for all words (S2506). For example, “1” which is the minimum unit of frequency is used as the constant.
 本形態のパッセージスコア算出処理は、前述の図24の通りである。 The passage score calculation process of this embodiment is as shown in FIG.
 実施の形態7.
実施の形態6と同様に、比による指標の極大化を防ぐため、「肯定側スコア=純着目検索文書頻度/(純対立検索文書頻度+定数)」と「否定側スコア=純対立検索文書頻度/(純着目検索文書頻度+定数)」の2つの単語スコアを用いることも考えられる。
Embodiment 7 FIG.
As in the sixth embodiment, in order to prevent the maximization of the index due to the ratio, “positive score = pure focus search document frequency / (pure conflict search document frequency + constant)” and “negative score = pure conflict search document frequency”. It is also conceivable to use two word scores of “/ (pure focus search document frequency + constant)”.
 図26は、実施の形態7における単語スコア算出処理フローを示す図である。純対立検索文書頻度に定数を加え(S2602)、純着目検索文書頻度を、加算した純対立検索文書頻度で割って、文書頻度比を求める(S2603)。そして、この文書頻度比を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2604)。更に、純着目検索文書頻度に定数を加え(S2605)、純対立検索文書頻度を、加算した純着目検索文書頻度で割って、別の文書頻度比を求める(S2606)。そして、別の文書頻度比を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2607)。 FIG. 26 is a diagram showing a word score calculation processing flow in the seventh embodiment. A constant is added to the pure conflict search document frequency (S2602), and the pure focus search document frequency is divided by the added pure conflict search document frequency to obtain a document frequency ratio (S2603). Then, this document frequency ratio is stored as an affirmative score (word score) in association with the word ID (S2604). Further, a constant is added to the net focus search document frequency (S2605), and the net conflict search document frequency is divided by the added net focus search document frequency to obtain another document frequency ratio (S2606). Then, another document frequency ratio is stored as a negative score (word score) in association with the word ID (S2607).
 実施の形態8.
単語スコアの算出において、当該単語の検索文書全体に対する大域的重要性を反映させるために、単語スコアに全検索文書頻度を乗じる例について説明する。この例で、単語スコアは「肯定側スコア=(純着目検索文書頻度*全検索文書頻度)/(純対立検索文書頻度+定数)」と「否定側スコア=(純対立検索文書頻度*全検索文書頻度)/(純着目検索文書頻度+定数)」である。
Embodiment 8 FIG.
In the calculation of the word score, an example will be described in which the word score is multiplied by the total search document frequency in order to reflect the global importance of the word with respect to the entire search document. In this example, the word score is “positive score = (pure search document frequency * total search document frequency) / (pure conflict search document frequency + constant)” and “negative score = (pure conflict search document frequency * full search). Document frequency) / (pure focus search document frequency + constant) ”.
 図27は、実施の形態8における単語スコア算出処理フローを示す図である。純対立検索文書頻度に定数を加え(S2702)、純着目検索文書頻度を、加算した純対立検索文書頻度で割って、文書頻度比を求め(S2703)、その文書頻度比に全検索文書頻度を乗じる(S2704)。そして、積算した文書頻度比を肯定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2705)。更に、純着目検索文書頻度に定数を加え(S2706)、純対立検索文書頻度を、加算した純着目検索文書頻度で割って、別の文書頻度比を求め(S2707)、別の文書頻度比に全検索文書頻度を乗じる(S2708)。そして積算した別の文書頻度比を否定側スコア(単語スコア)として、単語IDに対応付けて記憶する(S2709)。 FIG. 27 is a diagram showing a word score calculation processing flow in the eighth embodiment. A constant is added to the pure conflict search document frequency (S2702), the pure focus search document frequency is divided by the added pure conflict search document frequency to obtain a document frequency ratio (S2703), and the total search document frequency is added to the document frequency ratio. Multiply (S2704). The accumulated document frequency ratio is stored as an affirmative score (word score) in association with the word ID (S2705). Further, a constant is added to the net focus search document frequency (S2706), and the net conflict search document frequency is divided by the added net focus search document frequency to obtain another document frequency ratio (S2707). Multiply the frequency of all search documents (S2708). Then, the accumulated another document frequency ratio is stored as a negative score (word score) in association with the word ID (S2709).
 前述の他の単語スコア(実施の形態1乃至7)に対して、全検索文書頻度を乗じることも有効である。 It is also effective to multiply the above-mentioned other word scores (Embodiments 1 to 7) by the total search document frequency.
 実施の形態9.
前述の形態では、単語スコアの最大値によってパッセージスコアを算出したが、一定以上の単語スコアを有する単語を特徴語と定義して、その特徴語の個数によってパッセージスコアを定めることもできる。
Embodiment 9 FIG.
In the above-described embodiment, the passage score is calculated based on the maximum value of the word score. However, it is also possible to define a word having a certain or higher word score as a feature word and to determine the passage score based on the number of the feature words.
 図28は、実施の形態9における全体処理フローを示す図である。単語スコア算出処理(S105)に続いて、特徴語判定処理(S2801)を行う。特徴語判定処理(S2801)では、単語スコアを基準にして特性の強い単語を特徴語に分類する。 FIG. 28 is a diagram showing an overall processing flow in the ninth embodiment. Following the word score calculation process (S105), a feature word determination process (S2801) is performed. In the feature word determination process (S2801), words having strong characteristics are classified as feature words based on the word score.
 図29は、パッセージ抽出装置のうち特徴語判定に係る構成を示す図である。パッセージ抽出装置は、着目言明記憶部202、単語テーブル602、及び単語スコアテーブル1102の他、特徴語判定部2901、肯定側特徴語テーブル2902、否定側特徴語テーブル2903、及びトピック特徴語テーブル2904を備えている。肯定側特徴語は、対立言明には関連せず着目言明にのみ関連する話題を表す語句であり、否定側特徴語は、着目言明には関連せず対立言明にのみ関連する話題を表す語句である。また、トピック特徴語は、着目言明と対立言明に共通する話題を表す語句である。特徴語テーブルは、これらの特徴語の集合を記憶する。 FIG. 29 is a diagram illustrating a configuration relating to feature word determination in the passage extraction device. The passage extraction device includes a feature word determination unit 2901, an affirmative side feature word table 2902, a negative side feature word table 2903, and a topic feature word table 2904, in addition to the notice statement storage unit 202, the word table 602, and the word score table 1102. I have. The positive feature word is a phrase that represents a topic that is not related to the conflicting statement but only related to the statement of interest, and the negative feature word is a word that represents a topic that is related to the statement of interest but not related to the statement of interest. is there. The topic feature word is a phrase representing a topic common to the statement of interest and the conflict statement. The feature word table stores a set of these feature words.
 肯否スコアを用いる場合の特徴語判定について説明する。図30は、特徴語判定処理フロー(その1)を示す図である。まず、着目言明の内容語を抽出する(S3001)。続いて、単語毎に以下の処理を繰り返す(S3002)。肯否スコアが肯定側閾値より大きい場合には(S3003)、当該単語を肯定側特徴語として肯定側特徴語テーブル2902に記憶する(S3004)。一方、肯否スコアが否定側閾値より小さい場合には(S3005)、否定側特徴語として否定側特徴語テーブル2903に記憶する(S3006)。いずれにも該当しない単語について、内容語と一致するか判定し(S3007)、内容語と一致する場合にはトピック特徴語としてトピック特徴語テーブル2904に記憶する(S3008)。この処理をすべての単語について処理したか(S3009)。 The feature word determination when using a positive / negative score will be described. FIG. 30 is a diagram showing a feature word determination processing flow (No. 1). First, the content word of the statement of interest is extracted (S3001). Subsequently, the following processing is repeated for each word (S3002). If the positive / negative score is larger than the positive threshold (S3003), the word is stored in the positive feature word table 2902 as a positive feature word (S3004). On the other hand, when the positive / negative score is smaller than the negative threshold (S3005), the negative characteristic word is stored in the negative characteristic word table 2903 (S3006). It is determined whether or not a word that does not correspond to any content word (S3007), and if it matches the content word, it is stored in the topic feature word table 2904 as a topic feature word (S3008). Has this processing been performed for all words (S3009)?
 肯定側スコアと否定側スコアを用いる場合の特徴語判定について説明する。図31は、特徴語判定処理フロー(その2)を示す図である。肯定側スコアが肯定側閾値より大きい場合には(S3103)、当該単語を肯定側特徴語として肯定側特徴語テーブル2902に記憶する(S3104)。一方、否定側スコアが否定側閾値より大きい場合には(S3105)、当該単語を否定側特徴語として否定側特徴語テーブル2903に記憶する(S3106)。 The feature word determination when using the positive score and negative score will be described. FIG. 31 is a diagram showing a feature word determination processing flow (2). When the positive score is larger than the positive threshold (S3103), the word is stored in the positive feature word table 2902 as a positive feature word (S3104). On the other hand, when the negative score is larger than the negative threshold (S3105), the word is stored in the negative feature word table 2903 as a negative feature word (S3106).
 図32は、実施の形態9におけるパッセージスコア算出処理フローを示す図である。肯定側特徴語毎にパッセージに含まれるかを判定し、出現する肯定側特徴語の数を得る(S3203)。否定側特徴語毎にパッセージに含まれるかを判定し、出現する否定側特徴語の数を得る(S3204)。トピック特徴語毎にパッセージに含まれるかを判定し、出現するトピック特徴語の数を得る(S3205)。そして、出現する肯定側特徴語の数、出現する否定側特徴語の数、及び出現するトピック特徴語数を積算して、積をパッセージスコアとする(S3206)。あるいは、出現する肯定側特徴語の数、出現する否定側特徴語の数、及び出現するトピック特徴語数を加算して、和をパッセージスコアとする(S3206)。その他、出現する肯定側特徴語の数と出現する否定側特徴語の数の積に、出現するトピック特徴語数を加えて、その和をパッセージスコアとする方法や、出現する肯定側特徴語の数と出現する否定側特徴語の数の和に、出現するトピック特徴語数を乗じて、その積をパッセージスコアとする方法なども考えられる。トピック特徴語数を用いずに、出現する肯定側特徴語の数と出現する否定側特徴語の数の積、あるいは出現する肯定側特徴語の数と出現する否定側特徴語の数の和をパッセージスコアとすることも可能である。上述の特徴語の数は、特徴語別の数、つまり特徴語の種類数である。 FIG. 32 is a diagram showing a passage score calculation processing flow in the ninth embodiment. It is determined whether each positive-side feature word is included in the passage, and the number of positive-side feature words that appear is obtained (S3203). It is determined whether each negative feature word is included in the passage, and the number of negative feature words that appear is obtained (S3204). It is determined whether each topic feature word is included in the passage, and the number of topic feature words that appear is obtained (S3205). Then, the number of appearing positive feature words, the number of appearing negative feature words, and the number of appearing topic feature words are integrated, and the product is taken as a passage score (S3206). Alternatively, the number of positive-side feature words that appear, the number of negative-side feature words that appear, and the number of topic feature words that appear are added, and the sum is taken as a passage score (S3206). In addition, by adding the number of topic feature words that appear to the product of the number of positive feature words that appear and the number of negative feature words that appear, the sum is taken as the passage score, or the number of positive feature words that appear A method may be considered in which the sum of the number of negative feature words that appear is multiplied by the number of topic feature words that appear and the product is used as a passage score. Passage is the product of the number of positive feature words that appear and the number of negative feature words that appear, or the sum of the number of positive feature words that appear and the number of negative feature words that appear, without using the number of topic feature words It can also be a score. The number of feature words is the number of feature words, that is, the number of feature words.
 実施の形態10.
この実施の形態では、特徴語毎に、パッセージに含まれる文のうち、当該特徴語を含む文の数を算出して、当該特徴語の出現度数とする。この特徴語の出現度数を用いて、パッセージスコアを設定する。
Embodiment 10 FIG.
In this embodiment, for each feature word, the number of sentences including the feature word among the sentences included in the passage is calculated and used as the appearance frequency of the feature word. A passage score is set using the frequency of appearance of the feature words.
 図33は、実施の形態10におけるパッセージスコア算出処理フローを示す図である。肯定側特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該肯定側特徴語の出現度数する(S3303)。否定側特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該否定側特徴語の出現度数する(S3304)。トピック特徴語毎に、パッセージに含まれる文のうち、当該語を含む文の数を算出し、当該トピック特徴語の出現度数とする(S3305)。そして、全肯定側特徴語の出現度数の総数、全否定側特徴語の出現度数の総数、及び全トピック特徴語の出現度数の総数を積算して、積をパッセージスコアとする(S3306)。あるいは、全肯定側特徴語の出現度数の総数、全否定側特徴語の出現度数の総数、及び全トピック特徴語の出現度数の総数を加算して、和をパッセージスコアとする(S3306)。その他、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の積に、を全トピック特徴語の出現度数の総数を加えて、その和をパッセージスコアとする方法や、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の和に、全トピック特徴語の出現度数の総数を乗じて、その積をパッセージスコアとする方法なども考えられる。全トピック特徴語の出現度数の総数を用いずに、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の積や、全肯定側特徴語の出現度数の総数と全否定側特徴語の出現度数の総数の和をパッセージスコアとすることも可能である。 FIG. 33 is a diagram showing a passage score calculation process flow according to the tenth embodiment. For each positive-side feature word, the number of sentences including the word among the sentences included in the passage is calculated, and the appearance frequency of the positive-side feature word is calculated (S3303). For each negative side feature word, the number of sentences including the word among the sentences included in the passage is calculated, and the appearance frequency of the negative side feature word is calculated (S3304). For each topic feature word, the number of sentences including the word among the sentences included in the passage is calculated and used as the appearance frequency of the topic feature word (S3305). Then, the total number of appearance frequencies of all positive side feature words, the total number of appearance frequencies of all negative side feature words, and the total number of appearance frequencies of all topic feature words are integrated, and the product is taken as a passage score (S3306). Alternatively, the total number of appearance frequencies of all positive side feature words, the total number of appearance frequencies of all negative side feature words, and the total number of appearance frequencies of all topic feature words are added, and the sum is taken as a passage score (S3306). Other methods include adding the total number of appearance frequencies of all topic feature words to the product of the total number of appearance frequencies of all positive feature words and the total number of appearance frequencies of all negative feature words, and using the sum as the passage score. Also, consider the method of multiplying the total number of appearance frequencies of all positive feature words and the total appearance frequency of all negative feature words by the total number of appearance frequencies of all topic feature words, and using that product as the passage score. It is done. Without using the total occurrence frequency of all topic feature words, the product of the total occurrence frequency of all positive feature words and the total occurrence frequency of all negative feature words, or the total occurrence frequency of all positive feature words It is also possible to use the sum of the total number of appearances of all negative side feature words as the passage score.
 実施の形態11.
単語スコアに基づいて順位を付けて、その順位を用いて特徴語を判定することもできる。
Embodiment 11 FIG.
It is also possible to assign a rank based on the word score and determine the feature word using the rank.
 図34は、実施の形態11における特徴語判定処理フローを示す図である。各単語を肯定側スコアで順位付けし(S3402)、各単語を否定側スコアで順位付けし、単語毎に(S3404)、否定側スコア順位から肯定側スコア順位を引いた差が順位差閾値より大きい場合には(S3405)、肯定側特徴語として記憶する(S3406)。一方、肯定側スコア順位から否定側スコア順位を引いた差が順位差閾値より大きい場合には(S3407)、否定側特徴語として記憶する(S3408)。順位の差によらず、肯定側スコア順位が順位閾値より小さい場合に肯定側特徴語とし、否定側スコア順位が順位閾値より小さい場合に否定側特徴語とすることも可能である。 FIG. 34 is a diagram showing a feature word determination processing flow in the eleventh embodiment. Each word is ranked by the positive score (S3402), each word is ranked by the negative score, and for each word (S3404), the difference obtained by subtracting the positive score rank from the negative score rank is greater than the rank difference threshold. If larger (S3405), it is stored as an affirmative feature word (S3406). On the other hand, when the difference obtained by subtracting the negative score rank from the positive score rank is larger than the rank difference threshold (S3407), it is stored as a negative feature word (S3408). Regardless of the difference in rank, an affirmative score word can be used when the affirmative score rank is smaller than the rank threshold, and a negative feature word when the negative score rank is smaller than the rank threshold.
 実施の形態12.
本実施の形態では、文に対して特徴語の出現数による文スコアを算出し、文スコアに基づいてパッセージスコアを求める例について説明する。
Embodiment 12 FIG.
In the present embodiment, an example will be described in which a sentence score is calculated based on the number of appearances of feature words for a sentence, and a passage score is obtained based on the sentence score.
 図35は、実施の形態12における全体処理フローを示す図である。特徴語判定処理(S2801)に続いて、文スコア算出処理(S3501)を行う。 FIG. 35 is a diagram showing an overall processing flow in the twelfth embodiment. Subsequent to the feature word determination process (S2801), a sentence score calculation process (S3501) is performed.
 文スコア算出処理(S3501)について説明する。図36は、文スコア算出処理フローを示す図である。各検索文書に含まれる文毎に以下の処理を繰り返す(S3601)。肯定側特徴語、否定側特徴語、及びトピック特徴語の各特徴語について(S3602)、当該文に当該特徴語が含まれるか判定し(S3603)、含まれる場合に特徴語の出現数(初期値0)に1を加える(S3604)。これをすべての特徴語について処理することにより(S3605)、特徴語の出現数を得て、これを当該文のスコアとして文スコア記憶部に文IDと対応付けて記憶する(S3606)。すべての文について特徴語の出現数を得て終了する(S3607)。 The sentence score calculation process (S3501) will be described. FIG. 36 is a diagram showing a sentence score calculation processing flow. The following processing is repeated for each sentence included in each search document (S3601). For each feature word of the affirmative feature word, negative feature word, and topic feature word (S3602), it is determined whether or not the feature word is included in the sentence (S3603). 1 is added to the value 0) (S3604). By processing this for all feature words (S3605), the number of occurrences of the feature word is obtained, and this is stored as a score of the sentence in the sentence score storage unit in association with the sentence ID (S3606). The feature word appearance count is obtained for all sentences, and the process ends (S3607).
 パッセージスコア算出処理(S106)について説明する。図37は、実施の形態12におけるパッセージスコア算出処理フローを示す図である。パッセージ毎に(S3701)、パッセージに含まれる文のスコアのうち、最大の文スコアを判定し(S3702)、最大の文スコアをパッセージスコアとする(S3703)。そして、すべてのパッセージについて処理して終了する(S3704)。 The passage score calculation process (S106) will be described. FIG. 37 is a diagram showing a passage score calculation process flow according to the twelfth embodiment. For each passage (S3701), the maximum sentence score is determined from the sentence scores included in the passage (S3702), and the maximum sentence score is set as the passage score (S3703). Then, processing is completed for all passages (S3704).
 実施の形態13.
肯定側特徴語、否定側特徴語、及びトピック特徴語が含まれるパッセージのスコアを高める調整を行う形態について説明する。
Embodiment 13 FIG.
A mode in which adjustment is performed to increase the score of a passage including a positive side feature word, a negative side feature word, and a topic feature word will be described.
 図38は、実施の形態13におけるパッセージスコア算出処理フローを示す図である。パッセージ毎に(S3801)、前述と同様にパッセージに含まれる文のスコアのうち、最大の文スコアを判定する(S3802)。そして、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語が含まれるか判定し(S3803)、いずれかの肯定側特徴語と、いずれかの否定側特徴語と、いずれかのトピック特徴語がすべて含まれている場合に、最大の文スコアにボーナス係数を乗じて、その積をパッセージスコアとする(S3804)。ボーナス係数は、1より大きい値である。肯定側特徴語、否定側特徴語、及びトピック特徴語のうち少なくとも1つが含まれていない場合には、ボーナス係数を乗じないで、最大の文スコアをパッセージスコアとする(S3805)。これを、すべてのパッセージについて処理して終了する(S3806)。 FIG. 38 is a diagram showing a passage score calculation process flow according to the thirteenth embodiment. For each passage (S3801), the maximum sentence score among the sentences included in the passage is determined in the same manner as described above (S3802). Then, it is determined whether the passage includes a positive feature word, a negative feature word, and a topic feature word (S3803), and any positive feature word, any negative feature word, and any topic. When all the feature words are included, the maximum sentence score is multiplied by the bonus coefficient, and the product is used as the passage score (S3804). The bonus coefficient is a value greater than 1. If at least one of the positive side feature word, the negative side feature word, and the topic feature word is not included, the maximum sentence score is set as the passage score without multiplying by the bonus coefficient (S3805). This is processed for all passages, and the process ends (S3806).
 実施の形態14.
文スコア算出において、文中に出現する特徴語の組合せによって、文スコアを調整する形態について説明する。
Embodiment 14 FIG.
In the sentence score calculation, a form in which the sentence score is adjusted by a combination of feature words appearing in the sentence will be described.
 図39は、実施の形態14における文スコア算出処理フローを示す図である。前述と同様に、各検索文書に含まれる文毎に(S3901)、特徴語の出現数を算出する(S3902)。もし、当該文が不十分な文である場合や省略文で有る場合には(S3903)、特徴語の出現数にペナルティ係数を乗じる(S3904)。ペナルティ係数は、1よりも小さい値である。トピック特徴語を含まない場合(S3905)と、トピック特徴語のみを含む場合には(S3905,S3906,S3907)、係数を乗じることなく特徴語の出現数を当該文のスコアとする(S3911)。トピック特徴語と肯定側特徴語を含み(S3905,S3906)、否定側特徴語を含まない場合には(S3908)、特徴語の出現数に低ボーナス係数を乗じて(S3909)、その積を当該文のスコアとする(S3911)。低ボーナス係数は、1より大きい値である。トピック特徴語を含み(S3905)、肯定側特徴語を含まず(S3906)、否定側特徴語を含む場合も(S3907)、低ボーナス係数を乗じて(S3909)、その積を当該文のスコアとする(S3911)。トピック特徴語と肯定側特徴語と否定側特徴語を含む場合には(S3905,S3906,S3908)、特徴語の出現数に高ボーナス係数を乗じて(S3910)、その積を当該文のスコアとする(S3911)。高ボーナス係数は、低ボーナス係数より大きい値である。すべての文について処理して終了する(S3912)。 FIG. 39 is a diagram showing a sentence score calculation processing flow in the fourteenth embodiment. Similar to the above, for each sentence included in each search document (S3901), the number of occurrences of feature words is calculated (S3902). If the sentence is an insufficient sentence or an abbreviated sentence (S3903), the number of feature words is multiplied by a penalty coefficient (S3904). The penalty coefficient is a value smaller than 1. When a topic feature word is not included (S3905) and only a topic feature word is included (S3905, S3906, S3907), the number of feature words appearing without being multiplied by a coefficient is used as the score of the sentence (S3911). When a topic feature word and an affirmative side feature word are included (S3905, S3906) and a negative side feature word is not included (S3908), the number of feature word occurrences is multiplied by a low bonus coefficient (S3909), and the product is The sentence score is set (S3911). The low bonus coefficient is a value greater than one. When the topic feature word is included (S3905), the positive side feature word is not included (S3906), and the negative side feature word is included (S3907), the low bonus coefficient is multiplied (S3909), and the product is used as the score of the sentence. (S3911). When a topic feature word, a positive feature word, and a negative feature word are included (S3905, S3906, S3908), the number of feature words is multiplied by a high bonus coefficient (S3910), and the product is used as the score of the sentence. (S3911). The high bonus coefficient is larger than the low bonus coefficient. Processing is completed for all sentences (S3912).
 実施の形態15.
文スコアに基づいて、有意なパッセージ範囲を可変長で設定する形態について説明する。
Embodiment 15 FIG.
A mode of setting a significant passage range with a variable length based on the sentence score will be described.
 図40は、実施の形態15におけるパッセージ範囲設定処理フローを示す図である。文書毎に(S4001)、文書に含まれる文スコアを平滑化する(S4002)。例えば、対象となる文の前後所定範囲(窓内)の文スコアに対して、当該対象文との距離に応じた係数を乗じ、各文について得た積を合算して、平滑化した文スコアを得る。一般に、当該対象文と近い文には高い係数を用い、当該対象文と遠い文には低い係数を用いる。最も単純には、窓内の文スコアの平均を用いる方法もある。そして、文書内の最大の文スコアを特定し、その最大文スコアの所定割合(例えば1/N、N>1)を基準として、その基準以上の文スコアを有する連続する文の連なりをパッセージとして特定する(S4003)。そして、パッセージIDに対応付けて、文書ID、その連なりの開始文IDと終了文IDを記憶する(S4004)。これをすべての文書について行う(S4005)。 FIG. 40 is a diagram showing a passage range setting process flow in the fifteenth embodiment. For each document (S4001), the sentence score included in the document is smoothed (S4002). For example, the sentence score in a predetermined range (in the window) before and after the target sentence is multiplied by a coefficient corresponding to the distance to the target sentence, and the products obtained for each sentence are added together to smooth the sentence score. Get. In general, a high coefficient is used for a sentence close to the target sentence, and a low coefficient is used for a sentence far from the target sentence. The simplest is to use the average of the sentence scores in the window. Then, the maximum sentence score in the document is specified, and a series of consecutive sentences having a sentence score equal to or higher than the reference is used as a passage with a predetermined ratio (for example, 1 / N, N> 1) of the maximum sentence score as a reference Specify (S4003). Then, the document ID, the series of start sentence IDs and the end sentence IDs thereof are stored in association with the passage ID (S4004). This is performed for all documents (S4005).
 実施の形態16.
着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求める代わりにあるいは併せて、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求めることも有効である。
Embodiment 16 FIG.
For each word included in the net focus search document that was searched with the focus statement and not searched with the conflict statement, the net focus search document frequency is obtained by calculating the number of net focus search documents including the word, and the conflict statement For each word included in a pure conflict search document that has been searched in and not searched for in the statement of interest, instead of or in addition to obtaining the pure conflict search document frequency by calculating the number of pure conflict search documents that include the word For each word included in the net focused search document set that has been searched with the focused statement and not searched with the conflict statement, the pure focused search document set is calculated by calculating the number of times the word appears in the pure focused search document set. For each word included in the pure conflict search document set that was searched with the conflict statement but not searched with the statement of interest, the word appears in the pure conflict search document set. It is also effective to determine the frequency of a word appearing in pure conflict search document set by calculating the number of times.
 本実施の形態では、文書頻度算出部601による文書頻度算出(S104)に代えてあるいは併せて、文書集合内単語頻度算出部による文書集合内単語頻度算出処理を行なう。 In this embodiment, instead of or in addition to the document frequency calculation by the document frequency calculation unit 601 (S104), the word frequency calculation processing in the document set by the word frequency calculation unit in the document set is performed.
 文書集合内単語頻度算出処理では、純着目検索文書集合内単語頻度算出処理と、純対立検索文書集合内単語頻度算出処理と、重複検索文書集合内単語頻度算出処理を順次行う。純着目検索文書集合内単語頻度は、対象の単語が純着目検索文書集合中に出現する回数(頻度)である。同様に、純対立検索文書集合内単語頻度は、対象の単語が純対立検索文書集合中に出現する回数(頻度)であり、重複検索文書集合内単語頻度は、対象の単語が重複検索文書集合中に出現する回数(頻度)である。更に、全検索文書集合内単語頻度は、対象の単語が純着目検索文書、純対立検索文書、及び重複検索文書の全体集合中に出現する回数(頻度)である。 In the word frequency calculation process within the document set, the word frequency calculation process within the pure focused search document set, the word frequency calculation process within the pure conflict search document set, and the word frequency calculation process within the duplicate search document set are sequentially performed. The word frequency in the net focused search document set is the number of times (frequency) that the target word appears in the net focused search document set. Similarly, the word frequency in the pure conflict search document set is the number of times (frequency) that the target word appears in the pure conflict search document set, and the word frequency in the duplicate search document set is the duplicate search document set in which the target word is duplicated. The number of occurrences (frequency). Furthermore, the word frequency in the entire search document set is the number of times (frequency) that the target word appears in the entire set of the net search document, the net conflict search document, and the duplicate search document.
 純着目検索文書集合内単語頻度算出処理では、図8のS805において、当該純着目検索文書に出現する当該単語の回数を算出し、純着目検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図8と同様である。純着目検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。 In the pure focus search document set word frequency calculation process, in S805 of FIG. 8, the number of words that appear in the pure focus search document is calculated, and the pure search document set word frequency and the total search document set word frequency. To the number of words. Others are the same as FIG. The word frequency in the net focused search document set and the word frequency in all search document sets have an initial value of 0.
 純対立検索文書集合内単語頻度算出処理では、図9のS905において、当該対立検索文書に出現する当該単語の回数を算出し、純対立検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図9と同様である。純対立検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。 In the pure conflict search document set word frequency calculation process, in S905 of FIG. 9, the number of words that appear in the conflict search document is calculated, and the pure conflict search document set word frequency and the total search document set word frequency are calculated. Add the number of words. Others are the same as FIG. The word frequency in the pure conflict search document set and the word frequency in all search document sets have an initial value of 0.
 重複検索文書集合内単語頻度算出処理では、図10のS1005において、当該重複検索文書に出現する当該単語の回数を算出し、重複検索文書集合内単語頻度と全検索文書集合内単語頻度に、当該単語の回数を加える。他は、図10と同様である。重複検索文書集合内単語頻度と全検索文書集合内単語頻度は、初期値0である。 In the duplicate search document set word frequency calculation process, in S1005 of FIG. 10, the number of times of the word appearing in the duplicate search document is calculated, and the duplicate search document set word frequency and the total search document set word frequency are Add the number of words. Others are the same as FIG. The word frequency in the duplicate search document set and the word frequency in all search document sets are 0 at the initial value.
 単語スコア算出部1101における単語スコア算出処理(S105)においては、純着目検索文書頻度に代えてあるいは併せて、純着目検索文書集合内単語頻度を用い、純対立検索文書頻度に代えてあるいは併せて、純対立検索文書集合内単語頻度を用い、重複検索文書頻度に代えてあるいは併せて、重複検索文書集合内単語頻度を用い、全検索文書頻度に代えてあるいは併せて、全検索文書集合内単語頻度を用いる。 In the word score calculation process (S105) in the word score calculation unit 1101, the word frequency in the net focused search document set is used instead of or in addition to the pure focused search document frequency, and instead of or combined with the pure conflict search document frequency. , Using word frequency in pure conflict search document set, using word frequency in duplicate search document set instead of or in combination with duplicate search document frequency, and word in all search document set in place of or in addition to full search document frequency Use frequency.
 各検索文書頻度を各検索文書集合内単語頻度に置き換えて単語スコアを算出する方法の他、各検索文書頻度による第一の中間単語スコアと、各検索文書集合内単語頻度による第二の中間単語スコアをそれぞれ求めて、第一の中間単語スコアと第二の中間単語スコアに基づいて最終の単語スコアを算出することもできる。例えば、第一の中間単語スコアと第二の中間単語スコアを加えて和を最終の単語スコアとする。その際、第一の中間単語スコアと第二の中間単語スコアに重み付けすることも考えられる。また、第一の中間単語スコアと第二の中間単語スコアを積算して積を最終の単語スコアとする方法もある。 In addition to a method of calculating a word score by replacing each search document frequency with a word frequency in each search document set, a first intermediate word score based on each search document frequency and a second intermediate word based on each search document set word frequency It is also possible to calculate the final word score based on the first intermediate word score and the second intermediate word score by obtaining each score. For example, the first intermediate word score and the second intermediate word score are added, and the sum is used as the final word score. In that case, it is also conceivable to weight the first intermediate word score and the second intermediate word score. There is also a method of integrating the first intermediate word score and the second intermediate word score to obtain the product as the final word score.
 パッセージ抽出装置は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。 The passage extraction device is a computer, and each element can execute processing by a program. Further, the program can be stored in a storage medium so that the computer can read the program from the storage medium.
 パッセージ抽出装置のハードウェアの構成について説明する。図41は、パッセージ抽出装置のハードウェアの構成を示す図である。バスに、演算装置4101、データ記憶装置4102、メモリ4103、通信インターフェース4104、データ入力装置4105、データ出力装置4106が接続されている。データ記憶装置4102は、例えばROM(Read Only Memory)やハードディスクである。メモリ4103は、通常RAM(Random Access Memory)である。プログラムは、通常データ記憶装置4102に記憶されており、メモリ4103にロードされた状態で、順次演算装置4101に読み込まれ処理を行う。通信インターフェース4104は、ネットワークを介した通信に用いる。データ入力装置4105は、データの入力に用いる。データ出力装置4106は、データの出力に用いる。なお、プログラムは、通信インターフェース4104に接続されたネットワーク上のサーバに記憶され、実行時にメモリ4103にロードされる場合もある。 The hardware configuration of the passage extraction device will be described. FIG. 41 is a diagram illustrating a hardware configuration of the passage extraction device. An arithmetic device 4101, a data storage device 4102, a memory 4103, a communication interface 4104, a data input device 4105, and a data output device 4106 are connected to the bus. The data storage device 4102 is, for example, a ROM (Read Only Memory) or a hard disk. The memory 4103 is a normal RAM (Random Access Memory). The program is stored in the normal data storage device 4102 and is sequentially read into the arithmetic device 4101 for processing while being loaded in the memory 4103. The communication interface 4104 is used for communication via a network. The data input device 4105 is used for data input. The data output device 4106 is used for outputting data. Note that the program may be stored in a server on a network connected to the communication interface 4104 and loaded into the memory 4103 at the time of execution.
 201  着目言明入力部
 202  着目言明記憶部
 203  対立言明特定部
 204  対立言明記憶部
 401  言明関連文書検索部
 402  純着目検索文書記憶部
 403  純対立検索文書記憶部
 404  重複検索文書記憶部
 601  文書頻度算出部
 602  単語テーブル
 1101  単語スコア算出部
 1102  単語スコアテーブル
 1301  パッセージ範囲判定部
 1302  パッセージテーブル
 1501  パッセージスコア算出部
 1701  パッセージ選択部
 1702  パッセージ出力部
 2901  特徴語判定部
 2902  肯定側特徴語テーブル
 2903  否定側特徴語テーブル
 2904  トピック特徴語テーブル
 4101  演算装置
 4102  データ記憶装置
 4103  メモリ
 4104  通信インターフェース
 4105  データ入力装置
 4106  データ出力装置
DESCRIPTION OF SYMBOLS 201 Focus statement input part 202 Focus statement memory | storage part 203 Opposition statement specific | specification part 204 Conflict statement memory | storage part 401 Statement related document search part 402 Pure focus search document memory | storage part 403 Pure conflict search document memory | storage part 404 Duplicate search document memory | storage part 601 Document frequency calculation Section 602 Word table 1101 Word score calculation section 1102 Word score table 1301 Passage range determination section 1302 Passage table 1501 Passage score calculation section 1701 Passage selection section 1702 Passage output section 2901 Feature word determination section 2902 Positive side feature word table 2903 Negative side feature word Table 2904 Topic feature word table 4101 Arithmetic unit 4102 Data storage unit 4103 Memory 4104 Communication interface 4105 Data input unit 410 Data output device

Claims (13)

  1.  真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置であって、以下の要素を有することを特徴とするパッセージ抽出装置
    (1)着目言明を入力する着目言明入力部
    (2)着目言明と反対の内容を示す対立言明を特定する対立言明特定部
    (3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索部
    (4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
     且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出部
    (5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出部
    (6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出部
    (7)パッセージスコアに基づいてパッセージを出力するパッセージ出力部。
    A passage extraction apparatus that extracts a passage including affirmative contents and negative contents for a statement of interest indicating matters for judging authenticity from a search document, and has the following elements: (1) Statement of attention Statement-of-interest input unit for inputting (2) conflict-related statement specifying unit for identifying conflict statement indicating content opposite to statement of interest (3) statement-related document for retrieving documents based on the statement of interest and retrieving documents based on the conflict statement Retrieval unit (4) For each word included in a net focus search document that has been searched with a focus statement and not searched with a conflict statement, the net focus search document frequency is calculated by calculating the number of net focus search documents that include the word. For each word included in the pure conflict search document that was searched with the conflict statement and not searched with the statement of interest, the number of pure conflict search documents including the word is calculated. Seek confrontation search document frequency,
    In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set for each word. A word score calculation unit that calculates a word score indicating a positive characteristic and a negative characteristic with respect to a statement of interest of the word based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure conflict search document set 6) A passage score calculation unit (7) that calculates, for each passage, a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest of the passage based on the word score of the word included in the passage. A passage output unit that outputs passages based on the passage score.
  2.  パッセージ抽出装置は、更に、
     単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部と、
     前記着目言明で検索された文書及び/又は対立言明で検索された文書に含まれる文毎に、当該文に含む肯定側特徴語と否定側特徴語の数を計数して文スコアとする文スコア算出部を有し、
     前記パッセージスコア算出部は、パッセージに含まれる文のうち最大の文スコアをパッセージスコアとすることを特徴とする請求項1記載のパッセージ抽出装置。
    The passage extraction device further
    A feature word determination unit that determines, based on the word score, an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion, and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
    For each sentence included in the document searched with the statement of interest and / or the document searched with the conflict statement, the sentence score is obtained by counting the number of positive feature words and negative feature words included in the sentence. Have a calculator,
    The passage extraction apparatus according to claim 1, wherein the passage score calculation unit sets a maximum sentence score among sentences included in the passage as a passage score.
  3.  前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
     前記文スコア算出部は、当該文に含むトピック特徴語の数を計数して文スコアに加えることを特徴とする請求項2記載のパッセージ抽出装置。
    The feature word determination unit determines a topic feature word that is a content word of a statement of interest that does not correspond to a positive feature word and a negative feature word,
    The passage extraction device according to claim 2, wherein the sentence score calculation unit counts the number of topic feature words included in the sentence and adds it to the sentence score.
  4.  前記パッセージスコア算出部は、パッセージに肯定側特徴語、否定側特徴語、及びトピック特徴語を含む場合に、最大の文スコアに1より大きいボーナス係数を乗じてパッセージスコアとすることを特徴とする請求項3記載のパッセージ抽出装置。 The passage score calculation unit is configured to multiply the maximum sentence score by a bonus coefficient larger than 1 to obtain a passage score when the passage includes a positive feature word, a negative feature word, and a topic feature word. The passage extraction device according to claim 3.
  5.  前記文スコア算出部は、パッセージに肯定側特徴語と否定側特徴語のいずれか一方と、トピック特徴語を含む場合に、1より大きい低ボーナス係数を文スコアに乗じ、パッセージに肯定側特徴語と否定側特徴語の両方と、トピック特徴語を含む場合に、低ボーナス係数より大きい高ボーナス係数を文スコアに乗じることを特徴とする請求項3記載のパッセージ抽出装置。 The sentence score calculation unit multiplies the sentence score by a low bonus coefficient greater than 1 when the passage includes either a positive feature word or a negative feature word and a topic feature word, and passes the positive feature word to the passage. 4. The passage extracting apparatus according to claim 3, wherein, when both the negative feature word and the negative feature word are included, the sentence score is multiplied by a high bonus coefficient larger than the low bonus coefficient.
  6.  更に、文スコアに基づいてパッセージの範囲を設定するパッセージ範囲設定部を有することを特徴とする請求項2記載のパッセージ抽出装置。 The passage extraction device according to claim 2, further comprising a passage range setting unit for setting a passage range based on a sentence score.
  7.  パッセージ抽出装置は、更に、
     単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
     前記パッセージスコア算出部は、当該パッセージに含まれる肯定側特徴語の数と否定側特徴語の数に基づいて、パッセージスコアを算出することを特徴とする請求項1記載のパッセージ抽出装置。
    The passage extraction device further
    Based on the word score, it has a feature word determination unit that determines an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
    The passage extraction device according to claim 1, wherein the passage score calculation unit calculates a passage score based on the number of positive side feature words and the number of negative side feature words included in the passage.
  8.  特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
     前記パッセージスコア算出部は、更に、当該パッセージに含まれるトピック特徴語の数に基づいて、パッセージスコアを算出することを特徴とする請求項7記載のパッセージ抽出装置。
    The feature word determination unit determines a topic feature word that is not a positive feature word and a negative feature word but is a content word of the statement of interest,
    The passage extraction device according to claim 7, wherein the passage score calculation unit further calculates a passage score based on the number of topic feature words included in the passage.
  9.  パッセージ抽出装置は、更に、
     単語スコアに基づいて、着目言明に対する肯定の特性が所定基準より高い肯定側特徴語と、着目言明に対する否定の特性が所定基準より高い否定側特徴語を判定する特徴語判定部を有し、
     前記パッセージスコア算出部は、肯定側特徴語毎に、当該パッセージに含まれる文のうち、当該肯定側特徴語を含む文の数を計数して肯定側特徴語の出現度数を求め、否定側特徴語毎に、当該パッセージに含まれる文のうち、当該否定側特徴語を含む文の数を計数して否定側特徴語の出現度数を求め、肯定側特徴語の出現度数と否定側特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする請求項1記載のパッセージ抽出装置。
    The passage extraction device further
    Based on the word score, it has a feature word determination unit that determines an affirmative feature word whose affirmative characteristic for the statement of interest is higher than a predetermined criterion and a negative feature word whose negative characteristic for the statement of attention is higher than a predetermined criterion;
    The passage score calculation unit calculates, for each affirmative feature word, the number of sentences including the affirmative feature word among sentences included in the passage, and obtains the appearance frequency of the affirmative feature word, and the negative feature For each word, out of the sentences included in the passage, the number of sentences including the negative feature word is counted to obtain the appearance frequency of the negative feature word, and the appearance frequency of the positive feature word and the negative feature word The passage extraction apparatus according to claim 1, wherein a passage score is calculated based on the appearance frequency.
  10.  前記特徴語判定部は、肯定側特徴語と否定側特徴語に該当せず、着目言明の内容語であるトピック特徴語を判定し、
     前記パッセージスコア算出部は、更に、トピック特徴語毎に、当該パッセージに含まれる文のうち、当該トピック特徴語を含む文の数を計数してトピック特徴語の出現度数を求め、トピック特徴語の出現度数に基づいて、パッセージスコアを算出することを特徴とする請求項9記載のパッセージ抽出装置。
    The feature word determination unit determines a topic feature word that is a content word of a statement of interest that does not correspond to a positive feature word and a negative feature word,
    The passage score calculation unit further calculates, for each topic feature word, the number of sentences including the topic feature word among the sentences included in the passage, and obtains the appearance frequency of the topic feature word. The passage extraction apparatus according to claim 9, wherein a passage score is calculated based on the appearance frequency.
  11.  前記特徴語判定部は、単語スコアに基づいて、単語毎に着目言明に対する肯定の特性の順位と、着目言明に対する否定の特性の順位を求め、着目言明に対する肯定の特性の順位と着目言明に対する否定の特性の順位に基づいて、肯定側特徴語と否定側特徴語を判定することを特徴とする請求項7、又は9記載のパッセージ抽出装置。 The feature word determination unit obtains the ranking of the affirmative characteristic with respect to the focused statement and the ranking of the negated characteristic with respect to the focused statement for each word based on the word score, and determines the ranking of the affirmative characteristic with respect to the focused statement and the negation with respect to the focused statement The passage extraction device according to claim 7 or 9, wherein a positive side characteristic word and a negative side characteristic word are determined based on the ranking of the characteristics.
  12.  真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置によるパッセージ抽出方法であって、以下の要素を有することを特徴とするパッセージ抽出方法
    (1)着目言明を入力する着目言明入力工程
    (2)着目言明と反対の内容を示す対立言明を特定する対立言明特定工程
    (3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索工程
    (4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
     且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出工程
    (5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出工程
    (6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出工程
    (7)パッセージスコアに基づいてパッセージを出力するパッセージ出力工程。
    A passage extraction method by a passage extraction device for extracting a passage including affirmative contents and negative contents for a statement of interest indicating matters for judging true / false from a search document, and having the following elements: 1) A focused statement input step for inputting a focused statement (2) A conflict statement specifying step for identifying a conflict statement indicating the content opposite to the focused statement (3) A document search based on the focused statement, and a document search based on the conflicted statement Statement-related document search step (4) For each word included in the net focus search document that is searched with the focus statement and not searched with the conflict statement, the number of net focus search documents including the word is calculated. For each word included in a pure conflict search document that is searched for with a conflict statement and not searched with a focus statement, the frequency of the target search document is obtained. Determine the net confrontation search document frequency by calculating the number of documents,
    In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set Based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure confrontation search document set, the word score calculation that calculates the word score indicating the positive characteristic and the negative characteristic with respect to the statement of interest of the word (6) For each passage, a passage score calculation step of calculating a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest of the passage based on the word score of the word included in the passage. 7) A passage output step of outputting a passage based on the passage score.
  13.  真偽を判断する事項を示す着目言明に対する肯定内容と否定内容を含むパッセージを検索文書から抽出するパッセージ抽出装置となるコンピュータに、以下の手順を実行させるためのプログラム
    (1)着目言明を入力する着目言明入力手順
    (2)着目言明と反対の内容を示す対立言明を特定する対立言明特定手順
    (3)着目言明に基づいて文書検索し、対立言明に基づいて文書検索する言明関連文書検索手順
    (4)着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書に含まれる単語毎に、当該単語を含む純着目検索文書の数を算出することにより純着目検索文書頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書に含まれる単語毎に、当該単語を含む純対立検索文書の数を算出することにより純対立検索文書頻度を求め、
     且つ/又は、着目言明で検索され、且つ対立言明で検索されなかった純着目検索文書集合に含まれる単語毎に、当該単語が純着目検索文書集合中に出現する回数を算出することにより純着目検索文書集合に現れる単語の頻度を求め、対立言明で検索され、且つ着目言明で検索されなかった純対立検索文書集合に含まれる単語毎に、当該単語が純対立検索文書集合中に出現する回数を算出することにより純対立検索文書集合に現れる単語の頻度を求める頻度算出手順
    (5)単語毎に、当該単語の純着目検索文書頻度と純対立検索文書頻度、及び/又は純着目検索文書集合に現れる単語の頻度と純対立検索文書集合に現れる単語の頻度に基づいて、当該単語の着目言明に対する肯定の特性と否定の特性を示す単語スコアを算出する単語スコア算出手順
    (6)パッセージ毎に、当該パッセージに含まれる単語の単語スコアに基づいて、当該パッセージの着目言明に対する肯定と否定の両特性についての並立の度合いを示すパッセージスコアを算出するパッセージスコア算出手順
    (7)パッセージスコアに基づいてパッセージを出力するパッセージ出力手順。
    A program for causing a computer to be a passage extraction device to extract a passage including a positive content and a negative content with respect to a statement of interest indicating a matter to judge true / false from a search document. (1) A statement of interest is input. Statement-of-interest input procedure (2) Conflict-statement specifying procedure for specifying an opposition statement indicating the content opposite to the statement-of-interest (3) Statement-related document search procedure for searching a document based on the statement of interest and searching for a document based on the opposition statement ( 4) For each word included in the net focus search document that is searched with the focus statement and not searched with the conflict statement, the number of net focus search documents including the word is calculated to obtain the net focus search document frequency. For each word included in a pure conflict search document that has been searched with a conflict statement and not searched with a statement of interest, the number of pure conflict search documents that include the word is calculated. Ri determine the net confrontation search document frequency,
    In addition, for each word included in the net-focused search document set that is searched with the focus statement and not searched with the conflict statement, the net focus is calculated by calculating the number of times the word appears in the net-focus search document set. The number of times that the word appears in the pure conflict search document set for each word included in the pure conflict search document set that has been searched with the conflict statement and not searched with the statement of interest, by determining the frequency of the words that appear in the search document set Frequency calculation procedure for calculating the frequency of words appearing in a pure conflict search document set by calculating (5) For each word, the net focus search document frequency and the net conflict search document frequency of the word and / or the net focus search document set Based on the frequency of the word appearing in the word and the frequency of the word appearing in the pure confrontation search document set, the word score calculation that calculates the word score indicating the positive characteristic and the negative characteristic with respect to the statement of interest of the word In order (6), for each passage, a passage score calculation procedure for calculating a passage score indicating the degree of parallelism for both positive and negative characteristics with respect to the statement of interest of the passage based on the word score of the word included in the passage. 7) A passage output procedure for outputting a passage based on the passage score.
PCT/JP2011/066017 2010-07-13 2011-07-13 Passage extraction apparatus and method of passage extraction WO2012008503A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012524582A JP5858407B2 (en) 2010-07-13 2011-07-13 Passage extraction apparatus and passage extraction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010158679 2010-07-13
JP2010-158679 2010-07-13

Publications (1)

Publication Number Publication Date
WO2012008503A1 true WO2012008503A1 (en) 2012-01-19

Family

ID=45469500

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/066017 WO2012008503A1 (en) 2010-07-13 2011-07-13 Passage extraction apparatus and method of passage extraction

Country Status (2)

Country Link
JP (1) JP5858407B2 (en)
WO (1) WO2012008503A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160067102A (en) * 2013-10-08 2016-06-13 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 Device for collecting contradictory expression and computer program for same

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KOICHI KANEKO ET AL.: "Proposal of Generating Mediatory Summary for Evaluating Credibility of Web Information", IEICE TECHNICAL REPORT, vol. 109, no. 234, 9 October 2009 (2009-10-09), pages 19 - 24 *
KOICHI KANEKO ET AL.: "Topic-go o Mora suru Bu Chushutsu no Tameno Text Rank Muke Bunkan Kankei Shakudo no Kento", PROCEEDINGS OF THE 16TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 8 March 2010 (2010-03-08), pages 51 - 54 *
TAKAHIRO NAGAI ET AL.: "Taso Network-gata Text Rank ni yoru Konkyo Kankei o Koryo shita Juyo Passage Chushutsu", PROCEEDINGS OF THE 16TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 8 March 2010 (2010-03-08), pages 294 - 297 *
YUTAKA KIDAWARA ET AL.: "Web-Contents no Shinraisei Bunseki", PROCEEDINGS OF THE 15TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 2 March 2009 (2009-03-02), pages 308 - 311 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160067102A (en) * 2013-10-08 2016-06-13 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 Device for collecting contradictory expression and computer program for same
KR102235990B1 (en) 2013-10-08 2021-04-05 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 Device for collecting contradictory expression and computer program for same

Also Published As

Publication number Publication date
JPWO2012008503A1 (en) 2013-09-09
JP5858407B2 (en) 2016-02-10

Similar Documents

Publication Publication Date Title
Leetaru Culturomics 2.0: Forecasting large-scale human behavior using global news media tone in time and space
Sharoff Open-source corpora: Using the net to fish for linguistic data
Soboroff et al. Overview of the TREC 2006 Enterprise Track.
US7447683B2 (en) Natural language based search engine and methods of use therefor
Lutzky et al. “I apologise for my poor blogging”: Searching for apologies in the Birmingham Blog Corpus
US9275015B2 (en) System and method for performing analysis on information, such as social media
Fišer et al. Distributional modelling for semantic shift detection
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
Amodeo et al. On relevance, time and query expansion
CN109933709B (en) Public opinion tracking method and device for video text combined data and computer equipment
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
Adji et al. System of negative Indonesian website detection using TF-IDF and Vector Space Model
Samonte Polarity analysis of editorial articles towards fake news detection
JP5858407B2 (en) Passage extraction apparatus and passage extraction method
KR102540944B1 (en) Digital content system supporting document management using meta data and integrated search based on artificial intelligent
Maladry et al. The limitations of irony detection in dutch social media
Kawai et al. Using a sentiment map for visualizing credibility of news sites on the web
Berendt et al. Finding Your Way through Blogspace: Using Semantics for Cross-Domain Blog Analysis.
CN115048483A (en) Information management system
Casillo et al. A multi-feature bayesian approach for fake news detection
Poudel et al. Navigating the Post-API Dilemma Search Engine Results Pages Present a Biased View of Social Media Data
KR20070008994A (en) System and method for extracting domain information in unstructured web documents
Lanza et al. Terminology systematization for Cybersecurity domain in Italian Language
Montero et al. Detecting the Likely Causes Behind the Emotion Spikes of Influential Twitter Users.
Carrella # Populism on Twitter: statistical analysis of the correlation between tweet popularity and" populist" discursive features

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11806833

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012524582

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11806833

Country of ref document: EP

Kind code of ref document: A1