JPWO2017154192A1 - Text analysis apparatus and text analysis method - Google Patents

Text analysis apparatus and text analysis method Download PDF

Info

Publication number
JPWO2017154192A1
JPWO2017154192A1 JP2018503959A JP2018503959A JPWO2017154192A1 JP WO2017154192 A1 JPWO2017154192 A1 JP WO2017154192A1 JP 2018503959 A JP2018503959 A JP 2018503959A JP 2018503959 A JP2018503959 A JP 2018503959A JP WO2017154192 A1 JPWO2017154192 A1 JP WO2017154192A1
Authority
JP
Japan
Prior art keywords
expression
text
dictionary
word
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018503959A
Other languages
Japanese (ja)
Other versions
JP6615310B2 (en
Inventor
佐藤 美沙
美沙 佐藤
孝介 柳井
孝介 柳井
利彦 柳瀬
利彦 柳瀬
芳樹 丹羽
芳樹 丹羽
利昇 三好
利昇 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2017154192A1 publication Critical patent/JPWO2017154192A1/en
Application granted granted Critical
Publication of JP6615310B2 publication Critical patent/JP6615310B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

第1表現が第2表現に作用を与えていることを、第1テキストがサポートする度合である関連度を算出するテキスト分析装置は、表現間における作用を意味する表現からなる第1辞書を保持し、第1辞書に含まれる第3表現が第1テキストに含まれる場合における、第1表現及び第2表現それぞれと、第1テキストにおいて第3表現と係り受け関係にある表現と、の意味の一致度を示す第1特徴量を算出し、第1特徴量の大きさに基づいて、関連度を算出する。  The text analysis device that calculates the degree of association that the first text supports that the first expression has an effect on the second expression holds the first dictionary consisting of expressions that mean the action between the expressions When the third expression included in the first dictionary is included in the first text, each of the first expression and the second expression and an expression having a dependency relationship with the third expression in the first text A first feature amount indicating a degree of coincidence is calculated, and a relevance level is calculated based on the size of the first feature amount.

Description

本発明は、テキスト分析装置及びテキスト分析方法に関する。   The present invention relates to a text analysis apparatus and a text analysis method.

近年、テキストから意見を抽出する技術が発展しつつある。本技術分野の背景技術として、特開2007−133903号公報(特許文献1)がある。この公報には、「意見要素記憶手段3は、対象物を示し得る第1の表記の集合と、対象物に関する評価の着眼点を示し得る第2の表記の集合と、着眼点に関する対象物の性質を示し得る第3の表記の集合と、対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合とが登録されている。意見要素照合手段4は、入力テキストと意見要素記憶手段に登録された表記の集合とを照合する。意見表明箇所検出手段6は、意見要素照合手段4の結果に基づいて、入力テキスト中から意見を表明した部分テキストを検出する。」と記載されている(要約参照)。   In recent years, techniques for extracting opinions from text are being developed. As background art of this technical field, there is JP-A-2007-133903 (Patent Document 1). This gazette states that “the opinion element storage means 3 includes a first set of notations that can indicate an object, a second set of notations that can indicate an evaluation point for the object, and an object for the point of interest. A third set of notations that can indicate a property and a fourth set of notations that can indicate a positive, negative, or neutral evaluation of the object are registered. The opinion expression location detecting means 6 detects the partial text expressing the opinion from the input text based on the result of the opinion element matching means 4. " (See summary).

特開2007−133903号公報JP 2007-133903 A

例えば、第1表現と第2表現とテキストが与えられた場合において、第1単語による第2単語への作用を、テキストがサポートする度合い又はサポートするか否かを推定することにより、第1表現と第2表現とに関連する意見をテキストから抽出することができる。   For example, in the case where the first expression, the second expression, and the text are given, the first expression is estimated by estimating whether or not the text supports the action of the first word on the second word. And the opinion related to the second expression can be extracted from the text.

第1表現を「カジノ」、第2表現を「雇用」、作用を促進作用又は抑制作用とする例を考える。テキスト「カジノ設立により他産業の雇用が減少するとの研究結果がある。」は、第1表現であるカジノが第2表現である雇用に促進作用を与えていることを、サポートしている。また、テキスト「カジノ設立により他産業の雇用が減少するとの研究結果がある。」は、第1表現であるカジノが第2表現である雇用に抑制作用を与えていることを、サポートしている。   Consider an example in which the first expression is “casino”, the second expression is “employment”, and the action is an acceleration action or a suppression action. The text “There is a research result that employment in other industries will decrease due to the establishment of casinos” supports that the casino, which is the first expression, is promoting the employment, which is the second expression. In addition, the text “There is a research result that employment in other industries will decrease due to the establishment of the casino.” Supports that the casino, which is the first expression, has a restraining effect on the employment, which is the second expression. .

特許文献1に記載の技術は、対象物を示し得る表記と、対象物に関する評価の着眼点を示し得る表記と、着眼点に関する対象物の性質を示し得る表記と、対象物に関する肯定または否定または中立の評価を示し得る表記と、テキストと、の照合結果に基づいて、テキストから、対象物に対する評価と、意見の評価となる対象物の性質を抽出している。   The technology described in Patent Document 1 includes a notation that can indicate an object, a notation that can indicate the focus of evaluation on the object, a notation that can indicate the nature of the object regarding the focus, Based on the comparison result between the notation that can indicate neutral evaluation and the text, the evaluation of the object and the property of the object that is the evaluation of the opinion are extracted from the text.

しかし、上述のような、作用についてのサポート性推定においては、特許文献1に記載の技術のように、テキスト内における評価等を示す語句そのものの特徴を用いて推定を行っても、必ずしも十分な推定精度を確保することができない。当該サポート性推定においては、テキスト内に含まれる作用を示す表現との係り受け関係のような、構文上の繋がりを考慮することが有効である。   However, in the above-described supportability estimation for the action, it is not always sufficient even if the estimation is performed using the characteristics of the words or phrases indicating the evaluation in the text as in the technique described in Patent Document 1. The estimation accuracy cannot be ensured. In the supportability estimation, it is effective to consider a syntactic connection such as a dependency relationship with an expression indicating an action included in the text.

上記課題を解決するため、本発明の一態様は、例えば、以下の構成を採用する。第1表現が第2表現に作用を与えていることを、第1テキストがサポートする度合である関連度を算出する、テキスト分析装置であって、プロセッサと記憶装置とを含み、前記記憶装置は、表現間における作用を意味する表現からなる第1辞書を保持し、前記プロセッサは、前記第1テキストと前記第1表現と前記第2表現の入力を受け付け、前記第1辞書に含まれる第3表現が前記第1テキストに含まれる場合における、前記第1表現及び前記第2表現それぞれと、前記第1テキストにおいて前記第3表現と係り受け関係にある表現と、の意味の一致度を示す第1特徴量を算出し、前記第1特徴量の大きさに基づいて、前記関連度を算出する、テキスト分析装置。   In order to solve the above problems, one embodiment of the present invention employs the following configuration, for example. A text analysis device for calculating a degree of relevance to which the first text supports that the first representation is acting on the second representation, comprising a processor and a storage device, the storage device comprising: , Holding a first dictionary consisting of expressions meaning actions between expressions, the processor accepting inputs of the first text, the first expression, and the second expression, and a third dictionary included in the first dictionary When the expression is included in the first text, each of the first expression and the second expression and the degree of coincidence of the meaning between the expression in the first text and the expression having a dependency relationship with the third expression A text analysis device that calculates one feature value and calculates the relevance based on a size of the first feature value.

本発明の一態様によれば、第1表現が第2表現へ与える作用をテキストがサポートする度合い、を高精度に推定することができる。   According to one aspect of the present invention, it is possible to estimate with high accuracy the degree to which the text supports the action of the first expression on the second expression.

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。   Problems, configurations, and effects other than those described above will be clarified by the following description of embodiments.

実施例1におけるテキスト分析装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the text analyzer in Example 1. FIG. 実施例1における辞書の一例である。2 is an example of a dictionary in the first embodiment. 実施例1における一次特徴量抽出ルールの一例である。6 is an example of a primary feature amount extraction rule in the first embodiment. 実施例1における二次特徴量生成ルールの一例である。4 is an example of a secondary feature value generation rule in the first embodiment. 実施例1におけるテキスト分析処理の一例を示すフローチャートである。6 is a flowchart illustrating an example of a text analysis process according to the first exemplary embodiment. 実施例1における表示画面の一例である。3 is an example of a display screen in the first embodiment. 実施例2における二次特徴量生成ルール生成処理の一例を示すフローチャートである。10 is a flowchart illustrating an example of secondary feature value generation rule generation processing according to the second exemplary embodiment.

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。   Embodiments of the present invention will be described below with reference to the accompanying drawings. It should be noted that this embodiment is merely an example for realizing the present invention, and does not limit the technical scope of the present invention. In each figure, the same reference numerals are given to common configurations.

本実施形態は、テキスト分析装置を説明する。本実施形態のテキスト分析装置は、第1表現、第2表現、及びテキストの入力を受け付ける。テキスト分析装置は、第1表現が第2表現に作用を与えていることを入力されたテキストがサポートする度合いを推定する。なお、当該作用は、例えば、促進作用と抑制作用からなる作用のように、相反する作用を示す。また、賛成作用と反対作用からなる作用は、当該作用の一例である。   This embodiment describes a text analysis device. The text analysis apparatus according to the present embodiment accepts input of the first expression, the second expression, and the text. The text analysis device estimates the degree to which the input text supports that the first representation acts on the second representation. In addition, the said effect | action shows the effect | action which opposes like the effect | action which consists of a promotion effect and a suppression effect, for example. In addition, an action composed of an approval action and an opposite action is an example of the action.

本実施形態では、テキスト分析装置が、第1表現が第2表現に促進作用又は抑制作用を与えていることを入力されたテキストがサポートする度合いを推定する例を説明する。さらに、テキスト分析装置は、当該度合いに従って、第1表現が第2表現に促進作用又は抑制作用を与えていることを入力されたテキストがサポートするか否かを判定してもよい。さらにテキスト分析装置は、テキストによるサポートが有ると判定した場合、第1表現が第2表現に、促進作用又は抑制作用のうち、どちらの作用を与えているかを決定してもよい。   In the present embodiment, an example will be described in which the text analysis apparatus estimates the degree to which the input text supports that the first expression gives a promoting action or a suppressing action to the second expression. Further, the text analysis apparatus may determine whether the input text supports that the first expression gives a promoting action or a suppressing action to the second expression according to the degree. Furthermore, when it is determined that there is support by text, the text analysis device may determine which of the promoting action and the suppressing action is given to the second expression by the first expression.

なお、本実施形態では、第1表現を議題語と呼び、第2表現を価値語と呼ぶ。なお、議題語及び価値語それぞれは、必ずしも1つの単語でなくてもよく、例えば、1以上の単語、1以上の句、1以上の文、又はそれらの組み合わせ等の表現であってもよい。また、テキスト分析装置に入力されるテキストは、必ずしも1つの文でなくてもよく、1以上の単語、1以上の句、1以上の文、又はそれらの組み合わせ等であってもよい。   In the present embodiment, the first expression is called an agenda word, and the second expression is called a value word. Note that each agenda word and value word are not necessarily one word, and may be expressions such as one or more words, one or more phrases, one or more sentences, or a combination thereof. Further, the text input to the text analysis device does not necessarily have to be one sentence, and may be one or more words, one or more phrases, one or more sentences, or a combination thereof.

また、議題語が価値語にある作用を与えていることを、テキストが示す場合、議題語が価値語に与える当該作用を当該テキストがサポートする、という。また、議題語が価値語に与える作用をテキストがサポートしているか否かを示す情報、及び当該サポートの強さを示す情報との組み合わせをサポート性と呼ぶ。   Further, when the text indicates that the agenda word has an action on the value word, the text supports the action that the agenda word has on the value word. A combination of information indicating whether or not the text supports the action of the agenda word on the value word and information indicating the strength of the support are called supportability.

例えば、議題語が「カジノ」、価値語が「雇用」である場合を説明する。テキスト分析装置は、「ミシシッピ州では42箇所あるカジノにより、およそ35,000人の雇用が創出されている。」というテキストの入力を受け付けた場合、当該テキストが、議題語である「カジノ」が価値語である「雇用」に対して作用を与えていることを示す、具体的には促進作用を与えていることを示す、と判定する。   For example, a case where the agenda word is “casino” and the value word is “employment” will be described. When the text analysis apparatus accepts the input of the text “about 35,000 jobs are created by 42 casinos in Mississippi”, the text is the agenda word “Casino”. It is determined to indicate that the value word “employment” is being acted, specifically, to indicate that a promotion effect is being imparted.

一方、テキスト分析装置は、「カジノ設立により他産業の雇用が減少するとの研究結果がある。」というテキストの入力を受け付けた場合、当該テキストが、議題語である「カジノ」が価値語である「雇用」に対して作用を与えていることを示す、具体的には抑制作用を与えていることを示す、と判定する。   On the other hand, when the text analyzer accepts the input of the text “There is a research result that employment in other industries will decrease due to the establishment of the casino”, the text “Casino” which is the agenda word is the value word. It is determined that it indicates that the “employment” has an effect, and specifically indicates that it has an inhibitory effect.

図1は、本実施例のテキスト分析装置の構成例を示す。本実施例のテキスト分析装置100は、入力されたテキストが、議題語が価値語に与える促進作用又は抑制作用をサポートしているか否か、及びサポートしている場合における促進作用又は抑制作用の強さ、を推定する。また、本実施例は、テキスト分析装置が英語のテキストを分析する例を説明する。   FIG. 1 shows a configuration example of a text analysis apparatus according to this embodiment. The text analysis apparatus 100 according to the present embodiment determines whether or not the input text supports the promoting action or the inhibiting action that the agenda word gives to the value word, and the strongness of the promoting action or the inhibiting action when it is supported. Estimate. In the present embodiment, an example in which a text analysis apparatus analyzes English text will be described.

本実施例のテキスト分析装置100は、例えば、プロセッサ(CPU)101、メモリ102、補助記憶装置103及び通信I/F(インターフェース)104を有する計算機によって構成される。   The text analysis apparatus 100 of the present embodiment is configured by a computer having a processor (CPU) 101, a memory 102, an auxiliary storage device 103, and a communication I / F (interface) 104, for example.

プロセッサ101は、メモリ102に格納されたプログラムを実行する。メモリ102は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ101が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。   The processor 101 executes a program stored in the memory 102. The memory 102 includes a ROM that is a nonvolatile storage element and a RAM that is a volatile storage element. The ROM stores an immutable program (for example, BIOS). The RAM is a high-speed and volatile storage element such as a DRAM (Dynamic Random Access Memory), and temporarily stores a program executed by the processor 101 and data used when the program is executed.

補助記憶装置103は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置であり、プロセッサ101が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置103から読み出されて、メモリ102にロードされて、プロセッサ101によって実行される。   The auxiliary storage device 103 is a large-capacity non-volatile storage device such as a magnetic storage device (HDD) or a flash memory (SSD), and stores a program executed by the processor 101 and data used when the program is executed. To do. That is, the program is read from the auxiliary storage device 103, loaded into the memory 102, and executed by the processor 101.

テキスト分析装置100は、入力I/F105及び出力I/F108を有してもよい。入力I/F105は、キーボード106やマウス107などが接続され、オペレータからの入力を受けるインターフェースである。出力I/F108は、ディスプレイ109やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースである。   The text analysis apparatus 100 may have an input I / F 105 and an output I / F 108. The input I / F 105 is an interface that is connected to a keyboard 106, a mouse 107, and the like and receives input from an operator. The output I / F 108 is an interface to which a display 109, a printer, and the like are connected, and the execution result of the program is output in a form that can be visually recognized by the operator.

通信I/F104は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。また、通信I/F104は、例えば、USB等のシリアルインターフェースを含む。   The communication I / F 104 is a network interface device that controls communication with other devices in accordance with a predetermined protocol. The communication I / F 104 includes a serial interface such as USB.

プロセッサ101が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介してテキスト分析装置100に提供され、非一時的記憶媒体である不揮発性の補助記憶装置103に格納される。このため、テキスト分析装置100は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。   A program executed by the processor 101 is provided to the text analysis device 100 via a removable medium (CD-ROM, flash memory, etc.) or a network, and is stored in a nonvolatile auxiliary storage device 103 which is a non-temporary storage medium. . For this reason, the text analysis device 100 may have an interface for reading data from a removable medium.

テキスト分析装置100は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。   The text analysis apparatus 100 is a computer system configured on a single physical computer or a plurality of logically or physically configured computers, and operates in a separate thread on the same computer. It may be possible to operate on a virtual machine constructed on a plurality of physical computer resources.

プロセッサ101は、例えば、構文解析部111、一次特徴量抽出部112、二次特徴量生成部113、機械学習部114、及び評価部115を含む。例えば、プロセッサ101は、メモリ102にロードされた構文解析プログラムに従って動作することで、構文解析部111として機能し、メモリ102にロードされた一次特徴量抽出プログラムに従って動作することで、一次特徴量抽出部112として機能する。プロセッサ101に含まれる他の部についても同様である。   The processor 101 includes, for example, a syntax analysis unit 111, a primary feature quantity extraction unit 112, a secondary feature quantity generation unit 113, a machine learning unit 114, and an evaluation unit 115. For example, the processor 101 operates as a syntax analysis unit 111 by operating in accordance with a syntax analysis program loaded in the memory 102, and extracts a primary feature value by operating in accordance with a primary feature extraction program loaded in the memory 102. It functions as the unit 112. The same applies to the other units included in the processor 101.

構文解析部111は、通信I/F104又は入力I/F105を介して、テキストを取り込む。また、構文解析部111は、取り込んだテキストを解析する。一次特徴量抽出部112は、辞書200及び一次特徴量抽出ルール300を参照して、議題語、価値語、及び解析済のテキストから、当該解析済みのテキストの1以上の一次特徴量を抽出する。一次特徴量の詳細については後述する。   The syntax analysis unit 111 captures text via the communication I / F 104 or the input I / F 105. The syntax analysis unit 111 analyzes the captured text. The primary feature quantity extraction unit 112 refers to the dictionary 200 and the primary feature quantity extraction rule 300 and extracts one or more primary feature quantities of the analyzed text from the agenda word, the value word, and the analyzed text. . Details of the primary feature amount will be described later.

二次特徴量生成部113は、二次特徴量生成ルール400を参照して、抽出された一次特徴量から、当該解析済みのテキストの二次特徴量を生成する。機械学習部114は、算出された二次特徴量から、当該テキストによるサポート性を評価するためのスコアを算出する。なお、機械学習部114は、算出された一次特徴量を用いて当該スコアを算出してもよい。評価部115は、算出されたスコアから、当該テキストによるサポート性を評価する。   The secondary feature value generation unit 113 refers to the secondary feature value generation rule 400 and generates a secondary feature value of the analyzed text from the extracted primary feature value. The machine learning unit 114 calculates a score for evaluating the supportability of the text from the calculated secondary feature amount. Note that the machine learning unit 114 may calculate the score using the calculated primary feature amount. The evaluation unit 115 evaluates supportability by the text from the calculated score.

補助記憶装置103は、例えば、辞書200、一次特徴量抽出ルール300、及び二次特徴量生成ルール400を格納する。辞書200は、1以上の辞書からなり、当該1以上の辞書それぞれは、1以上の表現を含む。辞書に含まれる各表現は、必ずしも1つの単語でなくてもよく、例えば、1以上の単語、1以上の句、1以上の文、又はそれらの組み合わせ等であってもよい。以下、本実施形態では、便宜上、辞書に含まれる各表現が、1つの単語である例を説明する。辞書200は、例えば、予め定められている。   The auxiliary storage device 103 stores, for example, a dictionary 200, a primary feature quantity extraction rule 300, and a secondary feature quantity generation rule 400. The dictionary 200 includes one or more dictionaries, and each of the one or more dictionaries includes one or more expressions. Each expression included in the dictionary is not necessarily a single word, and may be, for example, one or more words, one or more phrases, one or more sentences, or a combination thereof. Hereinafter, in this embodiment, an example in which each expression included in the dictionary is one word will be described for convenience. The dictionary 200 is determined in advance, for example.

一次特徴量抽出ルール300は、構文解析済みのテキストから、当該テキストの一次特徴量を抽出するためのルールを示す。二次特徴量生成ルール400は、構文解析済みのテキストから抽出された一次特徴量から、当該テキストの二次特徴量を生成するためのルールを示す。   The primary feature quantity extraction rule 300 indicates a rule for extracting the primary feature quantity of the text from the parsed text. The secondary feature value generation rule 400 indicates a rule for generating a secondary feature value of the text from the primary feature value extracted from the parsed text.

なお、本実施形態において、テキスト分析装置100が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。なお、後述する図3から図5では、補助記憶装置103が保持する各データがテーブル構造で表現されている例を示す。   In the present embodiment, the information used by the text analysis apparatus 100 may be expressed in any data structure without depending on the data structure. For example, a data structure appropriately selected from a table, list, database or queue can store the information. 3 to 5 described later show examples in which each data held in the auxiliary storage device 103 is expressed in a table structure.

図2は、辞書200の一例である。辞書200は、辞書名欄201、単語欄202、及び符号欄203を含む。辞書名欄201は、辞書の名称を格納する。単語欄202は、対応する辞書に含まれる単語を格納する。   FIG. 2 is an example of the dictionary 200. The dictionary 200 includes a dictionary name field 201, a word field 202, and a code field 203. The dictionary name column 201 stores the name of the dictionary. The word column 202 stores words included in the corresponding dictionary.

符号欄203は、各単語に対応する符号を格納する。以下、本実施形態では、単語欄202には、1つの単語が格納されているものとする。なお、符号欄203に含まれる値は、+1及び−1に限らず、正又は負の値であればよい。   The code column 203 stores a code corresponding to each word. Hereinafter, in this embodiment, it is assumed that one word is stored in the word column 202. Note that the values included in the code field 203 are not limited to +1 and -1, and may be positive or negative values.

辞書200は、affect辞書、shifted辞書、absolutized辞書、及びnegated辞書を含む。affect辞書は、ある表現からある表現へ促進作用又は抑制作用を与える意味を持つ単語からなる辞書である。例えば、促進作用を示す単語の符号は正であり、抑制作用を示す単語の符号は負である。なお、テキスト分析装置100が促進作用及び抑制作用以外の作用についてのサポート性を推定する場合、辞書200は、当該作用を示す単語からなる辞書を含む。   The dictionary 200 includes an effect dictionary, a shifted dictionary, an absolutized dictionary, and a negated dictionary. The affect dictionary is a dictionary composed of words having a meaning that gives a promotion action or a suppression action from one expression to another expression. For example, the sign of the word indicating the promoting action is positive, and the sign of the word indicating the suppressing action is negative. In addition, when the text analysis apparatus 100 estimates supportability about actions other than the promoting action and the suppressing action, the dictionary 200 includes a dictionary including words indicating the action.

shifted辞書は、関係を反転させる単語からなる。shifted辞書の各単語の符号は負である。例えば、"Casino suppresses health problem."というテキストと、"Casino ban suppresses health problem."というテキストと、を比較すると、前者は「カジノが健康問題に対して抑制作用を与えていること」を示唆しているのに対し、後者は「カジノが健康問題に対して促進作用を与えていること」を示唆している。つまり、単語"ban"は、"casino"から"health problem"への抑制作用と促進作用とを反転させる。従って、"ban"は関係を反転させる語の一例である。   The shifted dictionary consists of words that reverse the relationship. The sign of each word in the shifted dictionary is negative. For example, comparing the text "Casino suppresses health problem." With the text "Casino ban suppresses health problem.", The former suggests "Casino has a suppressive effect on health problems." On the other hand, the latter suggests that "the casino is promoting the health problem". That is, the word “ban” reverses the suppressive action and the promoting action from “casino” to “health problem”. Thus, “ban” is an example of a word that reverses the relationship.

absolutized辞書は、係り先である単語を含む句が示す価値極性を固定する語からなる。例えば、単語"health"が正の価値を示すとした場合、"health problem"は負の価値を示す。一方、単語"crime"が負の価値を示すとした場合、"crime problem"もまた負の価値を示す。つまり、"problem"という単語は、"problem"と係り先である単語とからなる句の価値極性(正負)を、当該係り先の単語の価値極性に関わらず、負に固定する。従って、"problem"は価値の極性を負に固定する単語の一例である。なお、absolutized辞書において、価値の極性を正に固定する単語の符号は正であり、価値の極性を負に固定する単語の符号は負である。   The absolutized dictionary is composed of words that fix the value polarity indicated by the phrase containing the word that is the destination. For example, if the word “health” indicates a positive value, “health problem” indicates a negative value. On the other hand, if the word “crime” shows negative value, “crime problem” also shows negative value. In other words, the word “problem” fixes the value polarity (positive / negative) of a phrase composed of “problem” and the related word regardless of the value polarity of the related word. Therefore, "problem" is an example of a word that fixes the value polarity to negative. In the absolutized dictionary, the sign of the word that fixes the value polarity to positive is positive, and the sign of the word that fixes the value polarity to negative is negative.

negated辞書は、否定表現を示す単語からなる。negated辞書の各単語の符号は負である。また、例えば、"not always"や"not every"のような部分否定表現の符号は、"not"のような完全否定の符号より大きい値であることが好ましい。   The negated dictionary consists of words that indicate negation. The sign of each word in the negated dictionary is negative. For example, it is preferable that the sign of the partial negation expression such as “not always” or “not every” is larger than the sign of the complete negation such as “not”.

辞書200は、例えば、believe辞書、state辞書、significant辞書、equivalent辞書、contrast辞書等を、さらに含んでもよい。believe辞書は、許可又は禁止を表す単語からなる。許可を表す語の符号は正であり、禁止を表す語の符号は負である。具体的には、believe辞書は、例えば、正の符号を有する"allow"や、負の符号を有する"prohibit"等の単語を含む。   The dictionary 200 may further include, for example, a believe dictionary, a state dictionary, a significant dictionary, an equivalent dictionary, a contrast dictionary, and the like. The believe dictionary consists of words representing permission or prohibition. The sign of the word representing permission is positive, and the sign of the word representing prohibition is negative. Specifically, the believe dictionary includes words such as “allow” having a positive sign and “prohibit” having a negative sign.

state辞書は、発言や発表等が行われることを示す単語からなり、例えば、"show"や"reject"等の単語を含む。例えば、単語"show"のように当該単語の述部である発言又は発表内容を、肯定又は促進する単語の符号は正であり、単語"reject"のように当該単語の述部である発言又は発表内容を、否定又は抑制する単語の符号は負である。   The state dictionary is composed of words indicating that a speech or announcement is to be made, and includes words such as “show” and “reject”, for example. For example, the sign of the word that affirms or promotes the utterance or announcement content that is the predicate of the word such as the word “show” is positive, and the utterance or predicate that is the predicate of the word such as the word “reject” The sign of a word that denies or suppresses the content of the presentation is negative.

なお、辞書200がstate辞書を含む場合、辞書200はauthority辞書をさらに含むとよい。authority辞書は、発言又は発表を行う主体を示す単語を格納し、符号欄203に符号の代わりに当該主体による発言又は発表の信頼性を示す信頼度を格納する。例えば、authority辞書は、例えば、信頼度0.9の単語"research"、信頼度0.7の単語"professor"、及び信頼度0.1の単語"person"等を格納する。authority辞書に格納されている単語を権威語とも呼ぶ。   When the dictionary 200 includes a state dictionary, the dictionary 200 may further include an authority dictionary. The authority dictionary stores a word indicating a subject who makes a statement or announcement, and stores a reliability indicating the reliability of the statement or announcement by the subject in the code field 203 instead of a code. For example, the authority dictionary stores, for example, a word “research” with a confidence level of 0.9, a word “professor” with a confidence level of 0.7, a word “person” with a confidence level of 0.1, and the like. The words stored in the authority dictionary are also called authority words.

significant辞書は、良し悪しを示す単語からなり、例えば、"effective"や"dangerous"等の単語を含む。例えば、"effective"のように良いことを示す単語の符号は正であり、"dangerous"のように悪いことを示す単語の符号は負である。   The significant dictionary is composed of words indicating good or bad, and includes words such as “effective” and “dangerous”, for example. For example, the sign of a good word such as “effective” is positive, and the sign of a bad word such as “dangerous” is negative.

equivalent辞書は、等価関係を示す単語からなり、例えば、"viewed"、"regarded"等の単語を含む。例えば、単語"viewed"のように等価を表す語のequivalent辞書における符号は正であり、述語"isnt"(is not の省略形)のように非等価を表す語のequivalent辞書における符号は負である。contrast辞書は、比較関係を示す単語からなり、例えば、"than"や、"compared"等の単語を含む。contrast辞書に含まれる単語の符号はいずれも正である。   The equivalent dictionary is composed of words indicating equivalence relations, and includes words such as “viewed” and “regarded”, for example. For example, the sign in the equivalent dictionary for a word representing equivalence, such as the word "viewed", is positive, and the sign in the equivalent dictionary for a word representing non-equality, such as the predicate "isnt" (abbreviation for is not) is there. The contrast dictionary is composed of words indicating comparison relationships, and includes, for example, words such as “than” and “compared”. The signs of the words contained in the contrast dictionary are all positive.

図3は、一次特徴量抽出ルール300の一例である。まず、一次特徴量の詳細を説明する。まず、一次特徴量について説明する。一次特徴量は、典型的には、「d.ai-tgt.mod」の形式で表される。   FIG. 3 is an example of the primary feature quantity extraction rule 300. First, details of the primary feature amount will be described. First, the primary feature amount will be described. The primary feature amount is typically expressed in a format of “d.ai-tgt.mod”.

dは述語辞書名を表す。述語辞書は、辞書200に含まれる辞書のうち、テキストの述語となり得る単語を格納する辞書である。例えば、affect辞書、believe辞書、state辞書、significant辞書、equivalent辞書、及びcontrast辞書はいずれも述語辞書であり、shifted辞書、absolutized辞書、authority辞書、及びnegated辞書はいずれも述語辞書ではない。   d represents a predicate dictionary name. The predicate dictionary is a dictionary that stores words that can be text predicates among the dictionaries included in the dictionary 200. For example, the effect dictionary, believe dictionary, state dictionary, significant dictionary, equivalent dictionary, and contrast dictionary are all predicate dictionaries, and the shifted dictionary, absolutized dictionary, authority dictionary, and negated dictionary are not predicate dictionaries.

aiは係り受け関係にある表現を表し、主語及び目的語を含む。以下、本実施形態では主語をa1、目的語をa2と表す。係り受け関係にある表現は、例えば、名詞であってもよいし、名詞句であってもよい。例えば、「affect.a1」は、あるテキスト内に、affect辞書に含まれる単語、又は当該単語の同義語若しくは類義語が含まれる場合における、当該テキストにおける当該単語の主語を示す。   ai represents a dependency expression, and includes a subject and an object. Hereinafter, in this embodiment, the subject is represented as a1 and the object is represented as a2. The expression in the dependency relationship may be, for example, a noun or a noun phrase. For example, “affect.a1” indicates the subject of the word in the text when a word included in the effect dictionary, or a synonym or synonym of the word is included in a certain text.

tgtは対象を表し、議題語o、価値語v、権威語authority、inv(o)、inv(v)、又はinv(authority)のいずれかである。なお、invは対義的な語を示し、例えば、inv(v)は価値語vの対義語を示す。議題語の対義語は、たとえば代替語である。例えば、議題語oが"Hillary Clinton"である場合、2016年の米大統領選における他候補(Hillary Clintonは2016年の米大統領選における候補である)である"Jeb Bush"、及び"Donald Trump"は、inv(o)の一例である。補助記憶装置103は、各単語の対義語を特定するための対義語辞書をさらに保持していてもよい。   tgt represents an object and is one of agenda word o, value word v, authority word authority, inv (o), inv (v), or inv (authority). Note that inv indicates an adjective word, for example, inv (v) indicates a synonym of the value word v. An antonym of an agenda word is, for example, an alternative word. For example, if the agenda o is "Hillary Clinton", "Jeb Bush" and "Donald Trump" are other candidates in the 2016 US presidential election (Hillary Clinton is a candidate in the 2016 US presidential election) Is an example of inv (o). The auxiliary storage device 103 may further hold an antonym dictionary for specifying an antonym of each word.

なお、一次特徴量は、tgtを含まなくてもよい。即ち一次特徴量は、「d.ai-mod」の形式で表されてもよい。なお、例えば、tgtが議題語oである場合、tgtは当該議題語oの同義語、類義語、品詞違い、上位語、下位語、等を含んでもよい。つまりこのとき、tgtは、当該議題語oを代表語とする語群であってもよい。tgtが価値語v又は権威語authorityの場合でも同様である。   The primary feature amount may not include tgt. That is, the primary feature amount may be expressed in the format of “d.ai-mod”. For example, when tgt is an agenda word o, tgt may include a synonym, a synonym, a part of speech difference, a broader word, a lower word, and the like of the agenda word o. That is, at this time, tgt may be a word group having the agenda word o as a representative word. The same applies when tgt is the value word v or the authority word authority.

modは、例えば、shifted、absolutized、及びnegated等の述語辞書でない辞書名、並びにunifを含む。unifはaiに含まれる単語とtgtの意味の一致度を表す。一致度は、例えば、0以上1以下の値で表され、aiにtgtと完全一致する文字列(なお、例えば、活用形による違い、単複による違いのみがある場合も完全一致とする)又は同義語が含まれる場合は1.0、aiがtgtと全く別物を指す単語のみからなる場合0.0である。   mod includes, for example, dictionary names that are not predicate dictionaries such as shifted, absolutized, and negated, and unif. unif represents the degree of agreement between the words in ai and the meaning of tgt. The degree of coincidence is, for example, expressed by a value between 0 and 1, and ai is a character string that completely matches tgt (for example, even if there is a difference due to usage or only a difference due to single or double) 1.0 is included when a word is included, and 0.0 when ai consists only of a word that is completely different from tgt.

aiにtgtの類義語が含まれる場合、例えば、所定の文献等から算出される、元の語とのIDF値の比を一致度としてもよい。ただし当該比が1を超える場合は、一致度は1であるとする。unifは、作用関係を表す述語とo又はvとの繋がりを示す指標であるため、作用関係の有無を識別するために用いられる。   When the synonym of tgt is included in ai, for example, the ratio of the IDF value with the original word calculated from a predetermined document or the like may be used as the degree of coincidence. However, when the ratio exceeds 1, the matching degree is 1. Since unif is an index indicating the connection between a predicate representing an action relationship and o or v, it is used to identify the presence or absence of the action relationship.

shiftedは、aiがshifted辞書に含まれる単語を含むか否かを示す値である。例えば、aiがshifted辞書に含まれる単語を含む場合、shiftedの値は当該単語のshifted辞書における符号であり、含まない場合、shiftedの値は+1である。shiftedは関係を反転させる語の存在を示す指標であるため、作用関係がある場合における作用の方向、即ち作用が促進作用であるか又は抑制作用であるかを識別するために用いられる。   shifted is a value indicating whether or not ai includes a word included in the shifted dictionary. For example, when ai includes a word included in the shifted dictionary, the value of shifted is a code in the shifted dictionary of the word, and when not included, the value of shifted is +1. Since shifted is an index indicating the presence of a word that reverses the relationship, it is used to identify the direction of the action when there is an action relationship, that is, whether the action is an accelerating action or an inhibitory action.

absolutizedは、aiがabsolutized辞書に含まれる単語を含むか否かを示す値である。例えば、aiがabsolutized辞書に含まれる単語を含む場合、absolutizedの値は、当該単語のabsolutized辞書における符号であり、含まない場合absolutizedの値はnull値となり計算されない。absolutizedは価値の極性を固定する単語の存在を示す指標であるため、作用関係がある場合における作用の方向を識別するために用いられる。   absolutized is a value indicating whether or not ai includes a word included in the absolutized dictionary. For example, when ai includes a word included in the absolutized dictionary, the absolutized value is a code in the absolutized dictionary of the word, and when not included, the absolutized value is a null value and is not calculated. Since absolutized is an index indicating the presence of a word that fixes the polarity of value, it is used to identify the direction of action when there is an action relationship.

従って、一次特徴量「d.ai-tgt.mod」は、述語辞書dのテキスト内単語、のaiで特定された係り受け関係にある単語、が対象tgtを含む場合における、当該単語及び/又は当該対象のmodに対応する特徴を示す値である。   Therefore, the primary feature value “d.ai-tgt.mod” is the word in the text of the predicate dictionary d, and the dependency relationship specified by ai includes the target tgt and / or It is a value indicating the feature corresponding to the target mod.

例えば、「affect.a1-o.unif」は、affect辞書に含まれる単語がテキストに含まれている場合において、当該単語の当該テキストにおける主語(a1)と、議題語(o)と、の一致度(unif)を示す値である。   For example, “affect.a1-o.unif” is a match between the subject (a1) of the word and the agenda (o) in the text when the word contained in the effect dictionary is included in the text. A value indicating the degree (unif).

なお、テキストにaffect辞書に含まれる単語が含まれない場合、「affect.a1-o.unif」は算出されない。また、テキストにaffect辞書に含まれる複数の単語が含まれる場合、当該複数の単語それぞれについて「affect.a1-o.unif」が算出される。これは、affect辞書を用いた他の一次特徴量、及び他の述語辞書を用いた一次特徴量についても同様である。   Note that “affect.a1-o.unif” is not calculated when the text does not include a word included in the effect dictionary. If the text includes a plurality of words included in the effect dictionary, “affect.a1-o.unif” is calculated for each of the plurality of words. The same applies to other primary feature quantities using the effect dictionary and primary feature quantities using other predicate dictionaries.

また、例えば、「aff.a1-o.shifted」は、テキストにaffect辞書に含まれる単語が含まれ、当該単語の当該テキストにおける主語に議題語を反転させる語があるか否かを示す特徴量である。   Further, for example, “aff.a1-o.shifted” is a feature amount indicating whether or not a word included in the effect dictionary is included in the text, and there is a word that inverts the agenda in the subject of the word in the text It is.

なお、一次特徴量は、「NP-tgt.mod」の形式で表されてもよい。NPは名詞句を示す。つまり、一次特徴量「NP-tgt.mod」は、テキスト中に対象tgtを含む名詞句が存在する場合における、当該名詞句及び/又は当該対象のmodに対応する特徴を示す値である。例えば「NP-v.shifted」は、テキストが価値語を含む名詞句を含む場合において、価値語に係るshifted辞書の単語を当該名詞句が含むか否かを示す値である。   The primary feature amount may be expressed in the format “NP-tgt.mod”. NP indicates a noun phrase. That is, the primary feature “NP-tgt.mod” is a value indicating a feature corresponding to the noun phrase and / or the target mod when there is a noun phrase including the target tgt in the text. For example, “NP-v.shifted” is a value indicating whether or not the noun phrase includes a word in a shifted dictionary related to the value word when the text includes a noun phrase including the value word.

また、さらに、以下の一次特徴量が生成されてもよい。例えば、一次特徴量「sta.tgt.authority」は、テキストにstate辞書に含まれる単語が含まれる場合における、当該単語の対象tgtのauthority辞書における信頼度を示す。一次特徴量「sta.tgt.authority」は、発言を表す述語の存在及び当該述語の対象の信頼度を示す指標であるため、サポート性の強さ、即ち促進作用又は抑制作用の強さを識別するために用いられる。   Furthermore, the following primary feature amounts may be generated. For example, the primary feature quantity “sta.tgt.authority” indicates the reliability in the authority dictionary of the target tgt of the word when the text includes a word included in the state dictionary. The primary feature “sta.tgt.authority” is an index that indicates the presence of a predicate that represents a statement and the reliability of the target of the predicate, and thus identifies the strength of support, that is, the strength of promoting or suppressing Used to do.

また、一次特徴量「d.negated」は、テキストに辞書dに含まれる単語が含まれ、かつ当該単語に"not"等の否定表現が係っているか否かを示す。否定表現が係っている場合の値は−1であり、係っていない場合の値は1である。一次特徴量「d.negated」は、否定語の存在を示す指標であるため、作用関係がある場合における作用の方向を識別するために用いられる。   The primary feature “d.negated” indicates whether the text includes a word included in the dictionary d and whether the word is associated with a negative expression such as “not”. The value when negative expression is involved is -1, and the value when negative expression is not is 1. The primary feature “d.negated” is an index indicating the presence of a negative word, and is used to identify the direction of action when there is an action relationship.

また、自然言語処理において、一般的に利用される特徴量が一次特徴量として生成されてもよい。例えば、テキストの長さ(例えば、テキスト内の語数や文字数)を示す値や、テキスト内の名詞句の数を示す値等が一次特徴量として生成されてもよい。   Further, in natural language processing, a generally used feature value may be generated as a primary feature value. For example, a value indicating the length of the text (for example, the number of words or characters in the text), a value indicating the number of noun phrases in the text, or the like may be generated as the primary feature amount.

ここで、テキストt1:"The research showed that casino ban suppresses health problem."、議題語o:casino:、価値語:healthに対する一次特徴量の具体例をいくつか説明する。   Here, some specific examples of primary features for the text t1: “The research showed that casino ban suppresses health problem.”, The agenda o: casino :, and the value word: health will be described.

t1に含まれる単語"suppresses"は、抑制作用を示す単語であり、affect辞書に含まれる"suppress"と完全一致し、"suppress"のaffect辞書における符号は−1である。また、t1において、"suppresses"の主語a1は議題語である"casino"を含む。従って、一次特徴量affect.a1-o.unifの値は1である。t1において、"suppresses"の目的語は、価値語である"health"を含む。従って、一次特徴量affect.a2-v.unifの値は1である。   The word “suppresses” included in t1 is a word indicating a suppression action, and completely matches “suppress” included in the effect dictionary, and the code in the effect dictionary of “suppress” is −1. At t1, the subject a1 of “suppresses” includes the agenda word “casino”. Therefore, the value of the primary feature amount effect.a1-o.unif is 1. At t1, the object of “suppresses” includes the value word “health”. Therefore, the value of the primary feature amount effect.a2-v.unif is 1.

また、t1に含まれる単語"ban"は、shifted辞書に含まれる単語であり、"ban"のshifted辞書における符号は−1である。"ban"は、t1において議題語"casino"に係っている。また、前述の通り、議題語"casino"は"suppresses"の主語に含まれる。従って、一次特徴量affect.a1-o.shiftedの値は−1である。   Further, the word “ban” included in t1 is a word included in the shifted dictionary, and the code in the shifted dictionary of “ban” is −1. “ban” is associated with the agenda “casino” at t1. As described above, the agenda word “casino” is included in the subject of “suppresses”. Therefore, the value of the primary feature amount effect.a1-o.shifted is -1.

また、t1に含まれる単語"problem"は、absolutized辞書に含まれる単語であり、"problem"のabsolutized辞書における符号は−1である。"problem"は、t1において価値語"health"に係っている。また、前述の通り、価値語"health"は、"suppresses"の目的語に含まれる。従って、一次特徴量affect.a2-v.absolutizedの値は−1である。   Further, the word “problem” included in t1 is a word included in the absolutized dictionary, and the code of the “problem” in the absolutized dictionary is −1. "problem" is associated with the value word "health" at t1. Further, as described above, the value word “health” is included in the object of “suppresses”. Therefore, the value of the primary feature amount effect.a2-v.absolutized is -1.

また、t1の主語a1に含まれる単語"research"は、state辞書に含まれる単語である。従って、例えば、"research"のauthority辞書における信頼度が0.9である場合、一次特徴量sta.a1-authorityの値は0.9である。   The word “research” included in the subject a1 of t1 is a word included in the state dictionary. Therefore, for example, when the reliability in the authority dictionary of “research” is 0.9, the value of the primary feature quantity sta.a1-authority is 0.9.

以下、一次特徴量抽出ルール300について説明する。一次特徴量抽出ルール300は、例えば、一次特徴量名欄301、述語辞書欄302、係り受け欄303、対象欄304、及び計算方法欄305を含む。   Hereinafter, the primary feature quantity extraction rule 300 will be described. The primary feature quantity extraction rule 300 includes, for example, a primary feature quantity name field 301, a predicate dictionary field 302, a dependency field 303, a target field 304, and a calculation method field 305.

一次特徴量名欄301は、一次特徴量の名称を格納する。述語辞書欄302は、対応する一次特徴量の算出に使用される述語辞書dの名称を格納する。係り受け欄303は、対応する一次特徴量の算出に用いられる、係り受け関係にある表現の種類を格納する。例えば、主語a1及び目的語a2それぞれは係り受け関係にある表現の種類の一例である。   The primary feature quantity name column 301 stores the name of the primary feature quantity. The predicate dictionary column 302 stores the name of the predicate dictionary d used for calculating the corresponding primary feature quantity. The dependency column 303 stores types of expressions having a dependency relationship, which are used for calculating the corresponding primary feature value. For example, each of the subject a1 and the object a2 is an example of an expression type having a dependency relationship.

対象欄304は、対応する一次特徴量の算出に用いられる、対象tgtを格納する。対象欄304は、具体的には、例えば、議題語o、価値語v、又は権威語authorityを格納する。計算方法欄305は、対応する一次特徴量の計算方法を格納する。   The target column 304 stores a target tgt used for calculation of the corresponding primary feature quantity. Specifically, the target column 304 stores, for example, the agenda word o, the value word v, or the authority word authority. The calculation method column 305 stores the calculation method of the corresponding primary feature quantity.

一次特徴量抽出ルール300は、iが1又は2であり、tgtが議題語o又は価値語vであり、modがunif、shifted、又はabsolutizedである、{affect.ai-tgt.mod}の形式で表される一次特徴量の抽出ルールを含む。つまり、一次特徴量抽出ルール300は、少なくとも、affect.a1-o.unif、affect.a1-o.shifted、affect.a1-o.absolutized、affect.a1-v.unif、affect.a1-v.shifted、affect.a1-v.absolutized、affect.a2-o.unif、affect.a2-o.shifted、affect.a2-o.absolutized、affect.a2-v.unif、affect.a2-v.shifted、及びaffect.a2-v.absolutizedの12種類の一次特徴量の抽出ルールを含む。   The primary feature quantity extraction rule 300 has a format of {affect.ai-tgt.mod} in which i is 1 or 2, tgt is the agenda word o or the value word v, and mod is unif, shifted, or absolutized. The extraction rule of the primary feature-value represented by these is included. That is, the primary feature quantity extraction rule 300 is at least effect.a1-o.unif, effect.a1-o.shifted, effect.a1-o.absolutized, effect.a1-v.unif, effect.a1-v. shifted, effect.a1-v.absolutized, effect.a2-o.unif, effect.a2-o.shifted, effect.a2-o.absolutized, effect.a2-v.unif, effect.a2-v.shifted, And extraction rules for 12 types of primary feature values of effect.a2-v.absolutized.

また、一次特徴量抽出ルール300は、上述の12種類の一次特徴量の抽出ルールの代わりに、tgtが議題語o又は価値語vであり、modがunif、shifted、又はabsolutizedである、{NP-tgt.mod}の形式で表される一次特徴量の抽出ルールを含んでもよい。この場合、一次特徴量抽出ルール300は、少なくとも、NP-o.unif、NP-o.shifted、NP-o.absolutized,NP-v.unif、NP-v.shifted、NP-v.absolutizedの6種類の一次特徴量の抽出ルールを含む。   In addition, the primary feature quantity extraction rule 300 is, instead of the above-described 12 types of primary feature quantity extraction rules, tgt is the agenda word o or the value word v, and mod is unif, shifted, or absolutized, {NP -tgt.mod} may be included as a primary feature extraction rule. In this case, the primary feature quantity extraction rule 300 includes at least 6 of NP-o.unif, NP-o.shifted, NP-o.absolutized, NP-v.unif, NP-v.shifted, NP-v.absolutized. Includes extraction rules for types of primary features.

また、一次特徴量抽出ルール300は、ある述語辞書dを用いた一次特徴量の算出ルールを含む場合、当該述語辞書に対する一次特徴量d.negatedの算出ルールを含む。   When the primary feature quantity extraction rule 300 includes a primary feature quantity calculation rule using a predicate dictionary d, the primary feature quantity extraction rule 300 includes a primary feature quantity d.negated calculation rule for the predicate dictionary.

なお、テキスト分析装置100が、サポート性評価として作用の有無のみを判定し、促進作用と抑制作用の識別を行わない場合、一次特徴量抽出ルール300は、modがshifted又はabsolutizedである一次特徴量、及び一次特徴量d.negatedの抽出ルールを含まなくてもよい。   Note that when the text analysis apparatus 100 determines only the presence / absence of the action as the supportability evaluation and does not identify the promotion action and the suppression action, the primary feature quantity extraction rule 300 determines that the primary feature quantity whose mod is shifted or absolutized. And the extraction rule of the primary feature value d.negated may not be included.

テキスト分析装置100は、上述の一次特徴量を用いることにより、テキストによる作用のサポート性評価の精度を向上させることができる。   The text analysis apparatus 100 can improve the accuracy of the supportability evaluation of the action by the text by using the above-described primary feature amount.

図4は、二次特徴量生成ルール400の一例である。二次特徴量生成ルール400は、例えば、二次特徴量名欄401、排他二次特徴量名欄402、スコア計算方法欄403、及び符号計算方法欄404を含む。   FIG. 4 is an example of the secondary feature quantity generation rule 400. The secondary feature quantity generation rule 400 includes, for example, a secondary feature quantity name field 401, an exclusive secondary feature quantity name field 402, a score calculation method field 403, and a code calculation method field 404.

なお、二次特徴量は、一般的には、例えば、「o affect v」のように述語辞書名の左側及び右側の少なくとも一方に1以上の対象tgtが記載されている形式で表される。当該形式の二次特徴量は、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて、当該単語の主語に述語辞書名の左側に記載されたtgtが含まれ、かつ当該単語の述語に述語辞書名の右側に記載されたtgtが含まれるか否かを示す値である。   The secondary feature amount is generally expressed in a format in which one or more target tgt is described in at least one of the left side and the right side of the predicate dictionary name such as “o affect v”. The secondary feature quantity of the format includes a word included in the effect dictionary, and the text includes the tgt described on the left side of the predicate dictionary name in the subject of the word, and the word Is a value indicating whether or not tgt described on the right side of the predicate dictionary name is included in the predicate.

例えば、二次特徴量「o affect v」は、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて、当該単語の主語に議題語oが含まれ、かつ当該単語の述語に価値語vが含まれるか否かを示す値である。   For example, the secondary feature amount “o affect v” is obtained when the word included in the effect dictionary includes the agenda word o in the subject of the word and the predicate of the word in the text. This is a value indicating whether or not the value word v is included.

二次特徴量「o v affect inv(v)」は、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて、当該単語の主語に議題語o及び価値語vが含まれ、かつ当該単語の述語に価値語vの対義語が含まれるか否かを示す値である。   The secondary feature quantity “ov affect inv (v)” includes a word “o” and a value word “v” as the subject of the word when the word included in the effect dictionary is included in the text, and It is a value indicating whether or not a synonym of the value word v is included in the predicate of the word.

また、図4に記載されたaffect.signは、affect辞書に含まれる単語がテキスト内に含まれる場合における当該単語のaffect辞書における符号を示す。また、図4に記載されたval.signは価値語vの符号を示す。   Further, effect.sign described in FIG. 4 indicates a code of the word in the effect dictionary when the word included in the effect dictionary is included in the text. Also, val.sign shown in FIG. 4 indicates the sign of the value word v.

二次特徴量名欄401は、二次特徴量の名称を格納する。排他二次特徴量名欄402は、対応する二次特徴量と排他的な関係にある二次特徴量の名称を格納する。具体的には、排他二次特徴量名欄402に格納されている二次特徴量の値が存在しない(本実施例においては、ゼロである)場合にのみ、対応する二次特徴量が生成される。例えば、図4の二次特徴量生成ルール400の2行目を参照すると、二次特徴量"o affect v"は、二次特徴量"o v affect inv(v)"の値がゼロである場合にのみ算出される。   The secondary feature quantity name column 401 stores the name of the secondary feature quantity. The exclusive secondary feature quantity name column 402 stores the names of secondary feature quantities that have an exclusive relationship with the corresponding secondary feature quantity. Specifically, a corresponding secondary feature value is generated only when the value of the secondary feature value stored in the exclusive secondary feature value name field 402 does not exist (in this embodiment, it is zero). Is done. For example, referring to the second line of the secondary feature value generation rule 400 in FIG. 4, the secondary feature value “o affect v” is zero when the value of the secondary feature value “ov affect inv (v)” is zero. Is calculated only for

スコア計算方法欄403は当該二次特徴量のスコアの計算方法を格納する。符号計算方法欄404は当該二次特徴量の符号の計算方法を格納する。スコア計算方法欄403、及び符号計算方法欄404に格納されている計算方法は、一次特徴量を用いたものである。二次特徴量のスコア及び符号は、一次特徴量そのもの又は複数の一次特徴量の積を含む。   The score calculation method column 403 stores a method for calculating the score of the secondary feature amount. The code calculation method column 404 stores a code calculation method of the secondary feature quantity. The calculation methods stored in the score calculation method column 403 and the code calculation method column 404 use primary feature amounts. The score and sign of the secondary feature quantity include the primary feature quantity itself or a product of a plurality of primary feature quantities.

二次特徴量生成ルール400は、二次特徴量として一次特徴量を含んでもよい。つまり、ある一次特徴量そのものが二次特徴量であってもよい。一次特徴量そのものが二次特徴量である場合、例えば、スコア計算方法欄403は、当該一次特徴量に対応する計算方法欄305が示す計算方法で算出される値の絶対値の計算方法を格納し、符号計算方法欄404は、当該計算方法で算出される値の符号の計算方法を格納する。   The secondary feature quantity generation rule 400 may include a primary feature quantity as a secondary feature quantity. That is, a certain primary feature quantity itself may be a secondary feature quantity. When the primary feature amount itself is a secondary feature amount, for example, the score calculation method column 403 stores a calculation method of an absolute value of a value calculated by the calculation method indicated by the calculation method column 305 corresponding to the primary feature amount. The code calculation method column 404 stores a code calculation method for values calculated by the calculation method.

図5は、テキスト分析処理の一例を示す。まず、構文解析部111は、通信I/F104又は入力I/F105を介して、テキストの入力を受け付け、一次特徴量抽出部112は、通信I/F104又は入力I/F105を介して、1以上の価値語、当該1以上の価値語の符号、及び1以上の議題語の入力を受け付ける(S501)。   FIG. 5 shows an example of the text analysis process. First, the syntax analysis unit 111 accepts text input via the communication I / F 104 or the input I / F 105, and the primary feature quantity extraction unit 112 receives one or more values via the communication I / F 104 or the input I / F 105. , The codes of the one or more value words, and one or more agenda words are received (S501).

構文解析部111は、入力されたテキストに対して構文解析を実行する(S502)。具体的には、構文解析部111は、例えば、既知の構文解析手法を用いて、入力されたテキストに含まれる単語及び当該単語それぞれの品詞を特定する。構文解析部111は、さらに、例えば、特定した単語間の係り受けや、テキストに含まれる句及び句の品詞を特定する。   The syntax analysis unit 111 performs syntax analysis on the input text (S502). Specifically, the syntax analysis unit 111 specifies, for example, a word included in the input text and a part of speech of the word using a known syntax analysis method. The syntax analysis unit 111 further specifies, for example, the dependency between the specified words and the phrase included in the text and the part of speech of the phrase.

また、構文解析部111は、例えば、所定のルールを用いてテキストに含まれる動詞(又は動詞句)の主語、及び目的語を特定する。主語、及び目的語は、名詞又は名詞句である。なお、所定のルールとは、例えば、文中における句や単語の品詞の配置から、動詞(又は動詞句)の主語、及び目的語を特定するルールである。   Further, the syntax analysis unit 111 identifies a subject and an object of a verb (or verb phrase) included in the text using a predetermined rule, for example. The subject and the object are nouns or noun phrases. The predetermined rule is, for example, a rule for specifying the subject of the verb (or verb phrase) and the object from the arrangement of the phrase or the part of speech of the word in the sentence.

続いて、一次特徴量抽出部112は、解析済のテキストから、例えば、一次特徴量抽出ルール300に計算方法が記載された全ての一次特徴量を抽出する(S503)。なお、affect辞書に含まれる複数の単語がテキストに含まれている場合、一次特徴量抽出部112は、例えば、当該複数の単語それぞれについて、affect.a1-o.unif等のaffect辞書を用いる一次特徴量の値を抽出する。state辞書等の他の述語辞書についても同様である。   Subsequently, the primary feature quantity extraction unit 112 extracts, from the analyzed text, for example, all primary feature quantities whose calculation methods are described in the primary feature quantity extraction rule 300 (S503). In addition, when a plurality of words included in the effect dictionary are included in the text, the primary feature amount extraction unit 112 uses, for example, a primary dictionary that uses an effect dictionary such as effect.a1-o.unif for each of the plurality of words. Extract the feature value. The same applies to other predicate dictionaries such as the state dictionary.

二次特徴量生成部113は、ステップS503で抽出された一次特徴量を用いて、例えば、二次特徴量生成ルール400に計算方法が記載された二次特徴量のうち、排他二次特徴量がない又は全ての排他二次特徴量の値がゼロである二次特徴量のスコア及び符号を算出する(S504)。   The secondary feature quantity generation unit 113 uses the primary feature quantity extracted in step S503, for example, among the secondary feature quantities whose calculation methods are described in the secondary feature quantity generation rule 400, for example, an exclusive secondary feature quantity. The score and sign of the secondary feature quantity that has no or all exclusive secondary feature quantity values are zero (S504).

機械学習部114は、ステップS504で算出された二次特徴量を用いて、関連度fscore(t)と方向性fsign(t)とを算出する(S505)。関連度fscore(t)とは、その値が大きいほど、議題語が価値語に与える作用を当該テキストがサポートしている度合いが強いことを示す指標である。方向性fsign(t)とは、その値が大きいほど、当該テキストがサポートしている議題語が価値語に与える作用が、促進方向の作用であることを示し、その値が小さいほど当該作用が抑制方向の作用であることを示す。なお、tは入力されたテキストを表す。The machine learning unit 114 calculates the degree of association f score (t) and the directionality f sign (t) using the secondary feature amount calculated in step S504 (S505). The degree of relevance f score (t) is an index indicating that the greater the value, the stronger the degree that the text supports the action of the agenda word on the value word. The directionality f sign (t) indicates that the larger the value is, the more the agenda word supported by the text has an action on the value word. The smaller the value, the more the action. Indicates that the effect is in the suppression direction. Note that t represents the input text.

例えば、機械学習部114は、ステップS504で算出された二次特徴量のスコアそれぞれに、二次特徴量ごとに予め定められた重みを掛け、重みづけされた二次特徴量のスコアの総和を関連度fscore(t)として算出する。For example, the machine learning unit 114 multiplies each of the secondary feature value scores calculated in step S504 by a predetermined weight for each secondary feature value, and calculates the sum of the weighted secondary feature value scores. Relevance is calculated as f score (t).

また、例えば、機械学習部114は、ステップS504で算出された二次特徴量の符号それぞれに、二次特徴量ごとに予め定められた重みをかけ、重みづけされた二次特徴量の符号の総和を算出する。機械学習部114は、さらに、例えば、算出した二次特徴量の符号の総和に、gsign(t)=state.sign×state.negatedを掛けた値を方向性fsign(t)として算出する。Further, for example, the machine learning unit 114 applies a predetermined weight for each secondary feature value to each code of the secondary feature value calculated in step S504, and sets the weighted secondary feature value code. Calculate the sum. The machine learning unit 114 further calculates, for example, a value obtained by multiplying the calculated sign of the secondary feature value by g sign (t) = state.sign × state.negated as the directionality f sign (t). .

なお、state.signは、入力されたテキストにstate辞書に含まれる単語が含まれる場合における、当該述語のstate辞書における符号である。なお、入力されたテキストにstate辞書に含まれる単語が含まれない場合、gsign(t)=+1である。Note that state.sign is a code in the state dictionary of the predicate when the input text includes a word included in the state dictionary. If the input text does not include a word included in the state dictionary, g sign (t) = + 1.

また、state.negatedは、入力されたテキストにstate辞書に含まれる単語が含まれる場合における、当該state辞書に含まれる単語に係るnegated辞書に含まれる単語の符号の値である。なお、state辞書に含まれる単語に係るnegated辞書に含まれる単語がテキスト中に存在しない場合、sta.negated=+1である。   State.negated is the code value of the word included in the negated dictionary related to the word included in the state dictionary when the input text includes a word included in the state dictionary. Note that sta.negated = + 1 when the word included in the negated dictionary related to the word included in the state dictionary does not exist in the text.

"reject"などの否定的な発言を表す表現はテキスト全体の意味を反転(state.sign=-1)させる。また、発言を表す表現に係っている否定表現もまた、テキスト全体の意味を反転(state.negated)させる。従って、機械学習部114は、他の二次特徴量と分けての符号の総和に、最後にgsign(t)を掛けることにより、テキスト全体によるサポート性の方向をより正確に算出することができる。なお、同じ二次特徴量における、関連度を算出する際に用いられる重みと、方向性を算出する際に用いられる重みと、は互いに異なっていてもよい。Expressions expressing negative utterances such as "reject" reverse the meaning of the whole text (state.sign = -1). Also, negative expressions that are related to expressions that express statements also reverse the meaning of the whole text (state.negated). Therefore, the machine learning unit 114 can more accurately calculate the direction of supportability of the entire text by multiplying the sum of codes separately from other secondary feature quantities by g sign (t) at the end. it can. Note that the weight used when calculating the degree of association and the weight used when calculating the directionality in the same secondary feature quantity may be different from each other.

続いて、評価部115は、入力されたテキストによる、議題語が価値語に与える促進・抑制作用のサポート性を評価する(S506)。具体的には、評価部115は、例えば、fscore(t)が第1閾値以上である場合、議題語が価値語に促進作用又は抑制作用を与えていることをテキストが示す、と判定し、fscore(t)が第1閾値未満である場合、議題語が価値語に促進作用又は抑制作用を与えていないことをテキストが示す、と判定する。Subsequently, the evaluation unit 115 evaluates the supportability of the promotion / suppression action given to the value word by the agenda word based on the input text (S506). Specifically, for example, when the f score (t) is equal to or greater than the first threshold, the evaluation unit 115 determines that the text indicates that the agenda word has a promoting action or a suppressing action on the value word. , F score (t) is less than the first threshold, it is determined that the text indicates that the agenda word does not give the value word a promoting action or a suppressing action.

また、評価部115は、例えば、fscore(t)が第1閾値以上であり、かつfsign(t)が第2閾値以上である場合、議題語が価値語に促進作用を与えていることをテキストが示す、と判定する。また、評価部115は、例えば、fscore(t)が第1閾値以上であり、かつfsign(t)が第2閾値未満である場合、議題語が価値語に抑制作用を与えていることをテキストが示す、と判定する。第2閾値は、例えば、0である。In addition, the evaluation unit 115 indicates that, for example, if f score (t) is greater than or equal to the first threshold and f sign (t) is greater than or equal to the second threshold, the agenda word has a promoting action on the value word Is determined to be indicated by the text. In addition, the evaluation unit 115 indicates that, for example, if f score (t) is greater than or equal to the first threshold value and f sign (t) is less than the second threshold value, the agenda word has an inhibitory action on the value word Is determined to be indicated by the text. The second threshold is 0, for example.

評価部115は、例えば、通信I/F104又は出力I/F108を介して、ディスプレイ109や、他の計算機等の外部装置に評価結果を出力する(S507)。評価結果の出力内容は図6を用いて後述する。   For example, the evaluation unit 115 outputs the evaluation result to the display 109 or an external device such as another computer via the communication I / F 104 or the output I / F 108 (S507). The output contents of the evaluation result will be described later with reference to FIG.

なお、評価部115は、ステップS506において、議題語が価値語に促進作用又は抑制作用を与えていることをテキストが示すか否かのみを判定してもよい。この場合、機械学習部114はステップS505においてfsign(t)を算出しなくてもよいし、二次特徴量生成部113はステップS504において各二次特徴量の符号を計算しなくてもよい。In step S506, the evaluation unit 115 may determine only whether or not the text indicates that the agenda word has a promoting action or a suppressing action on the value word. In this case, the machine learning unit 114 does not have to calculate f sign (t) in step S505, and the secondary feature value generation unit 113 does not have to calculate the sign of each secondary feature value in step S504. .

また、この場合、一次特徴量抽出部112は、ステップS503において、二次特徴量生成ルール400のスコア計算方法欄403に含まれる一次特徴量のみを抽出すればよい。特に、全ての二次特徴量のスコアが、図4の「o affect」や「o v affect inv(v)」のスコアのようにunifを含む一次特徴量のみで表される場合、一次特徴量抽出部112は、unifを含む一次特徴量のみを抽出すればよい。   In this case, the primary feature quantity extraction unit 112 may extract only the primary feature quantity included in the score calculation method column 403 of the secondary feature quantity generation rule 400 in step S503. In particular, when the scores of all secondary feature values are expressed only by primary feature values including unif, such as the scores of “o affect” and “ov affect inv (v)” in FIG. The unit 112 may extract only the primary feature amount including unif.

図6は、本実施例の表示画面の一例を示す。表示画面600は、例えば、価値語議題語表示領域601、サポート性推定結果表示領域602、テキスト表示領域603、二次特徴量表示領域604、辞書マッチング表示領域605、及び一次特徴量表示領域606を含む。   FIG. 6 shows an example of the display screen of the present embodiment. The display screen 600 includes, for example, a value word agenda display area 601, a supportability estimation result display area 602, a text display area 603, a secondary feature quantity display area 604, a dictionary matching display area 605, and a primary feature quantity display area 606. Including.

価値語議題語表示領域601は、入力された価値語及び議題語を表示する。また、価値語議題語表示領域601は、価値語及び議題語の入力を受け付ける領域として機能してもよい。サポート性推定結果表示領域602は、ステップS506において決定された、サポート性(促進、抑制、又は促進及び抑制のいずれでもない)を表示する。テキスト表示領域603は入力されたテキストを表示する。テキスト表示領域は、テキストの入力を受け付ける領域として機能してもよい。   The value word agenda word display area 601 displays the input value word and the agenda word. Further, the value word agenda word display area 601 may function as an area for receiving input of a value word and an agenda word. The supportability estimation result display area 602 displays the supportability (not promotion, suppression, or neither promotion nor suppression) determined in step S506. A text display area 603 displays the input text. The text display area may function as an area for receiving text input.

二次特徴量表示領域604は、ステップS504において算出された二次特徴量のスコア及び符号を表示する。なお、二次特徴量表示領域604は、二次特徴量生成ルール400をチューニングするための領域として機能してもよい。この場合、二次特徴量表示領域604は、例えば、二次特徴量名、排他二次特徴量名、スコア計算方法、及び符号計算方法を入力するための領域を含む。   The secondary feature quantity display area 604 displays the score and code of the secondary feature quantity calculated in step S504. The secondary feature quantity display area 604 may function as an area for tuning the secondary feature quantity generation rule 400. In this case, the secondary feature quantity display area 604 includes an area for inputting, for example, a secondary feature quantity name, an exclusive secondary feature quantity name, a score calculation method, and a code calculation method.

辞書マッチング表示領域605は、テキスト内の単語のうち、各辞書に含まれる単語の一覧、当該単語それぞれの対応する辞書における符号、並びに当該単語それぞれの主語及び目的語を表示する。   The dictionary matching display area 605 displays a list of words included in each dictionary among the words in the text, codes in the corresponding dictionary of each word, and the subject and object of each word.

一次特徴量表示領域606は、ステップS503において抽出された一次特徴量の値を表示する。なお、一次特徴量表示領域606は、一次特徴量抽出ルール300をチューニングするための領域として機能してもよい。この場合、一次特徴量表示領域606は、例えば、一次特徴量名、述語辞書、係り受け、対象、及び計算方法を入力するための領域を含む。   The primary feature quantity display area 606 displays the value of the primary feature quantity extracted in step S503. The primary feature quantity display area 606 may function as an area for tuning the primary feature quantity extraction rule 300. In this case, the primary feature quantity display area 606 includes, for example, an area for inputting a primary feature quantity name, a predicate dictionary, a dependency, a target, and a calculation method.

以上、本実施例のテキスト分析装置100は、述語辞書に含まれる単語と当該単語の係り受け関係とを用いた特徴量を用いることにより、高精度にサポートの有無を推定することができる。また、テキスト分析装置100は、複数の一次特徴量から生成される二次特徴量を用いることにより、高精度にサポート性を推定することができる。   As described above, the text analysis apparatus 100 according to the present embodiment can estimate the presence / absence of support with high accuracy by using the feature amount using the words included in the predicate dictionary and the dependency relationship between the words. Further, the text analysis apparatus 100 can estimate supportability with high accuracy by using a secondary feature value generated from a plurality of primary feature values.

また、テキスト分析装置100は、shifted、absolutized、及びnegated等の特徴量を用いることにより、サポートが有る場合におけるサポートの方向性(本実施例においては、作用が促進であるか抑制であるか)を高精度に推定することができる。また、テキスト分析装置100は、state辞書、及びauthority辞書を用いた特徴量を用いることにより、サポートの強さを高精度に推定することができる。   In addition, the text analysis apparatus 100 uses a feature amount such as shifted, absolutized, and negated, so that the direction of support when there is support (in this embodiment, whether the action is promotion or suppression). Can be estimated with high accuracy. Further, the text analysis apparatus 100 can estimate the strength of support with high accuracy by using the feature amount using the state dictionary and the authority dictionary.

本実施例のテキスト分析装置100は、二次特徴量生成ルール400を生成する。図7は、二次特徴量生成ルール400の生成処理の一例を示す。本実施例では、「o affect v」のように述語辞書名dの左側及び右側の少なくとも一方に1以上の対象tgtが記載されている形式で表される二次特徴量の生成ルールが生成される処理の例を説明する。ステップS701〜ステップS703の処理それぞれは、ステップS501〜ステップS503の処理それぞれと同様であるため、説明を省略する。   The text analysis apparatus 100 according to the present exemplary embodiment generates a secondary feature amount generation rule 400. FIG. 7 shows an example of the generation process of the secondary feature quantity generation rule 400. In the present embodiment, a rule for generating a secondary feature amount is generated, which is expressed in a format in which one or more target tgt is described in at least one of the left side and the right side of the predicate dictionary name d like “o affect v” An example of the processing will be described. Since the processes in steps S701 to S703 are the same as the processes in steps S501 to S503, description thereof will be omitted.

二次特徴量生成部113は、ステップS703で生成された1以上の一次特徴量から生成可能な1以上の二次特徴量を決定し、決定した二次特徴量の名称を二次特徴量名欄401に格納する(S704)。ステップS704における二次特徴量は、ユーザによって指定されてもよい。   The secondary feature quantity generation unit 113 determines one or more secondary feature quantities that can be generated from the one or more primary feature quantities generated in step S703, and names the determined secondary feature quantities as secondary feature quantity names. Stored in the column 401 (S704). The secondary feature amount in step S704 may be designated by the user.

また、二次特徴量生成部113は、例えば、特徴量選択等の既知のアルゴリズムを用いて、サポート性に影響を及ぼす一次特徴量の組合せを選択し、選択した組み合わせから生成可能な二次特徴量を、ステップS704における二次特徴量として決定してもよい。   Further, the secondary feature quantity generation unit 113 selects a primary feature quantity combination that affects the supportability by using a known algorithm such as feature quantity selection, and secondary features that can be generated from the selected combination. The amount may be determined as a secondary feature amount in step S704.

例えば、二次特徴量o affect vは、ステップS703において一次特徴量affect.a1-o.unifとaffect.a2-v.unifが抽出された場合に、生成可能である。前述の通り、affect.a1-o.unifは、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて当該単語の主語に議題語oが含まれることを示す一次特徴量であり、affect.a2-v.unifは、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて当該単語の述語に価値語vが含まれるか否かを示す一次特徴量である。   For example, the secondary feature quantity o affect v can be generated when the primary feature quantities effect.a1-o.unif and effect.a2-v.unif are extracted in step S703. As described above, effect.a1-o.unif is a primary feature amount indicating that the subject of the word in the text includes the agenda word o when the word included in the effect dictionary is included in the text. , Effect.a2-v.unif is a primary feature amount indicating whether or not the value word v is included in the predicate of the word in the text when the word included in the effect dictionary is included in the text.

従って、affect辞書に含まれる単語がテキスト内に含まれる場合において、当該テキストにおいて、当該単語の主語に議題語oが含まれ、かつ当該単語の述語に価値語vが含まれるか否かを示す二次特徴量であるo affect vは、affect.a1-o.unifとaffect.a2-v.unifとが存在する場合に算出される二次特徴量の1つである。   Therefore, when a word included in the effect dictionary is included in the text, it indicates whether the subject of the word includes the agenda word o and the word predicate includes the value word v in the text. The secondary feature amount o affect v is one of the secondary feature amounts calculated when the effect.a1-o.unif and the effect.a2-v.unif exist.

続いて、二次特徴量生成部113は、所定のルールに従って、決定した二次特徴量それぞれのスコアの計算方法と符号の計算方法を決定し、決定したスコアの計算方法をスコア計算方法欄403に格納し、決定した符号の計算方法を符号計算方法欄404に格納する(S705)。なお、二次特徴量生成部113は、ユーザによって指定されたスコア及び符号の計算方法を、ステップS705におけるスコア及び符号の計算方法としてもよい。   Subsequently, the secondary feature quantity generation unit 113 determines a score calculation method and a code calculation method for each determined secondary feature quantity according to a predetermined rule, and the determined score calculation method is stored in the score calculation method column 403. And the determined code calculation method is stored in the code calculation method column 404 (S705). Note that the secondary feature quantity generation unit 113 may use the score and code calculation method designated by the user as the score and code calculation method in step S705.

以下、所定のルールを用いたスコア及び符号の計算方法の決定処理の一例を説明する。まずスコアの計算方法の決定処理の一例を説明する。二次特徴量のtgtの少なくとも1つが議題語oである場合、二次特徴量生成部113は、例えば、スコアがd.ai-o.unifの値であると、決定する。なお、二次特徴量における述語辞書名の左側に議題語oが含まれる場合、スコアd.ai-o.unifにおけるaiはa1であり、二次特徴量における述語辞書名の右側に議題語oが含まれる場合、スコアd.ai-o.unifにおけるaiはa2である。   Hereinafter, an example of a process for determining a score and code calculation method using a predetermined rule will be described. First, an example of a score calculation method determination process will be described. When at least one of the secondary feature values tgt is the agenda word o, the secondary feature value generation unit 113 determines, for example, that the score is a value of d.ai-o.unif. When the agenda word o is included on the left side of the predicate dictionary name in the secondary feature quantity, ai in the score d.ai-o.unif is a1, and the agenda word o on the right side of the predicate dictionary name in the secondary feature quantity In the score d.ai-o.unif is a2.

なお、二次特徴量における述語辞書名の左側及び右側に議題語oが含まれる場合、二次特徴量生成部113は、例えば、スコアがd.a1-o.unifとd.a2-o.unifの積である、と決定してもよいし、スコアがd.a1-o.unifとd.a2-o.unifの和であると決定してもよいし、スコアがd.a1-o.unif又はd.a2-o.unifいずれか一方の値であると決定してもよい。また、二次特徴量に含まれる全てのtgtが議題語oでない場合、二次特徴量生成部113は、例えば、スコアが1.0であると、決定する。なお、二次特徴量のtgtの少なくとも1つが議題語の対義語inv(o)が含まれる場合のスコア決定方法も同様である。即ち上述のスコア計算方法の決定処理におけるoをinv(o)と読み替えればよい。   When the agenda word o is included on the left side and the right side of the predicate dictionary name in the secondary feature quantity, the secondary feature quantity generation unit 113 has scores of d.a1-o.unif and d.a2-o. It may be determined that it is a product of unif, the score may be determined to be the sum of d.a1-o.unif and d.a2-o.unif, and the score may be d.a1-o It may be determined that the value is either .unif or d.a2-o.unif. When all tgt included in the secondary feature amount are not the agenda word o, the secondary feature amount generation unit 113 determines that the score is 1.0, for example. The score determination method in the case where at least one of the secondary feature values tgt includes the acronym inv (o) is the same. That is, o in the determination process of the above-described score calculation method may be read as inv (o).

また、二次特徴量のtgtがoとinv(o)の双方を含む場合、二次特徴量生成部113は、当該二次特徴量のスコアを、例えば、oに対応するd.ai-o.unifとinv(o)に対応するd.ai-inv(o).unifとの積であると決定してもよいし、当該d.ai-o.unifと当該d.ai-inv(o).unifとのや和であると決定してもよいし、当該d.ai-o.unifと当該d.ai-inv(o).unifとのいずれか一方の値であると決定してもよい。   When the secondary feature quantity tgt includes both o and inv (o), the secondary feature quantity generation unit 113 sets the score of the secondary feature quantity to, for example, d.ai-o corresponding to o. It may be determined to be the product of d.ai-inv (o) .unif corresponding to .unif and inv (o), or the d.ai-o.unif and d.ai-inv (o ) .unif and may be determined to be one of the values of d.ai-o.unif and d.ai-inv (o) .unif Also good.

以下、符号の計算方法の決定処理の一例を説明する。符号は、例えば、複数の一次特徴量の積で定義される。当該複数の一次特徴量は述語辞書の述語についての一次特徴量を含む。例えば、二次特徴量生成部113は、d.signとd.negatedを当該述語についての一次特徴量に決定する。   Hereinafter, an example of a code calculation method determination process will be described. The code is defined by, for example, a product of a plurality of primary feature values. The plurality of primary feature quantities include primary feature quantities for predicates in the predicate dictionary. For example, the secondary feature quantity generation unit 113 determines d.sign and d.negated as primary feature quantities for the predicate.

また、二次特徴量のtgtの少なくとも1つが議題語oである場合、当該複数の一次特徴量は、oについての一次特徴量を含む。例えば、二次特徴量生成部113は、当該少なくとも1つのoそれぞれにおけるd.ai-o.shiftedを、oについての一次特徴量に決定する。なお、述語辞書名の左側に含まれるoに対するd.ai-o.shiftedのaiはa1であり、述語辞書名の右側に含まれるoに対するd.ai-o.shiftedのaiはa2である。   When at least one of the secondary feature quantities tgt is the agenda word o, the plurality of primary feature quantities include primary feature quantities for o. For example, the secondary feature quantity generation unit 113 determines d.ai-o.shifted in each of the at least one o as a primary feature quantity for o. The ai of d.ai-o.shifted for o included on the left side of the predicate dictionary name is a1, and the ai of d.ai-o.shifted for o included on the right side of the predicate dictionary name is a2.

また、二次特徴量のtgtの少なくとも1つが議題語の対義語inv(o)である場合、当該複数の一次特徴量は、inv(o)についての一次特徴量を含む。例えば、二次特徴量生成部113は、当該少なくとも1つのinv(o)それぞれにおけるd.ai-inv(o).shiftedを、inv(o)についての一次特徴量に決定する。なお、述語辞書名の左側に含まれるinv(o)に対するd.ai-inv(o).shiftedのaiはa1であり、述語辞書名の右側に含まれるinv(o)に対するd.ai-inv(o).shiftedのaiはa2である。   Further, when at least one of the secondary feature values tgt is the acronym inv (o), the plurality of primary feature values include primary feature values for inv (o). For example, the secondary feature quantity generation unit 113 determines d.ai-inv (o) .shifted in each of the at least one inv (o) as a primary feature quantity for inv (o). The ai of d.ai-inv (o) .shifted for inv (o) included on the left side of the predicate dictionary name is a1, and d.ai-inv for inv (o) included on the right side of the predicate dictionary name. (o) .shifted ai is a2.

また、二次特徴量のtgtの少なくとも1つが価値語vである場合、当該複数の一次特徴量は、vについての一次特徴量を含む。例えば、二次特徴量生成部113は、例えば、当該少なくとも1つのvそれぞれにおけるd.ai-v.shiftedと、cと、をvについての一次特徴量に決定する。なお、cは、affect.ai-v.absolutizedがnull値のとき1を、affect.ai-v.absolutizedがnull値でないときにaffect.ai-v.absolutized*val.signを、とる一次特徴量である。なお、述語辞書名の左側に含まれるvに対するd.ai-v.shiftedのaiはa1であり、述語辞書名の右側に含まれるvに対するd.ai-v.shiftedのaiはa2である。d.ai-v.absolutizedにおけるaiについても同様である。   When at least one of the secondary feature quantities tgt is the value word v, the plurality of primary feature quantities include primary feature quantities for v. For example, the secondary feature quantity generation unit 113 determines, for example, d.ai-v.shifted and c in each of the at least one v as primary feature quantities for v. C is a primary feature that takes 1 when effect.ai-v.absolutized is a null value and takes effect.ai-v.absolutized * val.sign when effect.ai-v.absolutized is not a null value. It is. Note that ai of d.ai-v.shifted for v included in the left side of the predicate dictionary name is a1, and ai of d.ai-v.shifted for v included in the right side of the predicate dictionary name is a2. The same applies to ai in d.ai-v.absolutized.

また、二次特徴量のtgtの少なくとも1つが価値語の対義語inv(v)である場合、当該複数の一次特徴量は、inv(v)についての一次特徴量を含む。例えば、二次特徴量生成部113は、例えば、当該少なくとも1つのinv(v)それぞれにおけるd.ai-inv(v).shiftedと、cと、をinv(v)についての一次特徴量に決定する。なお、cは、affect.ai-v.absolutizedがnull値のとき1を、affect.ai-v.absolutizedがnull値でないときにaffect.ai-v.absolutized*val.sign*-1を、とる一次特徴量である。なお、述語辞書名の左側に含まれるinv(v)に対するd.ai-inv(v).shiftedのaiはa1であり、述語辞書名の右側に含まれるinv(v)に対するd.ai-inv(v).shiftedのaiはa2である。d.ai-inv(v).absolutizedにおけるaiについても同様である。   When at least one of the secondary feature quantities tgt is the synonym inv (v) of the value word, the plurality of primary feature quantities include primary feature quantities for inv (v). For example, the secondary feature value generation unit 113 determines, for example, d.ai-inv (v) .shifted and c in each of the at least one inv (v) as primary feature values for inv (v). To do. C takes 1 when effect.ai-v.absolutized is a null value, and takes effect.ai-v.absolutized * val.sign * -1 when effect.ai-v.absolutized is not a null value. A primary feature. The ai of d.ai-inv (v) .shifted for inv (v) included on the left side of the predicate dictionary name is a1, and d.ai-inv for inv (v) included on the right side of the predicate dictionary name. (v) .shifted ai is a2. The same applies to ai in d.ai-inv (v) .absolutized.

以下、二次特徴量o affect vを例にとった、スコア及び符号の計算方法の決定処理を説明する。o affect vは、述語辞書名の左側に議題語oを1つ含むため、二次特徴量生成部113は、o affect vのスコアはaffect.a1-o.unifの値であると、決定する。   Hereinafter, the determination process of the calculation method of a score and a code will be described taking the secondary feature quantity o affect v as an example. Since o affect v includes one agenda word o on the left side of the predicate dictionary name, the secondary feature generation unit 113 determines that the score of o affect v is the value of effect.a1-o.unif. .

二次特徴量生成部113は、述語辞書についての一次特徴量affect.signとaffect.negatedとを選択する。また、o affect vは、述語辞書名の左側に議題語oを1つ含むため、二次特徴量生成部113は、oに対する一次特徴量として、affect.a1-o.shiftedを選択する。また、o affect vは、述語辞書名の右側に価値語vを1つ含むため、二次特徴量生成部113は、vに対する一次特徴量として、affect.a2-v.shiftedと、cと、を選択する。二次特徴量生成部113は、o affect vを選択した一次特徴量の積、即ち、affect.a1-o.shifted*affect.negated*affect.sign*affect.a2-v.shifted*cに決定する。   The secondary feature quantity generator 113 selects a primary feature quantity effect.sign and effect.negated for the predicate dictionary. Moreover, since o affect v includes one agenda word o on the left side of the predicate dictionary name, the secondary feature quantity generation unit 113 selects effect.a1-o.shifted as the primary feature quantity for o. Moreover, since o affect v includes one value word v on the right side of the predicate dictionary name, the secondary feature quantity generation unit 113 has effect.a2-v.shifted, c, Select. The secondary feature value generation unit 113 determines the product of the primary feature values for which o affect v is selected, that is, effect.a1-o.shifted * affect.negated * affect.sign * affect.a2-v.shifted * c To do.

フローチャートの説明に戻る。二次特徴量生成部113は、全ての二次特徴量のスコア及び符号の計算方法を決定した後に、各二次特徴量に対する排他二次特徴量を決定し、決定した排他二次特徴量の名称を排他二次特徴量名欄402に格納する(S706)。   Return to the description of the flowchart. After determining the secondary feature quantity score and code calculation method, the secondary feature quantity generation unit 113 determines an exclusive secondary feature quantity for each secondary feature quantity, and determines the determined exclusive secondary feature quantity. The name is stored in the exclusive secondary feature name column 402 (S706).

二次特徴量生成部113は、例えば、第1二次特徴量と第2二次特徴量が以下の3条件全てを満たした場合に、第2二次特徴量を第1二次特徴量の排他二次特徴量に決定する。第1条件は、第1二次特徴量の述語辞書名と第2二次特徴量の述語辞書名が一致することである。   For example, when the first secondary feature quantity and the second secondary feature quantity satisfy all the following three conditions, the secondary feature quantity generation unit 113 converts the second secondary feature quantity to the first secondary feature quantity. The exclusive secondary feature value is determined. The first condition is that the predicate dictionary name of the first secondary feature quantity matches the predicate dictionary name of the second secondary feature quantity.

第2条件は、第1二次特徴量の述語辞書名の左側に含まれる各tgtについて、当該tgt又は当該tgtの対義語inv(tgt)が、第2二次特徴量の述語辞書名の左側に含まれることである。なお、inv(inv(tgt))=tgtである。第3条件は、第1二次特徴量の述語辞書名の右側に含まれる各tgtについて、当該tgt又は当該tgtの対義語inv(tgt)が、第2二次特徴量の述語辞書名の右側に含まれることである。従って、二次特徴量生成部113は、例えば、同じ述語辞書名を含む二次特徴量同士を全て比較して、各二次特徴量の排他二次特徴量を決定する。   The second condition is that, for each tgt included on the left side of the predicate dictionary name of the first secondary feature quantity, the tgt or the synonym inv (tgt) of the tgt is on the left side of the predicate dictionary name of the second secondary feature quantity. It is included. Note that inv (inv (tgt)) = tgt. The third condition is that, for each tgt included on the right side of the predicate dictionary name of the first secondary feature quantity, the tgt or the synonym inv (tgt) of the tgt is on the right side of the predicate dictionary name of the second secondary feature quantity. It is included. Therefore, for example, the secondary feature quantity generation unit 113 compares all secondary feature quantities including the same predicate dictionary name and determines an exclusive secondary feature quantity of each secondary feature quantity.

二次特徴量生成ルール400が、二次特徴量o affect vとo v affect vを含む場合、二次特徴量生成部113は、例えば、上述の条件に従ってo v affect vをo affect vの排他特徴量に決定する。同様に、二次特徴量生成ルール400が、二次特徴量o affect vとo v affect inv(v)を含む場合、二次特徴量生成部113は、例えば、上述の条件に従ってo v affect inv(v)をo affect vの排他特徴量に決定する。   When the secondary feature quantity generation rule 400 includes the secondary feature quantity o affect v and ov affect v, the secondary feature quantity generation unit 113, for example, replaces ov affect v with o affect v according to the above-described conditions. To decide. Similarly, when the secondary feature quantity generation rule 400 includes the secondary feature quantity o affect v and ov affect inv (v), the secondary feature quantity generation unit 113, for example, according to the above-described condition, ov affect inv (v ) Is determined as the exclusive feature of o affect v.

なお、二次特徴量o v affect vは、二次特徴量o affect vが示す特徴を示し、かつo affect vより多くの情報を反映した特徴量である。従って、二次特徴量o v affect vは、二次特徴量o affect vより、精度の高い符号を算出できる。   Note that the secondary feature quantity o v affect v is a feature quantity indicating the feature indicated by the secondary feature quantity o affect v and reflecting more information than o affect v. Therefore, the secondary feature quantity o v affect v can calculate a more accurate code than the secondary feature quantity o affect v.

従って、二次特徴量生成部113が上述のように排他二次特徴量を定めることにより、o v affect vが存在する(ゼロでない)場合には、o v affect vの値がサポート性算出に用いられるため、サポート性評価の精度が向上する。また、o v affect vが存在しない(ゼロである)場合であっても、テキスト分析装置100はo affect vの値を用いてサポート性を評価することができる。   Therefore, when the secondary feature value generation unit 113 determines the exclusive secondary feature value as described above, if ov affect v exists (is not zero), the value of ov affect v is used for the supportability calculation. Therefore, the accuracy of the supportability evaluation is improved. Even if o v affect v does not exist (is zero), the text analysis apparatus 100 can evaluate support using the value of o affect v.

本実施例のテキスト分析装置100は、上述のように二次特徴量生成ルール400を生成することにより、高精度にサポート性推定が可能な二次特徴量を決定することができる。   The text analysis apparatus 100 according to the present embodiment can determine the secondary feature quantity capable of estimating the supportability with high accuracy by generating the secondary feature quantity generation rule 400 as described above.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。   In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Further, a part of the configuration of a certain embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of a certain embodiment. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。   Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。   Further, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

Claims (12)

第1表現が第2表現に作用を与えていることを、第1テキストがサポートする度合である関連度を算出する、テキスト分析装置であって、
プロセッサと記憶装置とを含み、
前記記憶装置は、表現間における作用を意味する表現からなる第1辞書を保持し、
前記プロセッサは、
前記第1テキストと前記第1表現と前記第2表現の入力を受け付け、
前記第1辞書に含まれる第3表現が前記第1テキストに含まれる場合における、前記第1表現及び前記第2表現それぞれと、前記第1テキストにおいて前記第3表現と係り受け関係にある表現と、の意味の一致度を示す第1特徴量を算出し、
前記第1特徴量の大きさに基づいて、前記関連度を算出する、テキスト分析装置。
A text analysis device that calculates a degree of association that is the degree to which the first text supports that the first expression acts on the second expression,
Including a processor and a storage device;
The storage device holds a first dictionary consisting of expressions meaning actions between expressions;
The processor is
Accepting input of the first text, the first representation and the second representation;
Each of the first expression and the second expression when the third expression included in the first dictionary is included in the first text, and an expression having a dependency relationship with the third expression in the first text; Calculating a first feature amount indicating a degree of coincidence of the meanings of
A text analysis device that calculates the degree of association based on a size of the first feature amount.
請求項1に記載のテキスト分析装置であって、
前記第1辞書は、前記第1辞書に含まれる各表現が意味する作用が、第1作用であるか第2作用であるかを示し、
前記第1作用と前記第2作用は互いに相反する作用であり、
前記記憶装置は、
前記第1作用を前記第2作用に反転させ、かつ前記第2作用を前記第1作用に反転させる意味を持つ表現、からなる第2辞書と、
係り先の表現が示す価値極性を固定する表現からなる第3辞書と、を保持し、
前記プロセッサは、
前記第2表現の価値極性の入力を受け付け、
前記第3表現が前記第1テキストに含まれる場合における、前記第1表現又は前記第2表現に係る前記第2辞書に含まれる表現が、前記第1テキストにおいて前記第3表現と係り受け関係にある表現に含まれるか否かを示す第2特徴量と、
前記第3表現が前記第1テキストに含まれる場合における、前記第1表現又は前記第2表現に係る前記第3辞書に含まれる表現が、前記第1テキストにおいて前記第3表現と係り受け関係にある表現に含まれるか否かを示す第3特徴量と、を算出し、
前記関連度が所定の閾値以上であると判定した場合、前記第2特徴量と、前記第3特徴量と、前記第2表現の価値極性と、前記第3表現が意味する作用が前記第1作用であるか前記第2作用であるか否かと、に基づいて、前記第1表現が前記第2表現に与える作用が前記第1作用であるか前記第2作用であるかを示す方向性を算出する、テキスト分析装置。
The text analysis apparatus according to claim 1,
The first dictionary indicates whether the action meant by each expression included in the first dictionary is a first action or a second action,
The first action and the second action are opposite to each other,
The storage device
A second dictionary comprising an expression having a meaning to reverse the first action to the second action and to reverse the second action to the first action;
A third dictionary consisting of expressions that fix the value polarity indicated by the relation expression,
The processor is
Accepting an input of the value polarity of the second representation;
In the case where the third expression is included in the first text, the expression included in the second dictionary related to the first expression or the second expression has a dependency relationship with the third expression in the first text. A second feature amount indicating whether or not it is included in a certain expression;
In the case where the third expression is included in the first text, the expression included in the third dictionary related to the first expression or the second expression has a dependency relationship with the third expression in the first text. A third feature amount indicating whether or not it is included in a certain expression,
When it is determined that the relevance is greater than or equal to a predetermined threshold, the second feature value, the third feature value, the value polarity of the second expression, and the action that the third expression means are the first Based on whether it is an action or the second action, the direction indicating whether the action given to the second expression by the first expression is the first action or the second action A text analyzer that calculates.
請求項2に記載のテキスト分析装置であって、
前記プロセッサは、
前記関連度が前記所定の閾値以上であると判定した場合、前記第1特徴量、前記第2特徴量、及び前記第3特徴量を含む特徴量群の1以上の特徴量を含む複数の特徴量の積に基づいて、前記方向性を算出する、テキスト分析装置。
The text analysis apparatus according to claim 2,
The processor is
A plurality of features including one or more feature amounts of a feature amount group including the first feature amount, the second feature amount, and the third feature amount, when it is determined that the relevance is equal to or greater than the predetermined threshold; A text analysis device that calculates the directionality based on a product of quantities.
請求項3に記載のテキスト分析装置であって、
前記プロセッサは、
前記第3表現が前記第1テキストに含まれる場合における、前記第1テキストにおける前記第3表現の係り受け関係にある表現が、前記第1表現及び前記第2表現の少なくとも1つを含むか否かを示す、二次特徴量を指定し、
前記二次特徴量における前記第1表現及び前記第2表現の少なくとも1つが、前記第1表現を含む場合、前記第1表現における前記第2特徴量を前記複数の特徴量に含め、
前記二次特徴量における前記第1表現及び前記第2表現の少なくとも1つが、前記第2表現を含む場合、前記第2表現における前記第2特徴量及び前記第3特徴量、並びに前記第2表現の価値極性を前記複数の特徴量に含める、テキスト分析装置。
The text analysis device according to claim 3,
The processor is
Whether the expression in the dependency relationship of the third expression in the first text includes at least one of the first expression and the second expression when the third expression is included in the first text. Specify a secondary feature value that indicates
When at least one of the first representation and the second representation in the secondary feature amount includes the first representation, the second feature amount in the first representation is included in the plurality of feature amounts,
When at least one of the first representation and the second representation in the secondary feature amount includes the second representation, the second feature amount and the third feature amount in the second representation, and the second representation A text analysis apparatus that includes the value polarity of the plurality of feature quantities in the plurality of feature amounts.
請求項4に記載のテキスト分析装置であって、
前記プロセッサは、第1二次特徴量と第2二次特徴量を指定し、
前記第1二次特徴量は、前記第3表現が前記第1テキストに含まれる場合における、前記第1テキストにおける前記第3表現の主語が前記第1表現及び前記第2表現の少なくとも1つからなる第1表現群を含むか否か、及び前記第1テキストにおける前記第3表現の述語が前記第1表現及び前記第2表現の少なくとも1つからなる第2表現群を含むか否か、の少なくとも一方を示し、
前記第1二次特徴量は、前記第3表現が前記第1テキストに含まれる場合における、前記第1テキストにおける前記第3表現の主語が前記第1表現及び前記第2表現の少なくとも1つからなる第3表現群を含むか否か、及び前記第1テキストにおける前記第3表現の述語が前記第1表現及び前記第2表現の少なくとも1つからなる第4表現群を含むか否か、の少なくとも一方を示し、
前記第3表現群は前記第1表現群を含み、
前記第4表現群が前記第2表現群を含み、
前記プロセッサは、前記第2二次特徴量の値が存在しない場合にのみ、前記第1二次特徴量に対応する前記複数の二次特徴量の積に基づいて、前記方向性を算出する、テキスト分析装置。
The text analysis device according to claim 4,
The processor specifies a first secondary feature quantity and a second secondary feature quantity,
The first secondary feature amount is obtained when at least one of the first expression and the second expression is a subject of the third expression in the first text when the third expression is included in the first text. And whether or not the predicate of the third expression in the first text includes a second expression group consisting of at least one of the first expression and the second expression. At least one
The first secondary feature amount is obtained when at least one of the first expression and the second expression is a subject of the third expression in the first text when the third expression is included in the first text. And whether or not the predicate of the third expression in the first text includes a fourth expression group consisting of at least one of the first expression and the second expression. At least one
The third expression group includes the first expression group,
The fourth expression group includes the second expression group;
The processor calculates the directionality based on the product of the plurality of secondary feature amounts corresponding to the first secondary feature amount only when the value of the second secondary feature amount does not exist. Text analysis device.
請求項3に記載のテキスト分析装置であって、
前記記憶装置は、否定表現からなる第4辞書をさらに保持し、
前記複数の特徴量は、前記第3表現が前記第1テキストに含まれる場合における、前記第1テキストにおいて前記第3表現に前記第4辞書に含まれる表現が係っているか否かを示す第4特徴量、を含む、テキスト分析装置。
The text analysis device according to claim 3,
The storage device further holds a fourth dictionary consisting of negative expressions,
The plurality of feature amounts indicate whether or not the third text in the first text is related to an expression included in the fourth dictionary when the third text is included in the first text. A text analysis device including four feature quantities.
請求項6に記載のテキスト分析装置であって、
前記記憶装置は、発言又は発表を示す述語表現と、当該述語表現それぞれが肯定的な意味であるか否定的な意味であるかを示す符号と、からなる第5辞書をさらに保持し、
前記プロセッサは、
前記第5辞書に含まれる第4表現が前記1テキストに含まれる場合において、前記第4表現の符号と、前記第1テキストにおいて前記第4表現に前記第4辞書に含まれる表現が係っているか否かを示す第5特徴量と、に基づいて、前記方向性を算出する、テキスト分析装置。
The text analysis device according to claim 6,
The storage device further holds a fifth dictionary comprising a predicate expression indicating a statement or an announcement and a code indicating whether each of the predicate expressions has a positive meaning or a negative meaning,
The processor is
When the fourth expression included in the fifth dictionary is included in the one text, the sign of the fourth expression and the expression included in the fourth dictionary are related to the fourth expression in the first text. A text analysis device that calculates the directionality based on a fifth feature amount indicating whether or not there is.
請求項2に記載のテキスト分析装置であって、
前記第1作用は促進作用であり、前記第2作用は抑制作用である、テキスト分析装置。
The text analysis apparatus according to claim 2,
The text analysis device, wherein the first action is a promoting action and the second action is a suppressing action.
請求項2に記載のテキスト分析装置であって、
表示装置に接続され、
前記プロセッサは、
前記関連度を前記表示装置に出力し、
前記関連度が所定の閾値以上であると判定した場合、前記方向性を前記表示装置に出力する、テキスト分析装置。
The text analysis apparatus according to claim 2,
Connected to the display device,
The processor is
Outputting the relevance to the display device;
A text analysis device that outputs the directionality to the display device when it is determined that the relevance is greater than or equal to a predetermined threshold.
請求項1に記載のテキスト分析装置であって、
前記記憶装置は、発言又は発表が行われたことを示す表現からなる第4辞書と、発言又は発表を行う名詞は名詞句それぞれの発表又は発言の信頼度を格納する第5辞書と、をさらに保持し、
前記プロセッサは、
前記第4辞書に含まれる第4表現が前記第1テキストに含まれる場合における、前記第1テキストにおいて前記第4表現と係り受け関係にある名詞又は名詞句の前記第5辞書における信頼度を示す第6特徴量を算出し、
前記第6特徴量に基づいて、前記関連度を算出する、テキスト分析装置。
The text analysis apparatus according to claim 1,
The storage device further includes a fourth dictionary having an expression indicating that an utterance or an announcement has been made, and a noun that makes an utterance or an announcement, and a fifth dictionary for storing an announcement or an utterance reliability of each noun phrase Hold and
The processor is
When the fourth expression included in the fourth dictionary is included in the first text, the reliability of the noun or the noun phrase in the first text in the dependency relationship with the fourth expression in the fifth text is indicated. Calculate the sixth feature,
A text analysis device that calculates the relevance based on the sixth feature amount.
請求項1に記載のテキスト分析装置であって、
前記第3表現と係り受け関係にある表現は、前記第3表現の主語又は述語である、テキスト分析装置。
The text analysis apparatus according to claim 1,
The text analysis device, wherein the expression having a dependency relationship with the third expression is a subject or predicate of the third expression.
第1表現が第2表現に作用を与えていることを、第1テキストがサポートする度合である関連度を、テキスト分析装置が算出するテキスト分析方法であって、
前記テキスト分析装置は、表現間における作用を意味する表現からなる第1辞書を保持し、
前記テキスト分析方法は、
前記テキスト分析装置が、
前記第1テキストと前記第1表現と前記第2表現の入力を受け付け、
前記第1辞書に含まれる第3表現が前記第1テキストに含まれる場合における、前記第1表現及び前記第2表現それぞれと、前記第1テキストにおいて前記第3表現と係り受け関係にある表現と、の意味の一致度を示す第1特徴量を算出し、
前記第1特徴量の大きさに基づいて、前記関連度を算出する、方法。
A text analysis method in which a text analysis device calculates a degree of relevance, which is the degree to which the first text supports that the first expression acts on the second expression,
The text analysis device maintains a first dictionary consisting of expressions meaning actions between expressions,
The text analysis method includes:
The text analyzer is
Accepting input of the first text, the first representation and the second representation;
Each of the first expression and the second expression when the third expression included in the first dictionary is included in the first text, and an expression having a dependency relationship with the third expression in the first text; Calculating a first feature amount indicating a degree of coincidence of the meanings of
A method of calculating the degree of association based on a size of the first feature amount.
JP2018503959A 2016-03-11 2016-03-11 Text analysis apparatus and text analysis method Active JP6615310B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/057730 WO2017154192A1 (en) 2016-03-11 2016-03-11 Text analysis device and text analysis method

Publications (2)

Publication Number Publication Date
JPWO2017154192A1 true JPWO2017154192A1 (en) 2018-12-06
JP6615310B2 JP6615310B2 (en) 2019-12-04

Family

ID=59790189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018503959A Active JP6615310B2 (en) 2016-03-11 2016-03-11 Text analysis apparatus and text analysis method

Country Status (2)

Country Link
JP (1) JP6615310B2 (en)
WO (1) WO2017154192A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118526A (en) * 2009-12-01 2011-06-16 Hitachi Ltd Device for extraction of word semantic relation
WO2013084320A1 (en) * 2011-12-07 2013-06-13 株式会社日立製作所 Impact level display device, method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118526A (en) * 2009-12-01 2011-06-16 Hitachi Ltd Device for extraction of word semantic relation
WO2013084320A1 (en) * 2011-12-07 2013-06-13 株式会社日立製作所 Impact level display device, method and program

Also Published As

Publication number Publication date
WO2017154192A1 (en) 2017-09-14
JP6615310B2 (en) 2019-12-04

Similar Documents

Publication Publication Date Title
JP4701292B2 (en) Computer system, method and computer program for creating term dictionary from specific expressions or technical terms contained in text data
RU2579699C2 (en) Resolution of semantic ambiguity using language-independent semantic structure
JP5710581B2 (en) Question answering apparatus, method, and program
US11941361B2 (en) Automatically identifying multi-word expressions
US20160275074A1 (en) Anaphora resolution based on linguistic technologies
RU2579873C2 (en) Resolution of semantic ambiguity using semantic classifier
JP6622236B2 (en) Idea support device and idea support method
JP4534666B2 (en) Text sentence search device and text sentence search program
Aliwy Arabic morphosyntactic raw text part of speech tagging system
Glass et al. A naive salience-based method for speaker identification in fiction books
JP4361299B2 (en) Evaluation expression extraction apparatus, program, and storage medium
Pirinen et al. Improving finite-state spell-checker suggestions with part of speech n-grams
JP6615310B2 (en) Text analysis apparatus and text analysis method
JP6623840B2 (en) Synonym detection device, synonym detection method, and computer program for synonym detection
JPWO2009113289A1 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
Pan et al. Performance evaluation of part-of-speech tagging for Bengali text
CN113330430B (en) Sentence structure vectorization device, sentence structure vectorization method, and recording medium containing sentence structure vectorization program
Mykowiecka et al. Domain–driven automatic spelling correction for mammography reports
JP5739352B2 (en) Dictionary generation apparatus, document label determination system, and computer program
Shaaban Automatic Diacritics Restoration for Arabic Text
Ferrod et al. A support for understanding medical notes: correcting spelling errors in Italian clinical records
Fashwan et al. A rule based method for adding case ending diacritics for modern standard Arabic texts
JP7312841B2 (en) Law analysis device and law analysis method
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP5417858B2 (en) Information processing apparatus and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6615310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150