WO2017163346A1 - 文章解析システム及びプログラム - Google Patents

文章解析システム及びプログラム Download PDF

Info

Publication number
WO2017163346A1
WO2017163346A1 PCT/JP2016/059241 JP2016059241W WO2017163346A1 WO 2017163346 A1 WO2017163346 A1 WO 2017163346A1 JP 2016059241 W JP2016059241 W JP 2016059241W WO 2017163346 A1 WO2017163346 A1 WO 2017163346A1
Authority
WO
WIPO (PCT)
Prior art keywords
tag
type
attribute
clause
sensitivity
Prior art date
Application number
PCT/JP2016/059241
Other languages
English (en)
French (fr)
Inventor
大島 修
績央 渡邊
Original Assignee
株式会社野村総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社野村総合研究所 filed Critical 株式会社野村総合研究所
Priority to JP2018506686A priority Critical patent/JP6675474B2/ja
Priority to CN201680084010.5A priority patent/CN108885617B/zh
Priority to PCT/JP2016/059241 priority patent/WO2017163346A1/ja
Publication of WO2017163346A1 publication Critical patent/WO2017163346A1/ja
Priority to US16/138,387 priority patent/US10839155B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Definitions

  • the present invention relates to a sentence analysis system and program, and in particular, subjective evaluation and opinions of end users regarding specific products and services from electronic document data such as comment data on an electronic bulletin board and questionnaire response data. It is related with the technology which collects automatically.
  • the end user's subjective evaluation (impressions) and intention to speak for specific products and services are extremely important guidelines for improving current products and developing next-generation products.
  • Each company analyzes the questionnaire results collected from end users from various viewpoints, or accesses an electronic bulletin board on the Internet to check the evaluation of its products.
  • Patent Document 1 After performing morphological processing and syntax analysis processing on a sentence including emotional expressions for a predetermined object, refer to the effect term dictionary in which a large number of emotional expressions are registered, There is disclosed a technique for extracting emotional expressions from sentences, totaling attributes (negative / positive, etc.) of each emotional expression, and outputting the results to the outside.
  • the evaluation target “lipstick” it is possible to present the distribution of negative evaluations and positive evaluations for each of a plurality of evaluation axes such as color, odor, comfort, and package.
  • Patent Document 2 for some rules that can be determined from the morpheme sequence without referring to the syntax tree, the rules are applied at the stage of morpheme analysis and semantic attributes are applied. Is added, and only the remaining rules are applied to the syntax tree after the syntax analysis, which indicates that the determination time required for applying the rules can be saved.
  • the present invention has been devised in order to solve such a conventional problem, and an object of the present invention is to provide a technique capable of efficiently extracting semantic contents from sentences described in a natural language. .
  • the sentence analysis system refers to a means for decomposing an inputted sentence into morpheme units and an attribute dictionary that defines a correspondence between a specific morpheme and an attribute type.
  • a pre-tag setting unit that sets a pre-tag for the corresponding morpheme, a parse unit that aggregates each morpheme in a phrase unit, specifies a dependency relationship between each phrase, and a phrase including a pre-tag Index generating means for generating an index in which a combination of information and the type of the pre-tag is recorded, an application condition for specifying at least a clause including a specific type of pre-tag, an attribute tag setting clause, and an attribute tag to be set
  • the determination rule storage means storing a plurality of determination rules composed of combinations with application effects that specify the type of the data, the index, and the determination rule storage means. And, apply conditions when there is determination rule matches the text is characterized by comprising determination means for setting the application effect types of attribute tags specified in the specified clause in
  • the sentence analysis system is the system according to claim 1, wherein at least one of the attribute dictionaries is a semantic attribute dictionary that defines a correspondence relationship between a specific morpheme and a kind of semantic attribute.
  • the pre-tag setting means sets a semantic candidate tag as a pre-tag to the corresponding morpheme
  • the index generation means sets the phrase specifying information including the semantic candidate tag and the type of the semantic candidate tag in the index.
  • an application condition for specifying at least a phrase including a specific type of semantic candidate tag, a phrase of a semantic attribute tag setting destination, and a type of a semantic attribute tag to be set are specified.
  • a determination rule consisting of a combination with an application effect is stored, and the determination means refers to the index and the determination rule storage means. , If the determination rule application condition matches to the sentence is present is characterized in that setting the semantic attribute tag of the type specified in clause specified in its application effect.
  • the sentence analysis system is the system according to claim 2, and further, at least one of the attribute dictionaries is a sensitivity theme dictionary that defines a correspondence relationship between a specific morpheme and a sensitivity theme type,
  • the pre-tag setting means sets a sensitivity subject tag as a pre-tag to the corresponding morpheme, and the index generation means sets the clause specific information including the sensitivity theme tag and the type of the sensitivity theme tag in the index.
  • the determination rule storage means a clause including a specific type of emotional subject tag, an application condition for specifying the type of semantic attribute tag included in the clause or another clause, and a sensitivity attribute tag setting
  • a determination rule consisting of a combination with the previous clause and an application effect that specifies the type of sensitivity attribute tag to be set is stored, and the determination means includes Refer to the index and the determination rule storage means, and if there is a determination rule whose application condition matches the sentence, set the type of Kansei attribute tag specified in the clause specified by the application effect. It is a feature.
  • the sentence analysis system is the system according to claim 1, wherein the attribute dictionary further includes a sensitivity theme dictionary that defines a correspondence relationship between a specific morpheme and a type of the sensitivity theme, a specific morpheme, At least a large / small expression dictionary that defines the correspondence with the type of large / small expression is provided, and the prior tag setting means sets a sensitivity theme tag and a large / small expression tag as a preliminary tag in the corresponding morpheme, and the index includes The index generation means records the combination of the phrase specific information including the sensitivity theme tag and the type of the sensitivity theme tag, and the combination of the phrase specific information including the large and small expression tag and the type of the large and small expression, In the judgment rule storage means, a clause including a specific type of Kansei theme tag and a type of a large / small expression tag included in the clause or another clause are designated.
  • a determination rule comprising a combination of an application condition, a clause of a sensitivity attribute tag setting destination and an application effect that specifies the type of a sensitivity attribute tag to be set is stored, and the determination means includes the index and the determination rule storage means If there is a determination rule whose application condition matches the sentence, the type of emotion attribute tag specified in the clause specified by the application effect is set.
  • the sentence analysis system is the system according to claim 1 or 4, and further, as the attribute dictionary, a sensitivity theme dictionary that defines a correspondence relationship between a specific morpheme and a kind of sensitivity theme, At least an emotional expression dictionary that defines the correspondence between morphemes and types of emotional expressions is provided, and the prior tag setting means sets the emotional subject tag and the emotional expression tag as the prior tags to the corresponding morpheme, and the index Includes the combination of the phrase specific information including the sensitivity theme tag and the type of the sensitivity theme tag, and the combination of the phrase specific information including the sensitivity expression tag and the type of the sensitivity expression tag.
  • Recorded in the determination rule storage means is a phrase including a specific type of emotional subject tag, and a sensitivity expression tag included in the clause or other clauses.
  • a determination rule comprising a combination of an application condition for specifying a class, a clause of a sensitivity attribute tag setting destination and an application effect for specifying a type of a sensitivity attribute tag to be set, and the determination means includes the index and the The determination rule storage means is referred to, and when there is a determination rule whose application condition matches the sentence, the type of Kansei attribute tag specified in the clause specified by the application effect is set. .
  • the sentence analysis program refers to a means for decomposing an inputted sentence into morpheme units, an attribute dictionary that defines a correspondence between a specific morpheme and an attribute type, and Pre-tag setting means for setting pre-tags in each of them, and aggregating each morpheme in phrase units, parsing means for specifying the dependency relationship between each clause, phrase specifying information including pre-tags and types of the pre-tags Index generating means for generating an index in which a combination of the above is recorded, an application condition for specifying at least a clause including a specific type of pre-tag, and an application effect for specifying the type of attribute tag setting clause and the attribute tag to be set
  • the determination rule storage means, the index, and the determination rule storage means that store a plurality of determination rules consisting of combinations. If the determination rule that matches the text exists is characterized in that to function as judging means for setting the type of attribute tags specified in the specified clause in its application effect.
  • a predetermined rule is applied to a dependency relation (syntax tree) between each phrase.
  • the application itself is not different from the prior art, but at this time, by referring to the index generated in advance based on the attribute dictionary, the existence and type of clauses to which the rule should be applied can be immediately identified, so the sentences are compared. Even in the case of a long sentence or when the syntax structure is complicated, it is possible to determine whether or not a rule can be applied very quickly.
  • FIG. 1 is a block diagram showing a functional configuration of a sentence analysis system 10 according to the present invention.
  • a morphological analysis unit 12 a syntax analysis unit 13, a compound noun merging unit 14, a semantic attribute extraction unit 15, and a sensitivity analysis.
  • Unit 16 setting file 17, system dictionary storage unit 18, sensitivity subject dictionary storage unit 19, user dictionary storage unit 20, analysis model storage unit 21, semantic attribute rule storage unit 22, sensitivity analysis rule storage Part 23.
  • the morphological analysis unit 12, the syntax analysis unit 13, the compound noun merging unit 14, the semantic attribute extraction unit 15 and the sensitivity analysis unit 16 are realized by the computer CPU executing necessary processes according to the OS and application programs.
  • the setting file 17, the system dictionary storage unit 18, the sensitivity subject dictionary storage unit 19, the user dictionary storage unit 20, the analysis model storage unit 21, the semantic attribute rule storage unit 22, and the sensitivity analysis rule storage unit 23 are the same computer. Is provided in the storage device.
  • a general-purpose semantic attribute dictionary 25 refers to a specific expression pattern and types of semantic attributes (types of denial / affirmation / question / request / unexpected / dissatisfaction representing the intention of a statement). It defines the correspondence.
  • the “large / small expression dictionary” defines the correspondence between the expression pattern indicating the size of an object and the type (large / small classification) of the large / small expression, as shown in FIG.
  • the “Kansei expression dictionary” as shown in FIG. 3 (b), defines a correspondence relationship between an expression pattern indicating evaluation of an object and the type of emotion expression (positive / negative type).
  • the sensitivity theme dictionary storage unit 19 stores a number of sensitivity theme dictionaries in which a sensitivity theme (evaluation axis / viewpoint) and related words are defined for each product and service field.
  • FIG. 4 shows an example of registration of a sensitivity theme dictionary related to a lodging service field such as a hotel or an inn.
  • the evaluation axis of “price” is “price”, “price”, “ Synonyms and related terms such as “accommodation fee” and “accommodation fee” are stored as similar expressions. These similar expressions are compiled for each industry while referring to a general synonym dictionary or the like and considering the characteristics of each industry.
  • the system dictionary storage unit 18 and the sensitivity theme dictionary storage unit 19 described above are general-purpose devices prepared in advance on the system side, whereas the user dictionary storage unit 20 includes various dictionaries (uniquely prepared by the user side). , Meaning attribute dictionary, large / small expression dictionary, sensitivity expression dictionary, sensitivity theme dictionary). The user specifies in advance in the setting file 17 which dictionary should be applied when using the system 10.
  • the analysis model storage unit 21 stores a statistical model for parsing generated by performing statistical analysis on a large amount of text (learning corpus).
  • the text file 24 includes, for example, a list of questionnaire responses collected from a large number of end users.
  • the morphological analyzer 12 converts this into “effect”, “ga”, “no”, “ ”,“ I think ”, etc., and morpheme units to identify each part of speech and reading.
  • the morpheme analysis unit 12 has a function as a pre-tag setting unit, refers to a sensitivity theme dictionary related to a field specified in the setting file 17, and is defined in advance as a term representing a sensitivity theme in each morpheme. If a tag is included, a sensibility theme tag as a prior tag is associated with the morpheme. In FIG. 5, the “effect” sensitivity theme tag is assigned to the “effect” morpheme.
  • the morpheme analysis unit 12 refers to the semantic attribute dictionary 25 in the system dictionary storage unit 18 to associate a semantic candidate tag as a pre-tag indicating the type of the semantic attribute with a specific morpheme.
  • Semantic attributes are the types of morphemes that indicate the intention, evaluation, and value judgment of the person who created the sentence, as described above. Types such as “Negative”, “Question”, “Request”, “Unexpected”, etc. Is associated with the corresponding morpheme. However, since the parsing is not completed at this point, it is merely a temporary “meaning candidate” and is not definitive. In FIG. 5, a “no” meaning candidate tag is assigned to a “none” morpheme.
  • the morpheme analysis unit 12 refers to the large / small expression dictionary 26 and the emotional expression dictionary 27 in the system dictionary storage unit 18, and if the corresponding morpheme is included, “large / small”
  • the large / small expression tag as a pre-tag corresponding to “type”
  • the sensitivity expression tag as a pre-tag corresponding to the “positive / negative” type. Note that the large and small expressions and the emotional expressions are determined at this point, not “large and small candidates” or “sensitivity candidates”, because the contents are obvious from the expressions themselves without waiting for syntax analysis.
  • the morphological analysis unit 12 After completing the morphological analysis, the morphological analysis unit 12 outputs the analysis result to the syntax analysis unit 13. Receiving this, the syntax analysis unit 13 combines the morphemes in phrase units, and then specifies the dependency relationship between the phrases. At this time, the syntax analysis unit 13 can perform the syntax analysis with high accuracy by referring to the statistical model stored in the analysis model storage unit 21.
  • the parsing unit 13 also has a function as an index generation means, extracts the emotional subject tag and the semantic candidate tag associated with the morpheme in each clause, and uses this as an index in another area of the storage device. Write out.
  • information indicating that the “effect” of the sensibility theme is associated with Chunk0 (sentence 0) and information indicating that the meaning candidate “denial” is associated with Chunk1 (sentence 1).
  • Including index 40 has been generated. If the phrase includes a morpheme with a large / small expression tag or a sensitivity expression tag, the parsing unit 13 also includes information indicating the presence (the phrase and tag type in which the tag is set) in the index 40. Describe in.
  • FIG. 9 is a representation of a syntax tree by applying a predetermined graph object conversion tool to the output data of the syntax analysis unit 13, and the dependency relationship between each clause is represented by a tree structure. .
  • the compound noun merge unit 14 connects them to one morpheme.
  • the compound noun merging unit 14 is combined with one morpheme called “Nomura Research Institute”.
  • semantic attribute extraction processing determines whether “meaning candidate” truly deserves to be “semantic attribute” by applying a semantic attribute rule to a clause containing a morpheme with a semantic candidate tag set. Is meant to do.
  • the semantic attribute extraction unit 15 refers to the index 40 and identifies a phrase including a morpheme in which a semantic candidate tag is set and a semantic candidate type.
  • a meaning candidate tag of “No” is set in the phrase 1 (Chunk1).
  • the semantic attribute extraction unit 15 extracts the semantic attribute rule for the semantic candidate “Negation” from the semantic attribute rule storage unit 22 and applies it to the corresponding syntax tree (the dependency structure between each clause and clauses). . That is, in the semantic attribute rule, a large number of combinations of “application condition” and “application effect” are registered according to the priority order, and the semantic attribute extraction unit 15 includes a phrase including a morpheme in which a semantic candidate tag is set, and each meaning. The attribute rule application conditions are compared in order from the top, and when they match, the process defined in the application effect of the semantic attribute rule is executed.
  • the semantic attribute extraction unit 15 follows this, as shown in FIG. A semantic attribute tag of “No” is assigned to phrase 0 (Chunk0). At the same time, the semantic attribute extraction unit 15 adds information indicating that the semantic attribute tag of “No” is added to the phrase 0 to the index 40 as well. Note that if a clause with a semantic candidate tag or a dependency structure of the relevant clause and another clause does not match any semantic attribute rule, the semantic candidate is left as it is.
  • semantic attribute extraction unit 15 refers to the index 40 as described above, specifies the phrase in which the semantic candidate tag is set, and instead applies the semantic attribute rules in order, for each semantic attribute rule. It is also possible to identify clauses to be applied with reference to the index 40 and determine suitability of the rule.
  • Semantic attribute rules are actually written according to the JSON format.
  • the reference chunk (a clause including a negative meaning candidate tag) is searched from the index, and “none” as an adjective is included in the reference chunk as an application condition.
  • a semantic attribute tag of “denial” is added to the child chunk (the original clause) as an application effect.
  • a reference chunk (a clause including a negative meaning candidate tag) is searched from the index, and “not” as a suffix is included in the reference chunk as an application condition.
  • the addition of a “Negative” semantic attribute tag to the reference chunk itself as an application effect is described in accordance with the JSON format.
  • the semantic attribute extraction unit 15 passes the JSON format rules through a rule generator to convert them into graph object operation logic, and then executes this binary data that can be executed by the compiler. It is also possible to adapt after adapting. Thus, by making each rule executable binary data and taking it as a program code, it is possible to speed up the rule suitability determination process.
  • Kansei analysis processing means that a Kansei analysis rule is applied to individual clauses included in the syntax tree or a dependency structure between clauses, so that the Kansei subject of the sentence is positive (positive) or negative. It means the process of specifying the (negative) Kansei attribute.
  • the sensitivity analysis unit 16 refers to the index 40 and specifies the type of emotion theme tag set in the syntax tree and its clause.
  • a sensitivity theme of “effect” is set in phrase 0 (Chunk0).
  • the sensibility analysis unit 16 extracts the sensibility analysis rule for “efficacy” from the sensibility analysis rule storage unit 23 and applies it to the corresponding syntax tree. That is, many combinations of “application conditions” and “application effects” are registered in the sensitivity analysis rule according to the priority order.
  • Adaptation condition specifies a dependency relationship between a clause with a sensitivity theme tag and another clause with a predetermined tag (sensitivity expression tag, large / small expression tag, semantic attribute tag) Or information specifying that a predetermined tag (sensitivity expression tag, large / small expression tag, semantic attribute tag) is set to overlap with the phrase itself in which the sensitivity theme tag is set.
  • sensitivity expression tag large / small expression tag, semantic attribute tag
  • the “adaptation effect” information specifying a clause to which a positive or negative sensitivity attribute tag is to be added is defined.
  • the Kansei analysis unit 16 compares the target clause or the dependency structure between clauses with each Kansei analysis rule in order from the top, and at the time of matching, performs the process specified by the application effect of the Kansei analysis rule. Execute. In the figure, an example that matches the sixth sensitivity analysis rule from the top is shown. That is, in the case of the rule of “NO.006”, since the application condition is “a clause in which an effect sensitivity subject tag is set and a negative semantic attribute tag is set”, the clause 0 (Chunk0) is set. It matches.
  • the sensitivity analysis unit 16 follows the phrase 0 (Chunk0) as shown in FIG. Is given a negative sensitivity attribute tag. At the same time, the sentiment analysis unit 16 also adds information indicating that the “negative” sentiment attribute tag is assigned to the phrase 0 in the index 40.
  • the Kansei analysis unit 16 refers to the index 40 as described above, identifies the clauses set with the Kansei subject tag and Kansei expression tags, and then applies the Kansei analysis rules in order. In addition, it is possible to identify the target clause by referring to the index 40 for each Kansei analysis rule and determine whether the rule is appropriate.
  • phrase 0 (Chunk0) includes a morpheme with an “effect” Kansei theme tag, and “Negative” Kansei attribute tag is set in the phrase 0.
  • FIG. 15 shows the results of morphological analysis and syntax analysis when a sentence “how to change settings” is input.
  • the index 40 indicates that the sensibility theme tag of “operability” is set to phrase 0 (Chunk0) and that the meaning candidate tag of “question” is set to phrase 2 (Chunk2). is described.
  • the semantic attribute extraction unit 15 takes out the semantic attribute rule for question from the semantic attribute rule storage unit 22, and applies the application condition of each semantic attribute rule to the syntax tree of the sentence in order. Then, at the time of matching, the semantic attribute extraction unit 15 executes a process defined in the application effect of the semantic attribute rule.
  • FIG. 16 shows the application result of a certain semantic attribute rule.
  • a semantic attribute tag of “question” is set in the phrase 2 (Chunk2), and information to that effect is added to the index 40 as well.
  • the application conditions and application effects of this semantic attribute rule are as follows. [Applicable condition]: (1) The meaning of the adverb “how” should be “question”. (2) The verb “do (basic form)” follows “how”. [Application effect]: A semantic attribute tag of “question” is given to the clause.
  • the Kansei analysis unit 16 tried to apply the Kansei analysis rule related to the Kansei subject “operability”, but there was no matching rule. The (positive / negative) setting was postponed. For this reason, what is shown in FIG. 16 is the final analysis result for the sentence “How to change the setting”.
  • FIG. 17 shows the result of morphological analysis and syntax analysis when a sentence “operation is difficult to understand” is input.
  • the index 40 describes that “sensibility theme: operability” is set in the phrase 0 (Chunk0) and that the meaning candidate tag “difficult” is set in the phrase 1 (Chunk1). Has been.
  • the semantic attribute extraction unit 15 takes out the semantic attribute rules for difficulty from the semantic attribute rule storage unit 22, and applies the application conditions of each semantic attribute rule to the syntax tree of the sentence in order. Then, at the time of matching, the semantic attribute extraction unit 15 executes a process defined in the application effect of the semantic attribute rule.
  • FIG. 18 shows the application result of a certain semantic attribute rule.
  • a semantic attribute tag of “difficult” is set in the phrase 1 (Chunk1), and information to that effect is added to the index 40 as well.
  • the application conditions and application effects of this semantic attribute rule are as follows, for example. [Applicable condition]: (1) There must be a verb morpheme. (2) The verb is followed by “difficult (reading the basic form)”. [Application effect]: A semantic attribute tag of “difficult” is assigned to the clause.
  • the sensitivity analysis unit 16 attempts to apply a sensitivity analysis rule relating to the sensitivity theme “operability”.
  • a “Negative” Kansei attribute tag is set in clause 0 (Chunk0) according to the application effect.
  • the system 10 is applied to the analysis of sentences written in Japanese.
  • the system 10 is applied to sentences written in languages other than Japanese such as English and Chinese.
  • An analysis model, a semantic attribute rule, and a sensitivity analysis rule are prepared in advance.
  • an example of analysis of sentences written in English is shown.
  • FIG. 20 shows the results of morphological analysis and syntax analysis when an English sentence “How can I change the settings?” Is input.
  • the index 40 has a “sentimental theme” tag of “operability” set in clause 3 (Chunk3) and a meaning candidate of “question”. It is described that the (Meaning-candidate) tag is set to clause 0 (Chunk0).
  • the semantic attribute extraction unit 15 takes out the semantic attribute rule for question from the semantic attribute rule storage unit 22, and applies the application condition of each semantic attribute rule to the syntax tree of the sentence in order. Then, at the time of matching, the semantic attribute extraction unit 15 executes a process defined in the application effect of the semantic attribute rule.
  • FIG. 21 shows an application result of a certain semantic attribute rule.
  • a semantic attribute tag of “question” is set in the phrase 0 (Chunk0), and information to that effect is added to the index 40 as well.
  • the application conditions and application effects of this semantic attribute rule are as follows, for example.
  • the Kansei analysis unit 16 tried to apply the Kansei analysis rule related to the Kansei subject “operability”, but there was no matching rule.
  • the (positive / negative) setting was postponed. Therefore, what is shown in FIG. 21 is the final analysis result for the English sentence “How can I change the settings?”.
  • FIG. 22 shows the results of morphological analysis and syntax analysis when an English sentence “It is hard to operate.” Is input.
  • the index 40 has a “sentimental theme” tag of “operability” set in clause 3 (Chunk3) and a meaning meaning of “difficult” ( It is described that the Meaning-candidate) tag is set to clause 2 (Chunk2).
  • the semantic attribute extraction unit 15 takes out the semantic attribute rules for difficulty from the semantic attribute rule storage unit 22, and applies the application conditions of each semantic attribute rule to the syntax tree of the sentence in order. Then, at the time of matching, the semantic attribute extraction unit 15 executes a process defined in the application effect of the semantic attribute rule.
  • FIG. 23 shows the application result of a certain semantic attribute rule.
  • a semantic attribute tag “difficult” is set in the phrase 2 (Chunk2), and information to that effect is added to the index 40 as well. ing.
  • the application conditions and application effects of this semantic attribute rule are as follows, for example. [Applicable condition]: There must be an adjective (JJ) representing “difficult”. [Applicable condition]: A difficult semantic attribute tag is assigned to the chunk.
  • the sensitivity analysis unit 16 attempts to apply a sensitivity analysis rule relating to the sensitivity theme “operability”.
  • a Kansei attribute tag of “Negative” is set in the phrase 3 (Chunk3), and the index The information to that effect is added to 40.
  • the application conditions and application effects of this sensitivity analysis rule are as follows, for example. [Applicable condition]: (1) The parent Chunk has a difficult semantic attribute tag. (2) The child Chunk has a To + verb (VB). [Application effect]: A negative Kansei attribute tag is assigned to the child Chunk.
  • FIG. 6 is a diagram illustrating a syntax tree in Embodiment 1.
  • FIG. 10 is a diagram illustrating a syntax tree in the second embodiment. It is a figure which shows the application effect of the semantic attribute rule in Example 2.
  • FIG. It is a figure which shows the application effect of the sensitivity analysis rule in Example 2.
  • FIG. 10 is a diagram illustrating a syntax tree in the third embodiment. It is a figure which shows the application effect of the semantic attribute rule in Example 3.
  • FIG. 10 is a diagram illustrating a syntax tree in the fourth embodiment. It is a figure which shows the application effect of the semantic attribute rule in Example 4.
  • FIG. It is a figure which shows the application effect of the sensitivity analysis rule in Example 4.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

【課題】自然言語で記述された文章から発言の意図や価値判断を効率的に抽出可能な技術を提供する。 【解決手段】入力文章の必要な形態素には、予め形態素解析部12によって意味候補タグや感性主題タグが設定されている。また、構文解析部13により、意味候補タグや感性主題タグを含む文節と、各タグの種類が記述されたインデックス40が作成される。意味属性抽出部15は、このインデックス40を参照することにより、意味候補タグを含む文節やタグの種類を認識した上で、意味属性ルールを適用し、必要な文節に意味属性タグを設定すると共に、インデックス40を更新する。感性分析部16も、このインデックス40を参照することにより、感性主題タグを含む文節や意味属性タグを含む文節を認識した上で、感性分析ルールを適用し、必要な文節に感性属性タグを設定する。

Description

文章解析システム及びプログラム
 この発明は文章解析システム及びプログラムに係り、特に、電子掲示板上の発言データやアンケートの回答データなどの電子化された文書データから、特定の商品やサービス等に関するエンドユーザの主観的な評価や意見を自動的に収集する技術に関する。
 具体的な商品やサービス(以下「商品等」)に対するエンドユーザの主観的な評価(感想)や発言意図は、現行商品等の改良や次世代商品等の開発にとって極めて重要な指針となるため、各企業はエンドユーザから集めたアンケート結果を様々な観点から分析し、あるいはネット上の電子掲示板にアクセスし、自社商品等に対する評価をチェックすることを行っている。
 また、このような人手による分析作業の効率化を図るため、電子化された文章に対しコンピュータを用いて自動解析することにより、特定の商品等に対するエンドユーザの評価を抽出する技術が既に提案されている。
 例えば、特許文献1にあっては、所定の対象に対する情動表現を含む文章に対して形態素処理や構文解析処理を施した後、多数の情動表現が登録されたアフェクトターム辞書を参照して、当該文章から情動表現を抽出すると共に、各情動表現の属性(ネガ/ポジ等)を集計し、その結果を外部に出力する技術が開示されている。この結果、「口紅」という評価対象に関し、色つや、におい、付け心地、パッケージといった複数の評価軸毎に、否定的評価と肯定的評価の分布状況を提示することが可能となる。
特開2003-248681号公報
 ところで、人間が記述した自然言語による文章をコンピュータで解析する際には一般に、文章を最小限の構成単位である形態素に分解して品詞等を特定する形態素解析と、各形態素を複数の文節にまとめると共に、文節相互間の係り受け関係を同定する構文解析処理が実行され、そのアウトプットとして構文木が出力される。
 そして、この構文木に対して多数のルールを所定の順番で当てはめていくことにより、各文の意味内容等が抽出される仕組みを備えているため、文章の構造が複雑になるに従い、ルール適用の可否判定に膨大な処理時間を要することとなる。
 これに対し、特許文献2の場合には、構文木を参照しなくても形態素の並びから適用の可否判定が可能な一部のルールについては、形態素解析の段階でルールを適用して意味属性を付与しておき、構文解析後の構文木に対しては残りのルールのみを適用することにより、ルール適用に要する判定時間の節約が可能となる旨を謳っている。
特開2005-092254号公報
 しかしながら、構文木の参照なしで適否の判定が可能なルールの数自体が限られており、同文献中でも「時間的前」を意味する「~から」と、「理由」を意味する「~から」が例示されているに過ぎない。
 実際、自然言語で記述された複雑な文章から、作成者の意図や評価といった意味内容等を正確に抽出するには文節間の係り受け構造を考慮することが重要であり、それ抜きで確定できる方が例外的であるため、特許文献2の技術を適用したとしても、処理速度の劇的な向上は期待できないといわざるを得ない。
 この発明は、従来のこのような問題を解決するために案出されたものであり、自然言語で記述された文章から意味内容等を効率的に抽出可能な技術を提供することを目的としている。
 上記の目的を達成するため、請求項1に記載した文章解析システムは、入力された文章を形態素単位に分解する手段と、特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段と、各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段と、事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段と、特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段と、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段を備えたことを特徴としている。
 請求項2に記載した文章解析システムは、請求項1のシステムであって、さらに、上記属性辞書の少なくとも一つが、特定の形態素と意味属性の種類との対応関係を規定した意味属性辞書であり、上記事前タグ設定手段により、該当の形態素に事前タグとしての意味候補タグが設定され、上記インデックスには、上記インデックス生成手段により、意味候補タグを含む文節の特定情報と当該意味候補タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の意味候補タグを含む文節を少なくとも指定する適用条件と、意味属性タグ設定先の文節及び設定する意味属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の意味属性タグを設定することを特徴としている。
 請求項3に記載した文章解析システムは、請求項2のシステムであって、さらに、上記属性辞書の少なくとも一つが特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書であり、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる意味属性タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。
 請求項4に記載した文章解析システムは、請求項1のシステムであって、さらに上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と大小表現の種類との対応関係を規定した大小表現辞書を少なくとも備えており、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び大小表現タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、大小表現タグを含む文節の特定情報と当該大小表現の種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる大小表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。
 請求項5に記載した文章解析システムは、請求項1または4のシステムであって、さらに上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と感性表現の種類との対応関係を規定した感性表現辞書を少なくとも備えており、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び感性表現タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、感性表現タグを含む文節の特定情報と当該感性表現タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる感性表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。
 請求項6に記載した文章解析プログラムは、コンピュータを、入力された文章を形態素単位に分解する手段、特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段、各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段、事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段、特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段として機能させることを特徴としている。
 この発明に係る文章解析システム及びプログラムの場合、文章から発言者の主観的な意図や感性主題に対する価値判断等を抽出するために、各文節間の係り受け関係(構文木)に所定のルールを適用すること自体は従来技術と異ならないが、この際に、属性辞書に基づいて予め生成されたインデックスを参照することで、ルールを適用すべき文節の存在及び種類が直ちにわかるため、文章が比較的長文の場合や、構文構造が複雑な場合であっても、ルール適用の可否が極めて迅速に判断できる利点を備えている。
 図1は、この発明に係る文章解析システム10の機能構成を示すブロック図であり、形態素解析部12と、構文解析部13と、複合名詞マージ部14と、意味属性抽出部15と、感性分析部16と、設定ファイル17と、システム辞書記憶部18と、感性主題辞書記憶部19と、ユーザ辞書記憶部20と、解析モデル記憶部21と、意味属性ルール記憶部22と、感性分析ルール記憶部23とから構成される。
 上記の形態素解析部12、構文解析部13、複合名詞マージ部14、意味属性抽出部15及び感性分析部16は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
 また、上記の設定ファイル17、システム辞書記憶部18、感性主題辞書記憶部19、ユーザ辞書記憶部20、解析モデル記憶部21、意味属性ルール記憶部22及び感性分析ルール記憶部23は、同コンピュータの記憶装置内に設けられている。
 システム辞書記憶部18には、形態素解析に必要な一般的な単語辞書24の他に、汎用の意味属性辞書25、大小表現辞書26、感性表現辞書27等が格納されている。
 「意味属性辞書」とは、図2に示すように、特定の表現パターンと、その意味属性の種類(発言の意図を表す否定/肯定/疑問/要望/予想外/不満等の類型)との対応関係を規定したものである。
 また「大小表現辞書」とは、図3(a)に示すように、事物の大小を示す表現パターンと、大小表現の種類(大/小の区分)との対応関係を規定したものである。
 また「感性表現辞書」とは、図3(b)に示すように、事物に対する評価を示す表現パターンと、感性表現の種類(ポジティブ/ネガティブの類型)との対応関係を規定したものである。
 感性主題辞書記憶部19には、製品やサービスの分野毎に、感性主題(評価軸/観点)と、それぞれの関連語が定義された感性主題辞書が多数格納されている。
 図4は、ホテルや旅館といった宿泊サービス分野に係る感性主題辞書の登録例を示すものであり、「価格」の評価軸については、「価格」の他に、「料金」、「値段」、「宿泊料」、「宿代」等の類義語や関連語が類似表現として格納されている。これらの類似表現は、一般的な類義語辞書等を参照し、また個々の業界の特性を考慮しつつ、業界毎に編纂されたものである。
 このため、「価格」の評価軸について、「価格」や「料金」、「値段」といった一般的な呼び名の他に、「宿泊料」、「宿代」のようにホテル・旅館業界に特有の呼び名が列記されている。
 また、飲食業界に属するユーザに対してサービスを提供する場合には、「宿泊料」や「宿代」の代わりに「飲食代」や「飲み代」等の類似表現が列記された、飲食業界用の評価軸類似表現辞書が適用されることとなる。
 上記のシステム辞書記憶部18や感性主題辞書記憶部19は、予めシステム側で用意した汎用的なものであるのに対し、ユーザ辞書記憶部20には、ユーザ側が独自に用意した各種辞書(独自の意味属性辞書、大小表現辞書、感性表現辞書、感性主題辞書)が格納されている。
 ユーザは、このシステム10の利用に際し、どの辞書を適用すべきかについて、予め設定ファイル17中に指定しておく。
 解析モデル記憶部21には、大量のテキスト(学習用のコーパス)に対して統計的解析を施して生成された構文解析用の統計モデルが格納されている。
 ここで、システム10に解析対象として多数の文章を含むテキストファイル28が入力されると、形態素解析部12による形態素解析処理が実行される。
 テキストファイル24は、例えば、多数のエンドユーザから集めたアンケートの回答文を列記したものよりなる。
 例えば、テキストファイル24中に「効果がないと思う」という文章が含まれていた場合、図5に示すように、形態素解析部12はこれを「効果」、「が」、「ない」、「と」、「思う」のように形態素単位に分解し、それぞれの品詞やよみ等を特定する。
 また形態素解析部12は、事前タグ設定手段としての機能を備えており、設定ファイル17において指定された分野に係る感性主題辞書を参照し、各形態素の中で感性主題を表す用語として予め定義されたものが含まれていた場合には、当該形態素に事前タグとしての感性主題タグを関連付ける。
 図5においては、「効果」の形態素について「効能」の感性主題タグが付与されている。
 また形態素解析部12は、システム辞書記憶部18中の意味属性辞書25を参照することにより、特定の形態素にその意味属性の種類を示す事前タグとしての意味候補タグを関連付ける。
 意味属性とは、上記のように、当該文章を作成した者の意図や評価、価値判断を示す形態素の類型であり、「否定」や「疑問」、「要望」、「予想外」等の種類に対応したタグが該当の形態素に関連付けられる。
 ただし、この時点では構文解析が完了していないため、あくまでも暫定的な「意味候補」に過ぎず、確定的なものではない。
 図5においては、「ない」の形態素について「否定」の意味候補タグが付与されている。
 図5には表れていないが、形態素解析部12はシステム辞書記憶部18中の大小表現辞書26や感性表現辞書27を参照し、該当の形態素が含まれている場合には、「大/小」の種類に対応した事前タグとしての大小表現タグや「ポジティブ/ネガティブ」の種類に対応した事前タグとしての感性表現タグを付与する。
 なお、大小表現や感性表現は構文解析を待つまでもなく、その表現自体から内容が自明であるため、「大小候補」や「感性候補」ではなく、この時点で確定される。
 形態素の中には、一語で感性主題と感性表現(ポジティブ/ネガティブ)が同時に確定されるものが存在する。
 例えば、「エレガントな」という言葉が特定の商品分野において使用された場合、「感性主題=デザイン」、「感性表現の種類=ポジティブ」であることが特定できるため、予め感性主題辞書等に定義しておく。
 この結果、図6に示すように、「エレガントなシルエット」という文章が入力された際には、「エレガントな」の形態素解析結果中に、「デザイン」の感性主題タグと並んで、「ポジティブ」の感性表現タグが付与される。
 同様に、「高品質」という言葉からは「感性主題=品質」、「感性表現の種類=ポジティブ」が導き出せるため、予め感性主題辞書等に定義しておく。
 この結果、図7に示すように、「高品質な製品」という文章が入力された際には、「高品質」の形態素解析結果中に「品質」の感性主題タグと並んで、「ポジティブ」の感性表現タグが付与される。
 形態素解析を完了した形態素解析部12は、構文解析部13に解析結果を出力する。
 これを受けた構文解析部13は、各形態素を文節単位に結合させた後、各文節間の係り受け関係を特定する。
 この際、構文解析部13は、解析モデル記憶部21に格納された統計モデルを参照することにより、精度の高い構文解析を行うことができる。
 図8においては、「効果」、「が」、「ない」、「と」、「思う」の各形態素が、「効果が(文節ID:0)」、「ないと(文節ID:1)」、「思う(文節ID:2)」の3つの文節に集約されている。また、各文節IDの右横に係り先文節IDを併記することにより、文節間の係り受け関係が表現されている。具体的には、「効果が」←「ないと」←「思う」の係り受け関係が導き出されている。
 また構文解析部13は、インデックス生成手段としての機能を備えており、各文節中の形態素に関連付けられていた感性主題タグ及び意味候補タグを抽出し、これをインデックスとして記憶装置の別の領域に書き出す。
 図8においては、感性主題の「効能」がChunk0(文節0)に関連付けられていることを示す情報と、意味候補の「否定」がChunk1(文節1)に関連付けられていることを示す情報を含むインデックス40が生成されている。
 なお、文節中に大小表現タグや感性表現タグが付与された形態素が含まれている場合、構文解析部13はその存在を示す情報(タグの設定された文節及びタグの種類)もインデックス40中に記述する。
 図9は、構文解析部13の出力データに対して所定のグラフオブジェクト変換ツールを適用することにより、構文木として表現したものであり、各文節間の係り受け関係が木構造で表現されている。
 この時点で、同一の文節中に複数の名詞が連続して存在している場合、複合名詞マージ部14によって一つの形態素に連結される。
 例えば、図10に示すように、「野村総合研究所は」の文節(Chunk0)には、「野村」、「総合」、「研究」、「所」の4つの名詞が連続的に存在しているため、複合名詞マージ部14により、「野村総合研究所(のむらそうごうけんきゅうしょ)」という一つの形態素に結合される。
 つぎに、意味属性抽出部15による意味属性抽出処理が実行される。
 ここで「意味属性抽出処理」とは、意味候補タグが設定された形態素を含む文節について意味属性ルールを適用することにより、「意味候補」が真に「意味属性」に値するか否かを確定することを意味している。
 まず意味属性抽出部15は、図11に示すように、インデックス40を参照し、意味候補タグの設定された形態素を含む文節及び意味候補の種類を特定する。
 ここでは、文節1(Chunk1)に「否定」の意味候補タグが設定されている。
 つぎに意味属性抽出部15は、意味属性ルール記憶部22から意味候補「否定」用の意味属性ルールを取り出し、これを該当の構文木(各文節及び文節間の係り受け構造)に当てはめていく。
 すなわち、意味属性ルールには「適用条件」と「適用効果」の組合せが優先順位に従って多数登録されており、意味属性抽出部15は、意味候補タグが設定された形態素を含む文節と、各意味属性ルールの適用条件とを上から順番に比較していき、マッチした時点で当該意味属性ルールの適用効果に規定された処理を実行する。
 図においては、1番目の意味属性ルールにマッチした例が示されている。
 すなわち、この「NO.001」のルールの場合、適用条件は「掛かり先としての文節が、形容詞としての『ない(基本形)』を含んでいること」であるため、文節1(Chunk1)の「ないと」にマッチしている。
 そして、「NO.001」のルールの適用効果は「係り元の文節に『否定』の意味属性を付与すること」であるため、意味属性抽出部15はこれに従い、図12に示すように、文節0(Chunk0)に「否定」の意味属性タグを付与する。
 同時に意味属性抽出部15は、インデックス40にも「否定」の意味属性タグが文節0に付与された旨の情報を追加する。
 なお、意味候補タグの設定された文節や当該文節と他の文節との係り受け構造が何れの意味属性ルールにもマッチしない場合には、意味候補のまま残されることとなる。
 なお、意味属性抽出部15は、上記のようにインデックス40を参照して意味候補タグの設定された文節を特定した上で、意味属性ルールを順に適用していく代わりに、意味属性ルール毎にインデックス40を参照して適用すべき文節を特定し、当該ルールの適合性を判定していくようにすることもできる。
 意味属性ルールは、実際にはJSONフォーマットに則って記述されている。
 因みに、図11の「NO.001」のルールの場合、基準チャンク(否定の意味候補タグを含む文節)をインデックスから検索すること、適用条件として基準チャンク中に形容詞としての「ない」が含まれていること、適用効果として子チャンク(係り元の文節)に「否定」の意味属性タグを追加することが、JSONフォーマットに則って記述されている。
 また、図11の「NO.002」のルールの場合、基準チャンク(否定の意味候補タグを含む文節)をインデックスから検索すること、適用条件として基準チャンク中に接尾辞としての「ない」が含まれていること、適用効果として基準チャンク自体に「否定」の意味属性タグを追加することが、JSONフォーマットに則って記述されている。
 意味属性抽出部15は、意味属性ルールをJSONフォーマットのまま適用する代わりに、JSONフォーマットのルールをルールジェネレータに通すことでグラフオブジェクトの操作ロジックに変換した後、これをコンパイラにかけて実行可能なバイナリデータ化した上で適応することもできる。
 このように、各ルールを実行可能なバイナリデータにし、プログラムのコードとして取り込むようにすることにより、ルールの適合性判定処理の高速化を図ることができる。
 つぎに、感性分析部16による感性分析処理が実行される。
 ここで「感性分析処理」とは、構文木に含まれる個々の文節または文節間の係り受け構造に対して感性分析ルールを適用することにより、当該文章の感性主題についてポジティブ(肯定的)またはネガティブ(否定的)の感性属性を特定する処理を意味している。
 まず感性分析部16は、図13に示すように、インデックス40を参照し、当該構文木に設定された感性主題タグの種類と、その文節を特定する。
 ここでは、文節0(Chunk0)に「効能」の感性主題が設定されている。
 つぎに感性分析部16は、感性分析ルール記憶部23から「効能」用の感性分析ルールを取り出し、これを該当の構文木に当てはめていく。
 すなわち、感性分析ルールには「適用条件」と「適用効果」の組合せが優先順位に従って多数登録されている。
 「適応条件」としては、感性主題タグが設定された文節と他の文節で所定のタグ(感性表現タグ、大小表現タグ、意味属性タグ)が設定されたものとの間の係り受け関係を指定する情報、あるいは感性主題タグが設定された文節自体に所定のタグ(感性表現タグ、大小表現タグ、意味属性タグ)が重ねて設定されていることを指定する情報が規定されている。
 また「適応効果」としては、ポジティブまたはネガティブの感性属性タグを付与すべき文節を指定する情報が規定されている。
 感性分析部16は、対象となる文節または文節間の係り受け構造と各感性分析ルールとを上から順番に比較していき、マッチした時点で当該感性分析ルールの適用効果で指定された処理を実行する。
 図においては、上から6番目の感性分析ルールにマッチした例が示されている。
 すなわち、この「NO.006」のルールの場合、適用条件は「効能の感性主題タグが設定されると共に、否定の意味属性タグが設定されている文節」であるため、文節0(Chunk0)にマッチしている。
 この「NO.006」のルールの適用効果は、「同文節にネガティブの感性属性タグを設定する」であるため、感性分析部16はこれに従い、図14に示すように、文節0(Chunk0)に「ネガティブ」の感性属性タグを付与する。
 同時に感性分析部16は、インデックス40にも「ネガティブ」の感性属性タグが文節0に付与された旨の情報を追加する。
 感性分析部16は、上記のようにインデックス40を参照して感性主題タグの設定された文節や感性表現タグ等の設定された文節を特定した上で、感性分析ルールを順に適用していく代わりに、感性分析ルール毎にインデックス40を参照して対象となる文節を特定し、当該ルールの適否を判定していくこともできる。
 この図14に示された情報、すなわち各形態素の解析結果、文節間の係り受け構造(構文木)、各文節に付与されたタグ、インデックス40が、本システム10による分析結果29となる。
 すなわち、文節0(Chunk0)は「効能」の感性主題タグを備えた形態素を含んでおり、当該文節0には「ネガティブ」の感性属性タグが設定されているため、「効果がないと思う」という文章について、「効能についてネガティブな意見の文章である」という分析結果が示されたことを表している。
 多数の文章(アンケート文等)についてこのような感性分析を施すことにより、特定の商品やサービスに対するエンドユーザの意見や評価を集計することが可能となる。
 図15は、「設定を変更するにはどうしたらよいか」という文章が入力された場合の、形態素解析及び構文解析結果を示すものである。
 図示の通り、インデックス40には「操作性」の感性主題タグが文節0(Chunk0)に設定されている旨と、「疑問」の意味候補タグが文節2(Chunk2)に設定されている旨が記述されている。
 これに対し意味属性抽出部15は、意味属性ルール記憶部22から疑問用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。
 図16は、ある意味属性ルールの適用結果を示すものであり、文節2(Chunk2)に「疑問」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
 因みに、この意味属性ルールの適用条件及び適用効果は、以下の通りである。
[適用条件]:
    (1) 副詞の「どう」に「意味候補:疑問」が設定されていること。
  (2) 「どう」の後に動詞の「する(基本形)」が続くこと。
[適用効果]:
  当該文節に「疑問」の意味属性タグを付与する。
 この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みたが、マッチするルールが存在しなかったため、感性属性タグ(ポジティブ/ネガティブ)の設定は見送られた。
 このため、図16に示したものが、「設定を変更するにはどうしたらよいか」の文章に対する最終的な分析結果となる。
 この場合、感性主題「操作性」に対するエンドユーザの最終的な評価、すなわち「操作性が良い/操作性が悪い」を抽出することはできていないが、少なくとも操作性に対する疑問を抽出することができているため、このアウトプットは操作性の改善点を探索する目的に利用できる。
 図17は、「操作が分かりにくい」という文章が入力された場合の、形態素解析及び構文解析結果を示すものである。
 図示の通り、インデックス40には「感性主題:操作性」が文節0(Chunk0)に設定されている旨と、「困難」の意味候補タグが文節1(Chunk1)に設定されている旨が記述されている。
 これに対し意味属性抽出部15は、意味属性ルール記憶部22から困難用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。
 図18は、ある意味属性ルールの適用結果を示すものであり、文節1(Chunk1)に「困難」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
 この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
 [適用条件]:
   (1) 動詞の形態素が存在すること。
  (2) 動詞の後に「にくい(基本形の読み)」が続くこと。
[適用効果]:
  当該文節に「困難」の意味属性タグを付与する。
 この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みる。
 ここでは、ある感性分析ルールの適用条件がマッチした結果、図19に示すように、その適用効果に従い、文節0(Chunk0)に「ネガティブ」の感性属性タグが設定されている。
 この感性分析ルールの適用条件及び適用効果は、例えば以下の通りである。
[適用条件]:
  「わかる(基本形の読み)」の形態素が存在すること。
[適用効果]:
  係り元の文節(child chunk)に「ネガティブ」の感性属性タグを付与する。
 上記においては、このシステム10を日本語で記述された文章の分析に適用した例を示したが、このシステム10を英語や中国語等、日本語以外の言語で記述された文章について適用することも可能である。
 そのためには、各言語対応の形態素解析部12、構文解析部13、複合名詞マージ部14、単語辞書24、意味属性辞書25、大小表現辞書26、感性表現辞書27、感性主題辞書、ユーザ辞書、解析モデル、意味属性ルール、感性分析ルールを予め準備しておく。
 以下においては、英語で記述された文章の解析例を示す。
 図20は、「How can I change the settings?」という英文が入力された場合の、形態素解析及び構文解析結果を示すものである。
 図示の通り、インデックス(index)40には、「操作性(operability)」の感性主題(Sentimental theme)タグが文節3(Chunk3)に設定されている旨と、「疑問(question)」の意味候補(Meaning-candidate)タグが文節0(Chunk0)に設定されている旨が記述されている。
 これに対し意味属性抽出部15は、意味属性ルール記憶部22から疑問用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。
 図21は、ある意味属性ルールの適用結果を示すものであり、文節0(Chunk0)に「疑問(question)」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
 この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
[適用条件]:
 Wh-adberb(pos:WRB)がVerb(Cat:V)に係っていること。
[適用効果]:
 係り元に疑問の意味属性タグを付与する。
 この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みたが、マッチするルールが存在しなかったため、感性属性タグ(ポジティブ/ネガティブ)の設定は見送られた。
 このため、図21に示したものが、「How can I change the settings?」の英文に対する最終的な分析結果となる。
 図22は、「It is hard to operate.」という英文が入力された場合の、形態素解析及び構文解析結果を示すものである。
 図示の通り、インデックス(index)40には「操作性(operability)」の感性主題(Sentimental theme)タグが文節3(Chunk3)に設定されている旨と、「困難(difficult)」の意味候補(Meaning-candidate)タグが文節2(Chunk2)に設定されている旨が記述されている。
 これに対し意味属性抽出部15は、意味属性ルール記憶部22から困難用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。
 図23は、ある意味属性ルールの適用結果を示すものであり、文節2(Chunk2)に「困難(difficult)」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
 この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
[適用条件]:
 「難しい」を表す形容詞(JJ)が存在すること。
[適用条件]:
  当該チャンクに困難の意味属性タグを付与する。
 この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みる。
 ここでは、ある感性分析ルールの適用条件がマッチした結果、図24に示すように、その適用効果に従い、文節3(Chunk3)に「否定(Negative)」の感性属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
 この感性分析ルールの適用条件及び適用効果は、例えば以下の通りである。
[適用条件]:
  (1) 親Chunkに困難(difficult)の意味属性タグが存在すること。
  (2) 子ChunkにTo+動詞(VB)があること。
[適用効果]:
  子Chunkにネガティブの感性属性タグを付与する。
この発明に係る文章解析システムの機能構成を示すブロック図である。 意味属性辞書の登録例を示す図である。 大小表現辞書及び感性表現辞書の登録例を示す図である。 感性主題辞書の登録例を示す図である。 形態素解析部からの出力データを例示する図である。 単語レベルで感性主題と感性表現が確定できる場合を例示する図である。 単語レベルで感性主題と感性表現が確定できる場合を例示する図である。 構文解析部からの出力データを例示する図である。 構文解析部からの出力データを構文木として表現した例を示す図である。 複合名詞マージ部の処理内容を示す図である。 意味属性ルールの適用例を示す図である。 意味属性ルールの適用効果を示す図である。 感性属性ルールの適用例を示す図である。 感性属性ルールの適用効果を示す図である。 実施例1における構文木を示す図である。 実施例1における意味属性ルールの適用効果を示す図である。 実施例2における構文木を示す図である。 実施例2における意味属性ルールの適用効果を示す図である。 実施例2における感性分析ルールの適用効果を示す図である。 実施例3における構文木を示す図である。 実施例3における意味属性ルールの適用効果を示す図である。 実施例4における構文木を示す図である。 実施例4における意味属性ルールの適用効果を示す図である。 実施例4における感性分析ルールの適用効果を示す図である。
10  文章解析システム
12  形態素解析部
13  構文解析部
14  複合名詞マージ部
15  意味属性抽出部
16  感性分析部
17  設定ファイル
18  システム辞書記憶部
19  感性主題辞書記憶部
20  ユーザ辞書記憶部
21  解析モデル記憶部
22  意味属性ルール記憶部
23  感性分析ルール記憶部
24  単語辞書
25  意味属性辞書
26  大小表現辞書
27  感性表現辞書
28  テキストファイル
29  分析結果
40  インデックス

Claims (6)

  1.  入力された文章を形態素単位に分解する手段と、
     特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段と、
      各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段と、
     事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段と、
     特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段と、
     上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段と、
     を備えたことを特徴とする文章解析システム。
  2.  上記属性辞書の少なくとも一つが、特定の形態素と意味属性の種類との対応関係を規定した意味属性辞書であり、
     上記事前タグ設定手段により、該当の形態素に事前タグとしての意味候補タグが設定され、
     上記インデックスには、上記インデックス生成手段により、意味候補タグを含む文節の特定情報と当該意味候補タグの種類との組合せが記録され、
     上記判定ルール記憶手段には、特定種類の意味候補タグを含む文節を少なくとも指定する適用条件と、意味属性タグ設定先の文節及び設定する意味属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
     上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の意味属性タグを設定することを特徴とする請求項1に記載の文章解析システム。
  3.  上記属性辞書の少なくとも一つが、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書であり、
     上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグが設定され、
     上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せが記録され、
     上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる意味属性タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
     上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項2に記載の文章解析システム。
  4.  上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と大小表現の種類との対応関係を規定した大小表現辞書を少なくとも備えており、
     上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び大小表現タグが設定され、
     上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、大小表現タグを含む文節の特定情報と当該大小表現の種類との組合せが記録され、
     上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる大小表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
     上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項1に記載の文章解析システム。
  5.  上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と感性表現の種類との対応関係を規定した感性表現辞書を少なくとも備えており、
     上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び感性表現タグが設定され、
     上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、感性表現タグを含む文節の特定情報と当該感性表現タグの種類との組合せが記録され、
     上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる感性表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
     上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項1または4に記載の文章解析システム。
  6.  コンピュータを、
     入力された文章を形態素単位に分解する手段、
     特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段、
     各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段、
     事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段、
     特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段、
     上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段、
     として機能させることを特徴とする文章解析プログラム。
PCT/JP2016/059241 2016-03-23 2016-03-23 文章解析システム及びプログラム WO2017163346A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018506686A JP6675474B2 (ja) 2016-03-23 2016-03-23 文章解析システム及びプログラム
CN201680084010.5A CN108885617B (zh) 2016-03-23 2016-03-23 语句解析系统以及程序
PCT/JP2016/059241 WO2017163346A1 (ja) 2016-03-23 2016-03-23 文章解析システム及びプログラム
US16/138,387 US10839155B2 (en) 2016-03-23 2018-09-21 Text analysis of morphemes by syntax dependency relationship with determination rules

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/059241 WO2017163346A1 (ja) 2016-03-23 2016-03-23 文章解析システム及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/138,387 Continuation-In-Part US10839155B2 (en) 2016-03-23 2018-09-21 Text analysis of morphemes by syntax dependency relationship with determination rules

Publications (1)

Publication Number Publication Date
WO2017163346A1 true WO2017163346A1 (ja) 2017-09-28

Family

ID=59900062

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/059241 WO2017163346A1 (ja) 2016-03-23 2016-03-23 文章解析システム及びプログラム

Country Status (4)

Country Link
US (1) US10839155B2 (ja)
JP (1) JP6675474B2 (ja)
CN (1) CN108885617B (ja)
WO (1) WO2017163346A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统
CN111177186A (zh) * 2019-12-20 2020-05-19 北京淇瑀信息科技有限公司 基于问题检索的单句意图识别方法、装置和系统
CN112100388A (zh) * 2020-11-18 2020-12-18 南京华苏科技有限公司 一种长文本新闻舆情的情感极性的分析方法
CN112908487A (zh) * 2021-04-19 2021-06-04 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753651B (zh) * 2018-12-14 2022-05-17 昆明理工大学 一种针对体现用户意图的app软件用户评论挖掘方法
JP7464240B2 (ja) * 2019-04-26 2024-04-09 Necソリューションイノベータ株式会社 予測モデル生成装置、旅行適合度予測装置、予測モデル生産方法、旅行適合度予測方法、プログラム及び記録媒体
CN110349477B (zh) * 2019-07-16 2022-01-07 长沙酷得网络科技有限公司 一种基于历史学习行为的编程错误修复方法、系统及服务器
CN113254815B (zh) * 2020-02-08 2023-11-10 钉钉控股(开曼)有限公司 文档处理、页面处理方法及设备
JP2021149613A (ja) * 2020-03-19 2021-09-27 株式会社野村総合研究所 自然言語処理装置およびプログラム
US11487936B2 (en) * 2020-05-27 2022-11-01 Capital One Services, Llc System and method for electronic text analysis and contextual feedback

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003572A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム
JP2013242781A (ja) * 2012-05-22 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 要望文抽出装置、方法、及びプログラム
JP2016035688A (ja) * 2014-08-04 2016-03-17 日本電気株式会社 テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129469A (ja) * 1989-10-14 1991-06-03 Canon Inc 自然言語処理装置
JPH03188566A (ja) * 1989-12-18 1991-08-16 Fujitsu Ltd 辞書連動テキストベース装置
US5418716A (en) * 1990-07-26 1995-05-23 Nec Corporation System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases
JP3009215B2 (ja) * 1990-11-30 2000-02-14 株式会社日立製作所 自然語処理方法および自然語処理システム
JP2765665B2 (ja) * 1991-08-01 1998-06-18 富士通株式会社 タイポグラフィカル情報付き文書の翻訳装置
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
JP3738011B2 (ja) 2001-11-20 2006-01-25 株式会社ジャストシステム 情報処理装置、情報処理方法、及び情報処理プログラム
JP3696231B2 (ja) * 2002-10-08 2005-09-14 松下電器産業株式会社 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
WO2005010789A1 (ja) * 2003-07-24 2005-02-03 Csk Corporation 能力評価装置、能力評価方法および能力評価プログラム
JP4033088B2 (ja) 2003-09-11 2008-01-16 富士ゼロックス株式会社 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR100542755B1 (ko) * 2003-09-15 2006-01-20 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2006331246A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 意見分析処理方法、意見分析処理装置およびプログラム
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JP4359787B2 (ja) * 2007-07-02 2009-11-04 ソニー株式会社 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム
JP5445787B2 (ja) * 2008-03-06 2014-03-19 日本電気株式会社 属性抽出方法、システム及びプログラム
CN102144229B (zh) * 2008-10-02 2013-09-04 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
KR101042515B1 (ko) * 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
US8762131B1 (en) * 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
JP4768882B2 (ja) * 2009-06-26 2011-09-07 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
CN103038762B (zh) * 2010-12-17 2015-05-20 乐天株式会社 自然语言处理装置、方法
CN102866989B (zh) * 2012-08-30 2016-09-07 北京航空航天大学 基于词语依存关系的观点抽取方法
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム
US20150220632A1 (en) * 2012-09-27 2015-08-06 Nec Corporation Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information
KR20140078312A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
US10339223B2 (en) * 2014-09-05 2019-07-02 Nec Corporation Text processing system, text processing method and storage medium storing computer program
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
JP7139728B2 (ja) * 2018-06-29 2022-09-21 富士通株式会社 分類方法、装置、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003572A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム
JP2013242781A (ja) * 2012-05-22 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> 要望文抽出装置、方法、及びプログラム
JP2016035688A (ja) * 2014-08-04 2016-03-17 日本電気株式会社 テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统
CN111177186A (zh) * 2019-12-20 2020-05-19 北京淇瑀信息科技有限公司 基于问题检索的单句意图识别方法、装置和系统
CN111177186B (zh) * 2019-12-20 2024-04-23 北京淇瑀信息科技有限公司 基于问题检索的单句意图识别方法、装置和系统
CN112100388A (zh) * 2020-11-18 2020-12-18 南京华苏科技有限公司 一种长文本新闻舆情的情感极性的分析方法
CN112908487A (zh) * 2021-04-19 2021-06-04 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
CN112908487B (zh) * 2021-04-19 2023-09-22 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统

Also Published As

Publication number Publication date
JP6675474B2 (ja) 2020-04-01
US20190026264A1 (en) 2019-01-24
CN108885617B (zh) 2022-05-31
JPWO2017163346A1 (ja) 2018-11-22
CN108885617A (zh) 2018-11-23
US10839155B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
WO2017163346A1 (ja) 文章解析システム及びプログラム
US9588962B2 (en) System and method for generating and using user ontological models for natural language processing of user-provided text
JP3906356B2 (ja) 構文解析方法及び装置
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
JP5356197B2 (ja) 単語意味関係抽出装置
Novák et al. Creation of an annotated corpus of Old and Middle Hungarian court records and private correspondence
De Maat et al. Making sense of legal texts
Gamallo et al. Dependency parsing with finite state transducers and compression rules
Boltayevich et al. Methods for creating a morphological analyzer
Khairova et al. The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme.
Wax Automated grammar engineering for verbal morphology
JP6952967B2 (ja) 自動翻訳装置
CN113792542A (zh) 一种融合句法分析和语义角色剪枝的意图理解方法
Simionescu Graphical grammar studio as a constraint grammar solution for part of speech tagging
Rahat et al. A recursive algorithm for open information extraction from Persian texts
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Ackermann et al. Model [nl] generation: natural language model extraction
Dušek et al. Using parallel texts and lexicons for verbal word sense disambiguation
Fashwan et al. A morphologically annotated corpus and a morphological analyzer for Egyptian Arabic
Trandabăţ Mining Romanian texts for semantic knowledge
Wanjawa et al. Model for semantic network generation from low resource languages as applied to question answering–case of swahili
Zampieri Compiling and processing historical and contemporary portuguese corpora
Kulick Exploiting separation of closed-class categories for Arabic tokenization and part-of-speech tagging
JP2002334076A (ja) テキスト処理方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018506686

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16895382

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16895382

Country of ref document: EP

Kind code of ref document: A1