WO2017163346A1

WO2017163346A1 - 文章解析システム及びプログラム

Info

Publication number: WO2017163346A1
Application number: PCT/JP2016/059241
Authority: WO
Inventors: 大島　修; 績央渡邊
Original assignee: 株式会社野村総合研究所
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2017-09-28
Also published as: JP6675474B2; US20190026264A1; CN108885617B; JPWO2017163346A1; CN108885617A; US10839155B2

Abstract

【課題】自然言語で記述された文章から発言の意図や価値判断を効率的に抽出可能な技術を提供する。【解決手段】入力文章の必要な形態素には、予め形態素解析部12によって意味候補タグや感性主題タグが設定されている。また、構文解析部13により、意味候補タグや感性主題タグを含む文節と、各タグの種類が記述されたインデックス40が作成される。意味属性抽出部15は、このインデックス40を参照することにより、意味候補タグを含む文節やタグの種類を認識した上で、意味属性ルールを適用し、必要な文節に意味属性タグを設定すると共に、インデックス40を更新する。感性分析部16も、このインデックス40を参照することにより、感性主題タグを含む文節や意味属性タグを含む文節を認識した上で、感性分析ルールを適用し、必要な文節に感性属性タグを設定する。

Description

文章解析システム及びプログラム

　この発明は文章解析システム及びプログラムに係り、特に、電子掲示板上の発言データやアンケートの回答データなどの電子化された文書データから、特定の商品やサービス等に関するエンドユーザの主観的な評価や意見を自動的に収集する技術に関する。

　具体的な商品やサービス（以下「商品等」）に対するエンドユーザの主観的な評価（感想）や発言意図は、現行商品等の改良や次世代商品等の開発にとって極めて重要な指針となるため、各企業はエンドユーザから集めたアンケート結果を様々な観点から分析し、あるいはネット上の電子掲示板にアクセスし、自社商品等に対する評価をチェックすることを行っている。

　また、このような人手による分析作業の効率化を図るため、電子化された文章に対しコンピュータを用いて自動解析することにより、特定の商品等に対するエンドユーザの評価を抽出する技術が既に提案されている。
　例えば、特許文献１にあっては、所定の対象に対する情動表現を含む文章に対して形態素処理や構文解析処理を施した後、多数の情動表現が登録されたアフェクトターム辞書を参照して、当該文章から情動表現を抽出すると共に、各情動表現の属性（ネガ／ポジ等）を集計し、その結果を外部に出力する技術が開示されている。この結果、「口紅」という評価対象に関し、色つや、におい、付け心地、パッケージといった複数の評価軸毎に、否定的評価と肯定的評価の分布状況を提示することが可能となる。
特開２００３－２４８６８１号公報

　ところで、人間が記述した自然言語による文章をコンピュータで解析する際には一般に、文章を最小限の構成単位である形態素に分解して品詞等を特定する形態素解析と、各形態素を複数の文節にまとめると共に、文節相互間の係り受け関係を同定する構文解析処理が実行され、そのアウトプットとして構文木が出力される。
　そして、この構文木に対して多数のルールを所定の順番で当てはめていくことにより、各文の意味内容等が抽出される仕組みを備えているため、文章の構造が複雑になるに従い、ルール適用の可否判定に膨大な処理時間を要することとなる。

　これに対し、特許文献２の場合には、構文木を参照しなくても形態素の並びから適用の可否判定が可能な一部のルールについては、形態素解析の段階でルールを適用して意味属性を付与しておき、構文解析後の構文木に対しては残りのルールのみを適用することにより、ルール適用に要する判定時間の節約が可能となる旨を謳っている。
特開２００５－０９２２５４号公報

　しかしながら、構文木の参照なしで適否の判定が可能なルールの数自体が限られており、同文献中でも「時間的前」を意味する「～から」と、「理由」を意味する「～から」が例示されているに過ぎない。
　実際、自然言語で記述された複雑な文章から、作成者の意図や評価といった意味内容等を正確に抽出するには文節間の係り受け構造を考慮することが重要であり、それ抜きで確定できる方が例外的であるため、特許文献２の技術を適用したとしても、処理速度の劇的な向上は期待できないといわざるを得ない。

　この発明は、従来のこのような問題を解決するために案出されたものであり、自然言語で記述された文章から意味内容等を効率的に抽出可能な技術を提供することを目的としている。

　上記の目的を達成するため、請求項１に記載した文章解析システムは、入力された文章を形態素単位に分解する手段と、特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段と、各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段と、事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段と、特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段と、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段を備えたことを特徴としている。

　請求項２に記載した文章解析システムは、請求項１のシステムであって、さらに、上記属性辞書の少なくとも一つが、特定の形態素と意味属性の種類との対応関係を規定した意味属性辞書であり、上記事前タグ設定手段により、該当の形態素に事前タグとしての意味候補タグが設定され、上記インデックスには、上記インデックス生成手段により、意味候補タグを含む文節の特定情報と当該意味候補タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の意味候補タグを含む文節を少なくとも指定する適用条件と、意味属性タグ設定先の文節及び設定する意味属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の意味属性タグを設定することを特徴としている。

　請求項３に記載した文章解析システムは、請求項２のシステムであって、さらに、上記属性辞書の少なくとも一つが特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書であり、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる意味属性タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。

　請求項４に記載した文章解析システムは、請求項１のシステムであって、さらに上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と大小表現の種類との対応関係を規定した大小表現辞書を少なくとも備えており、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び大小表現タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、大小表現タグを含む文節の特定情報と当該大小表現の種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる大小表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。

　請求項５に記載した文章解析システムは、請求項１または４のシステムであって、さらに上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と感性表現の種類との対応関係を規定した感性表現辞書を少なくとも備えており、上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び感性表現タグが設定され、上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、感性表現タグを含む文節の特定情報と当該感性表現タグの種類との組合せが記録され、上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる感性表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴としている。

　請求項６に記載した文章解析プログラムは、コンピュータを、入力された文章を形態素単位に分解する手段、特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段、各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段、事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段、特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段として機能させることを特徴としている。

　この発明に係る文章解析システム及びプログラムの場合、文章から発言者の主観的な意図や感性主題に対する価値判断等を抽出するために、各文節間の係り受け関係（構文木）に所定のルールを適用すること自体は従来技術と異ならないが、この際に、属性辞書に基づいて予め生成されたインデックスを参照することで、ルールを適用すべき文節の存在及び種類が直ちにわかるため、文章が比較的長文の場合や、構文構造が複雑な場合であっても、ルール適用の可否が極めて迅速に判断できる利点を備えている。

　図１は、この発明に係る文章解析システム10の機能構成を示すブロック図であり、形態素解析部12と、構文解析部13と、複合名詞マージ部14と、意味属性抽出部15と、感性分析部16と、設定ファイル17と、システム辞書記憶部18と、感性主題辞書記憶部19と、ユーザ辞書記憶部20と、解析モデル記憶部21と、意味属性ルール記憶部22と、感性分析ルール記憶部23とから構成される。

　上記の形態素解析部12、構文解析部13、複合名詞マージ部14、意味属性抽出部15及び感性分析部16は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
　また、上記の設定ファイル17、システム辞書記憶部18、感性主題辞書記憶部19、ユーザ辞書記憶部20、解析モデル記憶部21、意味属性ルール記憶部22及び感性分析ルール記憶部23は、同コンピュータの記憶装置内に設けられている。

　システム辞書記憶部18には、形態素解析に必要な一般的な単語辞書24の他に、汎用の意味属性辞書25、大小表現辞書26、感性表現辞書27等が格納されている。
　「意味属性辞書」とは、図２に示すように、特定の表現パターンと、その意味属性の種類（発言の意図を表す否定／肯定／疑問／要望／予想外／不満等の類型）との対応関係を規定したものである。
　また「大小表現辞書」とは、図３(a)に示すように、事物の大小を示す表現パターンと、大小表現の種類（大／小の区分）との対応関係を規定したものである。
　また「感性表現辞書」とは、図３(b)に示すように、事物に対する評価を示す表現パターンと、感性表現の種類（ポジティブ／ネガティブの類型）との対応関係を規定したものである。

　感性主題辞書記憶部19には、製品やサービスの分野毎に、感性主題（評価軸／観点）と、それぞれの関連語が定義された感性主題辞書が多数格納されている。
　図４は、ホテルや旅館といった宿泊サービス分野に係る感性主題辞書の登録例を示すものであり、「価格」の評価軸については、「価格」の他に、「料金」、「値段」、「宿泊料」、「宿代」等の類義語や関連語が類似表現として格納されている。これらの類似表現は、一般的な類義語辞書等を参照し、また個々の業界の特性を考慮しつつ、業界毎に編纂されたものである。
　このため、「価格」の評価軸について、「価格」や「料金」、「値段」といった一般的な呼び名の他に、「宿泊料」、「宿代」のようにホテル・旅館業界に特有の呼び名が列記されている。
　また、飲食業界に属するユーザに対してサービスを提供する場合には、「宿泊料」や「宿代」の代わりに「飲食代」や「飲み代」等の類似表現が列記された、飲食業界用の評価軸類似表現辞書が適用されることとなる。

　上記のシステム辞書記憶部18や感性主題辞書記憶部19は、予めシステム側で用意した汎用的なものであるのに対し、ユーザ辞書記憶部20には、ユーザ側が独自に用意した各種辞書（独自の意味属性辞書、大小表現辞書、感性表現辞書、感性主題辞書）が格納されている。
　ユーザは、このシステム10の利用に際し、どの辞書を適用すべきかについて、予め設定ファイル17中に指定しておく。

　解析モデル記憶部21には、大量のテキスト（学習用のコーパス）に対して統計的解析を施して生成された構文解析用の統計モデルが格納されている。

　ここで、システム10に解析対象として多数の文章を含むテキストファイル28が入力されると、形態素解析部12による形態素解析処理が実行される。
　テキストファイル24は、例えば、多数のエンドユーザから集めたアンケートの回答文を列記したものよりなる。

　例えば、テキストファイル24中に「効果がないと思う」という文章が含まれていた場合、図５に示すように、形態素解析部12はこれを「効果」、「が」、「ない」、「と」、「思う」のように形態素単位に分解し、それぞれの品詞やよみ等を特定する。

　また形態素解析部12は、事前タグ設定手段としての機能を備えており、設定ファイル17において指定された分野に係る感性主題辞書を参照し、各形態素の中で感性主題を表す用語として予め定義されたものが含まれていた場合には、当該形態素に事前タグとしての感性主題タグを関連付ける。
　図５においては、「効果」の形態素について「効能」の感性主題タグが付与されている。

　また形態素解析部12は、システム辞書記憶部18中の意味属性辞書25を参照することにより、特定の形態素にその意味属性の種類を示す事前タグとしての意味候補タグを関連付ける。
　意味属性とは、上記のように、当該文章を作成した者の意図や評価、価値判断を示す形態素の類型であり、「否定」や「疑問」、「要望」、「予想外」等の種類に対応したタグが該当の形態素に関連付けられる。
　ただし、この時点では構文解析が完了していないため、あくまでも暫定的な「意味候補」に過ぎず、確定的なものではない。
　図５においては、「ない」の形態素について「否定」の意味候補タグが付与されている。

　図５には表れていないが、形態素解析部12はシステム辞書記憶部18中の大小表現辞書26や感性表現辞書27を参照し、該当の形態素が含まれている場合には、「大／小」の種類に対応した事前タグとしての大小表現タグや「ポジティブ／ネガティブ」の種類に対応した事前タグとしての感性表現タグを付与する。
　なお、大小表現や感性表現は構文解析を待つまでもなく、その表現自体から内容が自明であるため、「大小候補」や「感性候補」ではなく、この時点で確定される。

　形態素の中には、一語で感性主題と感性表現（ポジティブ／ネガティブ）が同時に確定されるものが存在する。
　例えば、「エレガントな」という言葉が特定の商品分野において使用された場合、「感性主題＝デザイン」、「感性表現の種類＝ポジティブ」であることが特定できるため、予め感性主題辞書等に定義しておく。
　この結果、図６に示すように、「エレガントなシルエット」という文章が入力された際には、「エレガントな」の形態素解析結果中に、「デザイン」の感性主題タグと並んで、「ポジティブ」の感性表現タグが付与される。

　同様に、「高品質」という言葉からは「感性主題＝品質」、「感性表現の種類＝ポジティブ」が導き出せるため、予め感性主題辞書等に定義しておく。
　この結果、図７に示すように、「高品質な製品」という文章が入力された際には、「高品質」の形態素解析結果中に「品質」の感性主題タグと並んで、「ポジティブ」の感性表現タグが付与される。

　形態素解析を完了した形態素解析部12は、構文解析部13に解析結果を出力する。
　これを受けた構文解析部13は、各形態素を文節単位に結合させた後、各文節間の係り受け関係を特定する。
　この際、構文解析部13は、解析モデル記憶部21に格納された統計モデルを参照することにより、精度の高い構文解析を行うことができる。

　図８においては、「効果」、「が」、「ない」、「と」、「思う」の各形態素が、「効果が（文節ID:0）」、「ないと（文節ID:1）」、「思う（文節ID:2）」の３つの文節に集約されている。また、各文節IDの右横に係り先文節IDを併記することにより、文節間の係り受け関係が表現されている。具体的には、「効果が」←「ないと」←「思う」の係り受け関係が導き出されている。

　また構文解析部13は、インデックス生成手段としての機能を備えており、各文節中の形態素に関連付けられていた感性主題タグ及び意味候補タグを抽出し、これをインデックスとして記憶装置の別の領域に書き出す。
　図８においては、感性主題の「効能」がChunk0（文節０）に関連付けられていることを示す情報と、意味候補の「否定」がChunk1（文節１）に関連付けられていることを示す情報を含むインデックス40が生成されている。
　なお、文節中に大小表現タグや感性表現タグが付与された形態素が含まれている場合、構文解析部13はその存在を示す情報（タグの設定された文節及びタグの種類）もインデックス40中に記述する。

　図９は、構文解析部13の出力データに対して所定のグラフオブジェクト変換ツールを適用することにより、構文木として表現したものであり、各文節間の係り受け関係が木構造で表現されている。

　この時点で、同一の文節中に複数の名詞が連続して存在している場合、複合名詞マージ部14によって一つの形態素に連結される。
　例えば、図１０に示すように、「野村総合研究所は」の文節（Chunk0）には、「野村」、「総合」、「研究」、「所」の４つの名詞が連続的に存在しているため、複合名詞マージ部14により、「野村総合研究所（のむらそうごうけんきゅうしょ）」という一つの形態素に結合される。

　つぎに、意味属性抽出部15による意味属性抽出処理が実行される。
　ここで「意味属性抽出処理」とは、意味候補タグが設定された形態素を含む文節について意味属性ルールを適用することにより、「意味候補」が真に「意味属性」に値するか否かを確定することを意味している。

　まず意味属性抽出部15は、図１１に示すように、インデックス40を参照し、意味候補タグの設定された形態素を含む文節及び意味候補の種類を特定する。
　ここでは、文節１（Chunk1）に「否定」の意味候補タグが設定されている。

　つぎに意味属性抽出部15は、意味属性ルール記憶部22から意味候補「否定」用の意味属性ルールを取り出し、これを該当の構文木（各文節及び文節間の係り受け構造）に当てはめていく。
　すなわち、意味属性ルールには「適用条件」と「適用効果」の組合せが優先順位に従って多数登録されており、意味属性抽出部15は、意味候補タグが設定された形態素を含む文節と、各意味属性ルールの適用条件とを上から順番に比較していき、マッチした時点で当該意味属性ルールの適用効果に規定された処理を実行する。

　図においては、１番目の意味属性ルールにマッチした例が示されている。
　すなわち、この「NO.001」のルールの場合、適用条件は「掛かり先としての文節が、形容詞としての『ない（基本形）』を含んでいること」であるため、文節１（Chunk1）の「ないと」にマッチしている。

　そして、「NO.001」のルールの適用効果は「係り元の文節に『否定』の意味属性を付与すること」であるため、意味属性抽出部15はこれに従い、図１２に示すように、文節０（Chunk0）に「否定」の意味属性タグを付与する。
　同時に意味属性抽出部15は、インデックス40にも「否定」の意味属性タグが文節０に付与された旨の情報を追加する。
　なお、意味候補タグの設定された文節や当該文節と他の文節との係り受け構造が何れの意味属性ルールにもマッチしない場合には、意味候補のまま残されることとなる。

　なお、意味属性抽出部15は、上記のようにインデックス40を参照して意味候補タグの設定された文節を特定した上で、意味属性ルールを順に適用していく代わりに、意味属性ルール毎にインデックス40を参照して適用すべき文節を特定し、当該ルールの適合性を判定していくようにすることもできる。

　意味属性ルールは、実際にはJSONフォーマットに則って記述されている。
　因みに、図１１の「NO.001」のルールの場合、基準チャンク（否定の意味候補タグを含む文節）をインデックスから検索すること、適用条件として基準チャンク中に形容詞としての「ない」が含まれていること、適用効果として子チャンク（係り元の文節）に「否定」の意味属性タグを追加することが、JSONフォーマットに則って記述されている。

　また、図１１の「NO.002」のルールの場合、基準チャンク（否定の意味候補タグを含む文節）をインデックスから検索すること、適用条件として基準チャンク中に接尾辞としての「ない」が含まれていること、適用効果として基準チャンク自体に「否定」の意味属性タグを追加することが、JSONフォーマットに則って記述されている。

　意味属性抽出部15は、意味属性ルールをJSONフォーマットのまま適用する代わりに、JSONフォーマットのルールをルールジェネレータに通すことでグラフオブジェクトの操作ロジックに変換した後、これをコンパイラにかけて実行可能なバイナリデータ化した上で適応することもできる。
　このように、各ルールを実行可能なバイナリデータにし、プログラムのコードとして取り込むようにすることにより、ルールの適合性判定処理の高速化を図ることができる。

　つぎに、感性分析部16による感性分析処理が実行される。
　ここで「感性分析処理」とは、構文木に含まれる個々の文節または文節間の係り受け構造に対して感性分析ルールを適用することにより、当該文章の感性主題についてポジティブ（肯定的）またはネガティブ（否定的）の感性属性を特定する処理を意味している。

　まず感性分析部16は、図１３に示すように、インデックス40を参照し、当該構文木に設定された感性主題タグの種類と、その文節を特定する。
　ここでは、文節０（Chunk0）に「効能」の感性主題が設定されている。

　つぎに感性分析部16は、感性分析ルール記憶部23から「効能」用の感性分析ルールを取り出し、これを該当の構文木に当てはめていく。
　すなわち、感性分析ルールには「適用条件」と「適用効果」の組合せが優先順位に従って多数登録されている。

　「適応条件」としては、感性主題タグが設定された文節と他の文節で所定のタグ（感性表現タグ、大小表現タグ、意味属性タグ）が設定されたものとの間の係り受け関係を指定する情報、あるいは感性主題タグが設定された文節自体に所定のタグ（感性表現タグ、大小表現タグ、意味属性タグ）が重ねて設定されていることを指定する情報が規定されている。
　また「適応効果」としては、ポジティブまたはネガティブの感性属性タグを付与すべき文節を指定する情報が規定されている。

　感性分析部16は、対象となる文節または文節間の係り受け構造と各感性分析ルールとを上から順番に比較していき、マッチした時点で当該感性分析ルールの適用効果で指定された処理を実行する。
　図においては、上から６番目の感性分析ルールにマッチした例が示されている。
　すなわち、この「NO.006」のルールの場合、適用条件は「効能の感性主題タグが設定されると共に、否定の意味属性タグが設定されている文節」であるため、文節０（Chunk0）にマッチしている。

　この「NO.006」のルールの適用効果は、「同文節にネガティブの感性属性タグを設定する」であるため、感性分析部16はこれに従い、図１４に示すように、文節０（Chunk0）に「ネガティブ」の感性属性タグを付与する。
　同時に感性分析部16は、インデックス40にも「ネガティブ」の感性属性タグが文節０に付与された旨の情報を追加する。

　感性分析部16は、上記のようにインデックス40を参照して感性主題タグの設定された文節や感性表現タグ等の設定された文節を特定した上で、感性分析ルールを順に適用していく代わりに、感性分析ルール毎にインデックス40を参照して対象となる文節を特定し、当該ルールの適否を判定していくこともできる。

　この図１４に示された情報、すなわち各形態素の解析結果、文節間の係り受け構造（構文木）、各文節に付与されたタグ、インデックス40が、本システム10による分析結果29となる。
　すなわち、文節０（Chunk0）は「効能」の感性主題タグを備えた形態素を含んでおり、当該文節０には「ネガティブ」の感性属性タグが設定されているため、「効果がないと思う」という文章について、「効能についてネガティブな意見の文章である」という分析結果が示されたことを表している。
　多数の文章（アンケート文等）についてこのような感性分析を施すことにより、特定の商品やサービスに対するエンドユーザの意見や評価を集計することが可能となる。

　図１５は、「設定を変更するにはどうしたらよいか」という文章が入力された場合の、形態素解析及び構文解析結果を示すものである。
　図示の通り、インデックス40には「操作性」の感性主題タグが文節０（Chunk0）に設定されている旨と、「疑問」の意味候補タグが文節２（Chunk2）に設定されている旨が記述されている。

　これに対し意味属性抽出部15は、意味属性ルール記憶部22から疑問用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。

　図１６は、ある意味属性ルールの適用結果を示すものであり、文節２（Chunk2）に「疑問」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
　因みに、この意味属性ルールの適用条件及び適用効果は、以下の通りである。
［適用条件］：
(1) 副詞の「どう」に「意味候補：疑問」が設定されていること。
　　(2) 「どう」の後に動詞の「する（基本形）」が続くこと。
［適用効果］：
　　当該文節に「疑問」の意味属性タグを付与する。

　この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みたが、マッチするルールが存在しなかったため、感性属性タグ（ポジティブ／ネガティブ）の設定は見送られた。
　このため、図１６に示したものが、「設定を変更するにはどうしたらよいか」の文章に対する最終的な分析結果となる。

　この場合、感性主題「操作性」に対するエンドユーザの最終的な評価、すなわち「操作性が良い／操作性が悪い」を抽出することはできていないが、少なくとも操作性に対する疑問を抽出することができているため、このアウトプットは操作性の改善点を探索する目的に利用できる。

　図１７は、「操作が分かりにくい」という文章が入力された場合の、形態素解析及び構文解析結果を示すものである。
　図示の通り、インデックス40には「感性主題：操作性」が文節０（Chunk0）に設定されている旨と、「困難」の意味候補タグが文節１（Chunk1）に設定されている旨が記述されている。

　これに対し意味属性抽出部15は、意味属性ルール記憶部22から困難用の意味属性ルールを取り出し、各意味属性ルールの適用条件を順に当該文章の構文木に当てはめていく。そして、適合した時点で意味属性抽出部15は、当該意味属性ルールの適用効果に規定された処理を実行する。

　図１８は、ある意味属性ルールの適用結果を示すものであり、文節１（Chunk1）に「困難」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
　この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
［適用条件］：
(1) 動詞の形態素が存在すること。
　 (2) 動詞の後に「にくい（基本形の読み）」が続くこと。
［適用効果］：
　　当該文節に「困難」の意味属性タグを付与する。

　この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みる。
　ここでは、ある感性分析ルールの適用条件がマッチした結果、図１９に示すように、その適用効果に従い、文節０（Chunk0）に「ネガティブ」の感性属性タグが設定されている。

　この感性分析ルールの適用条件及び適用効果は、例えば以下の通りである。
［適用条件］：
　　「わかる（基本形の読み）」の形態素が存在すること。
［適用効果］：
　　係り元の文節（child chunk）に「ネガティブ」の感性属性タグを付与する。

　上記においては、このシステム10を日本語で記述された文章の分析に適用した例を示したが、このシステム10を英語や中国語等、日本語以外の言語で記述された文章について適用することも可能である。
　そのためには、各言語対応の形態素解析部12、構文解析部13、複合名詞マージ部14、単語辞書24、意味属性辞書25、大小表現辞書26、感性表現辞書27、感性主題辞書、ユーザ辞書、解析モデル、意味属性ルール、感性分析ルールを予め準備しておく。
　以下においては、英語で記述された文章の解析例を示す。

　図２０は、「How can I change the settings?」という英文が入力された場合の、形態素解析及び構文解析結果を示すものである。
　図示の通り、インデックス（index）40には、「操作性（operability）」の感性主題（Sentimental theme）タグが文節３（Chunk3）に設定されている旨と、「疑問（question）」の意味候補（Meaning-candidate）タグが文節０（Chunk0）に設定されている旨が記述されている。

　図２１は、ある意味属性ルールの適用結果を示すものであり、文節０（Chunk0）に「疑問（question）」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
　この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
［適用条件］：
　Wh-adberb(pos:WRB)がVerb(Cat:V)に係っていること。
［適用効果］：
　係り元に疑問の意味属性タグを付与する。

　この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みたが、マッチするルールが存在しなかったため、感性属性タグ（ポジティブ／ネガティブ）の設定は見送られた。
　このため、図２１に示したものが、「How can I change the settings?」の英文に対する最終的な分析結果となる。

　図２２は、「It is hard to operate.」という英文が入力された場合の、形態素解析及び構文解析結果を示すものである。
　図示の通り、インデックス（index）40には「操作性（operability）」の感性主題（Sentimental theme）タグが文節３（Chunk3）に設定されている旨と、「困難（difficult）」の意味候補（Meaning-candidate）タグが文節２（Chunk2）に設定されている旨が記述されている。

　図２３は、ある意味属性ルールの適用結果を示すものであり、文節２（Chunk2）に「困難（difficult）」の意味属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
　この意味属性ルールの適用条件及び適用効果は、例えば以下の通りである。
［適用条件］：
　「難しい」を表す形容詞（JJ）が存在すること。
［適用条件］：
　　当該チャンクに困難の意味属性タグを付与する。

　この意味属性抽出部15からのアウトプットに対しては、感性分析部16が感性主題「操作性」に係る感性分析ルールの適用を試みる。
　ここでは、ある感性分析ルールの適用条件がマッチした結果、図２４に示すように、その適用効果に従い、文節３（Chunk3）に「否定（Negative）」の感性属性タグが設定されると共に、インデックス40にもその旨の情報が追加されている。
　この感性分析ルールの適用条件及び適用効果は、例えば以下の通りである。
［適用条件］：
　　(1) 親Chunkに困難（difficult）の意味属性タグが存在すること。
　　(2) 子ChunkにTo＋動詞（VB）があること。
［適用効果］：
　　子Chunkにネガティブの感性属性タグを付与する。

この発明に係る文章解析システムの機能構成を示すブロック図である。意味属性辞書の登録例を示す図である。大小表現辞書及び感性表現辞書の登録例を示す図である。感性主題辞書の登録例を示す図である。形態素解析部からの出力データを例示する図である。単語レベルで感性主題と感性表現が確定できる場合を例示する図である。単語レベルで感性主題と感性表現が確定できる場合を例示する図である。構文解析部からの出力データを例示する図である。構文解析部からの出力データを構文木として表現した例を示す図である。複合名詞マージ部の処理内容を示す図である。意味属性ルールの適用例を示す図である。意味属性ルールの適用効果を示す図である。感性属性ルールの適用例を示す図である。感性属性ルールの適用効果を示す図である。実施例１における構文木を示す図である。実施例１における意味属性ルールの適用効果を示す図である。実施例２における構文木を示す図である。実施例２における意味属性ルールの適用効果を示す図である。実施例２における感性分析ルールの適用効果を示す図である。実施例３における構文木を示す図である。実施例３における意味属性ルールの適用効果を示す図である。実施例４における構文木を示す図である。実施例４における意味属性ルールの適用効果を示す図である。実施例４における感性分析ルールの適用効果を示す図である。

10　　文章解析システム
12　　形態素解析部
13　　構文解析部
14　　複合名詞マージ部
15　　意味属性抽出部
16　　感性分析部
17　　設定ファイル
18　　システム辞書記憶部
19　　感性主題辞書記憶部
20　　ユーザ辞書記憶部
21　　解析モデル記憶部
22　　意味属性ルール記憶部
23　　感性分析ルール記憶部
24　　単語辞書
25　　意味属性辞書
26　　大小表現辞書
27　　感性表現辞書
28　　テキストファイル
29　　分析結果
40　　インデックス

Claims

　入力された文章を形態素単位に分解する手段と、
　特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段と、
　　各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段と、
　事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段と、
　特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段と、
　上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段と、
　を備えたことを特徴とする文章解析システム。
　上記属性辞書の少なくとも一つが、特定の形態素と意味属性の種類との対応関係を規定した意味属性辞書であり、
　上記事前タグ設定手段により、該当の形態素に事前タグとしての意味候補タグが設定され、
　上記インデックスには、上記インデックス生成手段により、意味候補タグを含む文節の特定情報と当該意味候補タグの種類との組合せが記録され、
　上記判定ルール記憶手段には、特定種類の意味候補タグを含む文節を少なくとも指定する適用条件と、意味属性タグ設定先の文節及び設定する意味属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
　上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の意味属性タグを設定することを特徴とする請求項１に記載の文章解析システム。
　上記属性辞書の少なくとも一つが、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書であり、
　上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグが設定され、
　上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せが記録され、
　上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる意味属性タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
　上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項２に記載の文章解析システム。
　上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と大小表現の種類との対応関係を規定した大小表現辞書を少なくとも備えており、
　上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び大小表現タグが設定され、
　上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、大小表現タグを含む文節の特定情報と当該大小表現の種類との組合せが記録され、
　上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる大小表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
　上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項１に記載の文章解析システム。
　上記属性辞書として、特定の形態素と感性主題の種類との対応関係を規定した感性主題辞書と、特定の形態素と感性表現の種類との対応関係を規定した感性表現辞書を少なくとも備えており、
　上記事前タグ設定手段により、該当の形態素に事前タグとしての感性主題タグ及び感性表現タグが設定され、
　上記インデックスには、上記インデックス生成手段により、感性主題タグを含む文節の特定情報と当該感性主題タグの種類との組合せと、感性表現タグを含む文節の特定情報と当該感性表現タグの種類との組合せが記録され、
　上記判定ルール記憶手段には、特定種類の感性主題タグを含む文節、及び当該文節または他の文節に含まれる感性表現タグの種類を指定する適用条件と、感性属性タグ設定先の文節及び設定する感性属性タグの種類を指定する適用効果との組合せからなる判定ルールが格納されており、
　上記判定手段は、上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の感性属性タグを設定することを特徴とする請求項１または４に記載の文章解析システム。
　コンピュータを、
　入力された文章を形態素単位に分解する手段、
　特定の形態素と属性の種類との対応関係を規定した属性辞書を参照して、該当の形態素に事前タグを設定する事前タグ設定手段、
　各形態素を文節単位に集約させると共に、各文節間の係り受け関係を特定する構文解析手段、
　事前タグを含む文節の特定情報と当該事前タグの種類との組合せが記録されたインデックスを生成するインデックス生成手段、
　特定種類の事前タグを含む文節を少なくとも指定する適用条件と、属性タグ設定先の文節及び設定する属性タグの種類を指定する適用効果との組合せからなる判定ルールを、複数格納した判定ルール記憶手段、
　上記インデックス及び上記判定ルール記憶手段を参照し、適用条件が当該文章にマッチする判定ルールが存在する場合には、その適用効果で指定された文節に指定された種類の属性タグを設定する判定手段、
　として機能させることを特徴とする文章解析プログラム。