WO2013161510A1 - 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ - Google Patents

評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ Download PDF

Info

Publication number
WO2013161510A1
WO2013161510A1 PCT/JP2013/059472 JP2013059472W WO2013161510A1 WO 2013161510 A1 WO2013161510 A1 WO 2013161510A1 JP 2013059472 W JP2013059472 W JP 2013059472W WO 2013161510 A1 WO2013161510 A1 WO 2013161510A1
Authority
WO
WIPO (PCT)
Prior art keywords
evaluation
sentence
degree
expression
computer
Prior art date
Application number
PCT/JP2013/059472
Other languages
English (en)
French (fr)
Inventor
博 金山
拓真 村上
大介 宅間
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
日本アイ・ビー・エム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション, 日本アイ・ビー・エム株式会社 filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to CN201380021425.4A priority Critical patent/CN104272301B/zh
Priority to JP2014512437A priority patent/JP5607859B2/ja
Priority to DE112013002187.0T priority patent/DE112013002187T5/de
Publication of WO2013161510A1 publication Critical patent/WO2013161510A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to information processing technology, and more particularly to technology that supports reputation analysis using information processing.
  • the present invention has been made in view of such problems, and one of its purposes is to analyze a large amount of review texts in order to efficiently analyze the review texts with limited time and resources.
  • the object is to provide a technique for efficiently extracting a part of review texts to be referred to by a person (analyst).
  • the present invention is a method for extracting a part of a sentence from a plurality of sentences by a computer, the step of primarily evaluating the degree of positive expression and the degree of negative expression of each sentence, Secondary evaluation of each sentence based on a plurality of evaluation functions using the degree of positive expression and the degree of negative expression as variables, and sentences having higher evaluation results based on the same evaluation function And extracting a sentence with priority over a sentence having a lower evaluation result.
  • one of the partial evaluation functions may be a function that outputs a higher evaluation result with respect to sentences that include positive and negative expressions on average.
  • the following formula can be adopted for this function. p + n C p ⁇ p (1 ⁇ ) n ⁇ (p + n): where ⁇ is a popular rate in all documents.
  • the sum of the positive expression level and the negative expression level, or the difference between the positive expression level and the negative expression level can be selected.
  • the degree of the positive expression and the degree of the negative expression are primarily evaluated based on the number of positive expressions and the number of negative expressions included in each sentence. You can also.
  • sentences of each evaluation result based on different evaluation functions can be extracted based on a predetermined order.
  • it may further include a step of outputting the extracted sentence to the user.
  • a step of outputting the extracted sentence it is possible to output to the user whether the extracted sentence is extracted based on the evaluation result of which evaluation function.
  • the positive expression and the negative expression in the extracted sentence can be output in different expression forms.
  • FIG. 1 is a conceptual diagram illustrating a review site system.
  • This system includes a review site server 2 and a user terminal, which are connected to each other via the Internet 4 so as to communicate with each other.
  • the user terminal any form of computer having a communication function can be adopted.
  • a personal data assistant PDA, personal digital assistant
  • on-vehicle computer netbook, etc. (not shown) can be employed. .
  • FIG. 2 explains the data structure of data stored in the hard disk devices 20 and 21 in the review site server 2.
  • a transmission date / time create create (created_at) indicating the date / time when each review text was transmitted / posted
  • a review ID (id) for identifying each review
  • It includes a user ID (user_id) that identifies the user who sent the review, and text that is the content of the review.
  • the user table (FIG. 2B) stored in the hard disk device 21 includes a user ID (user_id) for identifying the user, the gender, age, and residence (location) of the user. ) To identify each. In addition, you may add ID which specifies the product and service of review object to review ID.
  • FIG. 3 is a block diagram illustrating the hardware configuration of the personal computer 1.
  • the hardware configuration of the computer 1 includes a (low-speed and high-speed) bus 10, a CPU (arithmetic control device) 11 connected to the bus 10, a RAM (random access memory: storage device) 12, a ROM (read-only memory).
  • a memory (storage device) 13, an HDD (hard disk drive: storage device) 14, a communication interface 15, and an input / output interface 16 are provided.
  • a mouse 17 connected to the input / output interface 16, a flat panel display (display device) 18, a keyboard 19 and the like are provided.
  • the computer 1 has been described as adopting a general personal computer architecture, for example, the CPU 11 and the HDD 14 can be multiplexed in order to obtain higher data processing capability and availability. In addition to the desktop type, various types of computer systems can be employed.
  • the software configuration of the computer 1 includes an operating system (OS) that provides basic functions, application software that uses the functions of the OS, and driver software for input / output devices. These pieces of software are loaded onto the RAM 12 together with various data and executed by the CPU 11 or the like, and the computer 1 functions as a functional module shown in FIG. 4 as a whole and executes the processing shown in FIG.
  • OS operating system
  • driver software driver software for input / output devices.
  • FIG. 4 is a functional block diagram illustrating functional modules of the computer 1 according to the embodiment.
  • the computer 1 functions as a primary evaluation module 101, a secondary evaluation module 102, an extraction module 103, and an output module 104.
  • FIG. 5 is a flowchart for explaining processing executed by the computer 1.
  • FIG. 6 is a conceptual diagram for explaining steps S101 to S103 in the flowchart of FIG.
  • the computer 1 obtains a plurality of review sentences D (1) to D (N) each including a specific proper noun (herein referred to as PPP) (S101).
  • N is a sufficiently large value that it is difficult to display a list of review texts.
  • the condition is transmitted from the computer 1 to the review site server 2.
  • a condition for example, it is possible to attach a condition that the proper noun PPP is included in the review text and the transmitted period is within a specified period.
  • the computer 1 receives from the review site server 2 data of a review text group that meets the above conditions.
  • the review group data (see FIG. 2A) that meets the above conditions and the user profile associated with the review (see FIG. 2B) are received. These received data are stored in the HDD 14 of the computer 1. Further, the review may be sequentially sent from the review site server 2 to the computer 1 until the period includes the future and the end of the period comes. As a different aspect, a large amount of review sentence group data (see FIG. 2A) and a user profile (see FIG. 2B) associated with the review sentence are stored in advance in the HDD 14 of the computer 1. In some cases, a review group that meets the above conditions can be searched from these data.
  • the primary evaluation module 101 performs primary evaluation on the degree of positive expression and the degree of negative expression of each review (step S101).
  • a list of words indicating favorable (positive expression) and a list of words / expressions indicating unfavorable (negative expression) are stored in the HDD 14 in advance, and the number of popularity (p) in each review sentence Count the unpopular number (n).
  • These evaluation words and expressions are preferably set in advance according to the product or service to be evaluated.
  • a score according to popularity for each popular word / expression and a score according to unpopularity for each unfavorable word / expression are set in advance, and primary evaluation is performed based on these scores. Can also be done.
  • each review text is secondarily evaluated by the secondary evaluation module 102 based on a plurality of evaluation functions (step S102).
  • evaluation function m1 p Evaluation function m2: p + n Evaluation function m3: p / (p + n) Evaluation function m4: pn Evaluation function m5: p + n C p ⁇ p (1- ⁇ ) n ⁇ (p + n), ⁇ is the percentage of favorable reviews in all reviews
  • each evaluation function is as follows. That is, the evaluation function m1 highly evaluates the review sentence D including many popular words.
  • the rating function 5 gives a higher rating for reviews that on average contain positive and negative words.
  • the density function of the P rate in k trials (k evaluation expressions) is obtained by squashing the density function of the binomial distribution B (k, ⁇ ) to 1 / k in the horizontal axis direction.
  • the probability that the P rate P x / (P x + N x ) due to the unfavorable numbers P x and N x of the document x is observed is used as an index of the evaluation expression of the document x.
  • the calculation of m C n takes time when m and n are large, and may be approximated by normal distribution or Poisson distribution as necessary.
  • FIG. 7 is a graph illustrating the evaluation functions m1, m2, and m5.
  • the number P of popular words is plotted on the vertical axis
  • the number N of unpopular words is plotted on the horizontal axis
  • each review sentence D is plotted on a mark x on the graph.
  • the contour line of the evaluation function m1 is represented by a thin line
  • the contour line of the evaluation function m2 is represented by a dotted line
  • the contour line of the evaluation function m5 is represented by a thick line.
  • the review text includes various reviews such as reviews with few evaluation expressions, reviews with dissatisfaction, etc., fan reviews with the evaluation function m1, reviews with many evaluation expressions with the evaluation function m2, and average opinions with the evaluation function m5 Shows that reviews with many evaluation expressions can be effectively separated.
  • K review sentences are extracted by the extraction module 103 (step S103).
  • Each review sentence D has five evaluation scores based on the evaluation functions m1 to m5.
  • the extraction module 103 sorts the review sentences in order from the sentence with the highest evaluation score for each evaluation function.
  • a review sentence having the highest evaluation score based on the evaluation function m5 is selected.
  • the review sentence having the second highest evaluation score by the evaluation function m1 the review sentence having the second highest evaluation score by the evaluation function m2, the review sentence having the second highest evaluation score by the evaluation function m3, and the evaluation score by the evaluation function m4
  • the review text that is the second highest, and the review text that is the second highest after the evaluation score by the evaluation function m5 are selected.
  • sentences are selected until K cases are reached.
  • FIG. 8 shows an example of the display screen. In this screen, some of the selected K review sentences are displayed. If you pay attention to the part surrounded by a thick square, the displayed review sentence will get a high evaluation score by which evaluation function. It is displayed so that you can see at a glance whether it has been selected.
  • the review text displayed at the top of the screen has a check mark in the columns m1, m2, and m5, and is displayed based on the evaluation results by the evaluation functions m1, m2, and m5. I understand. It is also possible to delete an evaluation function that the user does not need and add a new evaluation function. Furthermore, it is possible to display only the evaluation result based on a specific evaluation function. Furthermore, the evaluation result can be indicated more simply by an icon. Note that the output module 104 can also display the graph shown in FIG. 7 on the display 18.
  • the present invention may take the form of an entirely hardware embodiment, an entirely software embodiment or an embodiment containing both hardware and software elements.
  • the invention is implemented in software, including but not limited to firmware, resident software, microcode, parsing picocode, and the like.
  • the present invention can also take the form of a computer program or computer-readable medium comprising program code for use by or in connection with a computer or any instruction execution system.
  • a computer-readable medium is any apparatus that can contain, store, communicate, propagate, or transmit a program for use by or in connection with any instruction execution system, apparatus, or device. It can be.
  • the syntax analysis control module described above constitutes an instruction execution system or a computer in this sense.
  • the medium can be an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system (or apparatus or device) or a propagation medium.
  • Examples of computer readable media include semiconductor or solid state memory, magnetic tape, removable computer diskette, random access memory (RAM), read-only memory (ROM), rigid magnetic disk. And optical discs. Current examples of optical disks include compact disk read only memory (CD-ROM: compact disk read only memory), compact disk read / write (CD-R / W) memory, DVD Is included.
  • a data processing system suitable for storing and / or executing program code may include at least one processor coupled directly or indirectly to memory elements through a system bus. This memory element contains at least some of the local memory used in the actual execution of the program code, the bulk storage, and the number of times it must be read from the bulk storage during execution.
  • the program code can include a cache memory that provides temporary storage.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 限られた時間・リソースの下で、効率的にレビュー文章の分析を行うために、大量のレビュー文章の中から、人(分析者)が参照すべき一部のレビュー文章を効率よく抽出する技術を提供する。 コンピュータにより複数の文章から一部の文章を抽出する方法であり、 各文章の肯定的な表現の程度及び否定的な表現の程度を一次評価するステップと、 少なくとも一部は前記肯定的な表現の程度及び前記否定的な表現の程度を変数とする複数の評価関数に基づいて、各文章を二次評価するステップと、 同一の評価関数に基づいた各評価結果のより高い文章を前記評価結果のより低い文章よりも優先して文章を抽出するステップと を含む。

Description

評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ
 本発明は情報処理技術に関係し、より詳しくは、情報処理を用いて評判分析を支援する技術に係る。
 情報通信技術の進展と共に、より多くの人々がインタネットを介して、意見を共有する形態がみられる。例えば、通信販売サイトでは、商品の購入者がその商品のレビューをポストしたり、いわゆる口コミサイトでは、ある飲食店の利用者がそのレビューをポストしたりする形態が見られる。いずれも、サイトの利用者はそのレビューを自由に閲覧することができる。このようなレビュー機能、レビューサイトは、サイトの利用者にとって、将来の製品購入、サービス利用について指針を与える点で有用であるばかりでなく、製品やサービスの提供者にとっても、購入者・利用者の貴重なフィードバックを得ることができ、有用である。大量のレビュー文章から有用な知見を得るために、従来から様々な技術手法が提案されてきた(特許文献、非特許文献参照)。
特開2007-299071号公報 特表2004-514220号公報 特開平10-27181号公報 特開2006-146567号公報 再公表WO2009-060829号公報 再公表WO2008-075524号公報
Turney, P. D.「Thumbsup or thumbs down? Semanticorientation applied to unsupervised classificationofreviews」、ACL '02 Proceedings of the 40th AnnualMeetingon Association forComputational Linguistics、2002年7月、417-424p, Association for ComputationalLinguistics Stroudsburg発行
 ここで、人が大量のレビュー文章のすべてを読むのは非効率である。一方、レビュー文章の一部をランダムに読むのでは、有用なレビューを見落としてしまうリスクがある。
 本発明はこのような課題に鑑みてなされたものであり、その目的の一つは、限られた時間・リソースの下で、効率的にレビュー文章の分析を行うために、大量のレビュー文章の中から、人(分析者)が参照すべき一部のレビュー文章を効率よく抽出する技術を提供することにある。
 上記課題を解決するために、本発明者らは鋭意研究の結果、次のような発明に想到した。すなわち本発明は、コンピュータにより複数の文章から一部の文章を抽出する方法であり、各文章の肯定的な表現の程度及び否定的な表現の程度を一次評価するステップと、少なくとも一部は前記肯定的な表現の程度及び前記否定的な表現の程度を変数とする複数の評価関数に基づいて、各文章を二次評価するステップと、同一の評価関数に基づいた各評価結果のより高い文章を前記評価結果のより低い文章よりも優先して文章を抽出するステップとを含む方法である。
 ここで、前記一部の評価関数の一は、肯定的及び否定的な表現を平均的に含む文章に対してより高い評結果を出力する関数とすることができる。この関数は、具体的には、次の式を採用することができる。p+nCpαp(1-α)n× (p+n) :但し、αは全文書中の好評の割合である。
 他の評価関数としては、前記肯定的な表現の程度と前記否定的な表現の程度の和、前記肯定的な表現の程度と前記否定的な表現の程度の差を選択することもできる。
 また、前記一次評価するステップは、各文章に含まれる肯定的な表現の数及び否定的な表現の数に基づいて、前記肯定的な表現の程度及び否定的な表現の程度を一次評価することもできる。
 また、前記抽出するステップは、異なる評価関数に基づいた各評価結果の文章を予め定められた順序に基づいて抽出することもできる。
 また、前記抽出された文章をユーザに出力するステップを更に備えることもできる。この場合、前記抽出された文章がいずれの評価関数の評価結果に基づいて抽出されたのかを併せてユーザに出力することができる。さらに、前記抽出された文章中の前記肯定的な表現と前記否定的な表現とを相異なる表現形態で出力することもできる。
 本発明をこれらコンピュータ・プログラム、コンピュータ・システムとして把握した場合にも、上述した本発明を方法として把握した場合と実質的に同一の技術的特徴を備える事ができるのは当然である。
本発明によれば、大量のレビュー文書の中から人(分析者)が参照すべき一部のレビュー文章を効率よく抽出することができる。
レビューサイトシステムを説明する概念図 レビューサイト・サーバ内のハードディスク装置内に記憶されているデータのデータ構造の説明図 コンピュータのハードウェア構成を説明するブロック図 コンピュータの機能ブロック図 コンピュータが実行する処理を説明するフローチャート コンピュータが実行する処理の一部を説明する概念図 評価関数の意味を説明する概念図 出力画面の一例を示す図
 実施形態
 以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、本発明は多くの異なる態様で実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。また、実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須とは限らないことに留意されたい。実施の形態の説明の全体を通じて(特段の断りのない限り)同じ要素には同じ番号を付している。
 図1は、レビューサイトのシステムを説明する概念図である。本システムは、レビューサイト・サーバ2と、ユーザ端末とを含み、これらはインタネット4を介して互いに通信可能に接続されている。また、ユーザ端末としては、通信機能を備えたあらゆる形態のコンピュータを採用することができる。例えば、図示するスマートフォン31、タブレット32、(ノート型)パーソナル・コンピュータ33の他にも、図示しないパーソナル・データ・アシスタント(PDA、携帯情報端末)、車載コンピュータ、ネットブック等を採用することができる。
 図2は、レビューサイト・サーバ2内のハードディスク装置20、21内に記憶されているデータのデータ構造を説明するものである。ハードディスク装置20に記憶されているレビューテーブル(図2(a))には、各レビュー文章が発信・ポストされた日時を示す発信日時 (created_at)、各レビューを特定するレビューID(id)と、そのレビューを発信したユーザを特定するユーザID(user_id)と、レビューの内容であるテキスト(text)を備えている。一方、ハードディスク装置21に記憶されているユーザテーブル(図2(b))には、ユーザを特定するユーザID(user_id)と、そのユーザの性別(gender)、年齢(age)、居住地(location)をそれぞれ特定する情報を備えている。なお、なお、レビューIDにレビュー対象の製品やサービスを特定するIDを付加してもよい。
 図3は、パーソナル・コンピュータ1のハードウェア構成を説明するブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、様々なタイプのコンピュータ・システムを採用することができる。
 このコンピュータ1のソフトウェア構成は、基本的な機能を提供するオペレーティング・システム(OS)と、OSの機能を利用するアプリケーション・ソフトウェアと、入出力装置のドライバ・ソフトウェアとを備えている。これらの各ソフトウェアは、各種データと共にRAM12上にロードされ、CPU11等により実行され、コンピュータ1は全体として、図4に示す機能モジュールとして機能し、図5に示す処理を実行する。
 図4は、実施例に係るコンピュータ1の機能モジュールを説明する機能ブロック図である。コンピュータ1は、一次評価モジュール101、二次評価モジュール102、抽出モジュール103、出力モジュール104として機能する。
 図5は、このコンピュータ1が実行する処理を説明するフローチャートである。また、図6は、図5のフローチャートのステップS101からS103を説明する概念図である。まず、コンピュータ1が、それぞれに特定の固有名詞(ここではPPPと記す)が含まれる複数のレビュー文章D(1)~D(N)を入手する(S101)。なお、Nはレビュー文章の一覧表示が困難なほど、十分に大きな値である。具体的には、コンピュータ1からレビューサイト・サーバ2に対して、条件を送信する。条件としては、例えば、レビュー文章中に固有名詞PPPを含み、かつ発信された期間が指定期間内のもの、という条件を付けることができる。次に、コンピュータ1はレビューサイト・サーバ2から上記条件に適合するレビュー文章群のデータを受信する。この際、上記条件に適合するレビュー群のデータ(図2(a)参照)およびレビューに関連付けられるユーザのプロフィール(図2(b)参照)を受信する。これら受信したデータは、コンピュータ1のHDD14に記憶される。また、上記期間が将来を含み、上記期間の終期が到来するまで、逐次レビューサイト・サーバ2からコンピュータ1にレビューが送られてもよい。さらに異なる態様としては、予め、コンピュータ1のHDD14にレビュー文章群のデータ(図2(a)参照)およびレビュー文章に関連付けられるユーザのプロフィール(図2(b)参照)が大量に記憶されている場合には、これらのデータの中から、上記条件に適合するレビュー群を検索することもできる。
 次に、一次評価モジュール101により、各レビューの肯定的な表現の程度及び否定的な表現の程度を一次評価する(ステップS101)。ここでは、好評(肯定的な表現)を示すワードのリスト及び不評(否定的な表現)を示すワード・表現のリストを予めHDD14に記憶しておき、各レビュー文章中の好評数(p)と、不評数(n)とをカウントする。これらの評価ワード・表現は、評価対象の商品やサービスに応じて予め設定しておくことが好ましい。なお、この他にも、例えば、各好評ワード・表現に好評らしさに応じたスコア、各不評ワード・表現に不評らしさに応じたスコアをそれぞれ予め設定しておき、これらのスコアに基づいて一次評価を行うことも出来る。
 以下、化粧品に対するレビュー文章4件を一次評価した結果を示す。()で囲んだ部分が好評ワード・表現、<>で囲んだ部分が不評ワード・表現である。
レビュー文章1:好評5・不評0
(分量が多く)、(安い)ので(いいですね)!他のスキンケア商品との(相性もいい)ので(安心しています)
レビュー文章2:好評5・不評1
特に、(ニキビに悩んでいるのではないです)が、(価格も手ごろ)だったので購入。(刺激も少なく)、若いうちには(良いと思います)。現在は、乾燥肌なので、化粧水などつけたとしても<潤いが不足します>…よって、現在は使用していません。ニキビに悩んでいる方の使用も(良さそう)です。
レビュー文章3:好評4・不評1
肌荒れ、ニキビに(安心して使えます)。普段は拭き取り化粧水を使っています。軽く顔にすべらせたあとパッティングします。ニキビができているところに多めに使うと、たしかに(よくなります)。潤いに関しては乾燥肌の方には<物足りないかもしれません>が、脂性肌の私には(ちょうどいい)です。(便利な化粧水です)。
レビュー文章4:好評2・不評3
<あまり効果判りません>。ニキビや吹き出物も最近は出来ないので<必要性を感じません>。肌にヒリヒリを感じたことは無いので、拭き取り用として使ってはいます。リピーと購入は<微妙かな>?でもお値段が(安く)て(いい)??
 次に、二次評価モジュール102により、複数の評価関数に基づいて、各レビュー文章を二次評価する(ステップS102)。ここでは、以下の5つの評価関数を用いている。評価関数m1: p
評価関数m2: p+n
評価関数m3: p/(p+n)
評価関数m4: p-n
評価関数m5: p+nCpαp(1-α)n× (p+n)、αは全レビュー中の好評の割合
 各評価関数の意味は、以下の通りである。すなわち、評価関数m1は、好評ワードを多く含むレビュー文章Dを高く評価する。評価関数m2は、好評・不評にかかわらず評価ワードを多く含むレビューを高く評価する。評価関数m3は、評価ワードのうち好評ワードの割合が高いレビューを高く評価する。評価関数m4は、不評ワードを最小限に、好評ワードの多いレビューを高く評価する。評価関数5は平均的に好評及び不評ワードを含むレビューをより高く評価する。さらに、評価関数m5は、以下のような背景で決定したものである。全文書中の評価表現の出現をP率 α=P/(P+N) のベルヌーイ試行と考える。ここで、P、Nはそれぞれ全文書中の好評数、不評数とする。k回の試行(k個の評価表現)でのP率の密度関数は、二項分布B(k,α) の密度関数を横軸方向に 1/k につぶした形になる。その分布において、文書xの好不評数Px、NxによるP率 Px/(Px+Nx)が観測される確率を文書xの評価表現の指標とする。なお、mCの計算は、m、nが大きいと時間がかかるため、必要に応じて正規分布、ポアソン分布で近似しても良い。
 図7は、評価関数m1,m2,m5を説明するグラフである。この二次元グラフは、縦軸に好評ワードの数Pを、横軸に不評ワードの数Nをとり、各レビュー文章Dをグラフ上の印×にプロットしたものである。さらに、評価関数m1の等高線を細線で、評価関数m2の等高線を点線で、評価関数m5の等高線を太線でそれぞれ表している。レビュー文章には評価表現の少ないレビュー、不満のレビュー等様々なものが含まれるが、評価関数m1によりファンのレビューを、評価関数m2により評価表現の多いレビューを、評価関数m5により平均的な意見で評価表現の多いレビューをそれぞれ効果的に切り分けることができることを示している。
 次に、抽出モジュール103により、K件のレビュー文章が抽出される(ステップS103)。各レビュー文章Dには、評価関数m1~m5による評価スコアが5つ付されている。抽出モジュール103は、評価関数毎に、最も評価スコアの高い文章から順に、各レビュー文章をソートする。そして、評価関数m1による評価スコアの最も高いレビュー文章、評価関数m2による評価スコアの最も高いレビュー文章、評価関数m3による評価スコアの最も高いレビュー文章、評価関数m4による評価スコアの最も高いレビュー文章、評価関数m5による評価スコアの最も高いレビュー文章(重複を廃して高々5件)を選択する。次に、評価関数m1による評価スコアの次に高いレビュー文章、評価関数m2による評価スコアの次に高いレビュー文章、評価関数m3による評価スコアの次に高いレビュー文章、評価関数m4による評価スコアの次に高いレビュー文章、評価関数m5による評価スコアの次に高いレビュー文章を(重複を廃して高々5件)選択する。以下同様に、K件に達するまで文章の選択を行う。
 次に、出力モジュール104により、選択済みのK件のレビュー文章をディスプレイ18上に表示させる(ステップS104)。図8は、表示画面の一例を示すものである。この画面には、選択されたK件のレビュー文章の一部が表示されており、太い四角で囲んだ部分に注目すると、表示されているレビュー文章が、どの評価関数で高い評価スコアを獲得して選択されたのかが一目で分かるように表示されている。例えば、画面の一番上に表示されているレビュー文章は、m1、m2、m5の欄にチェックマークが付してあり、評価関数m1、m2、m5による評価結果に基づいて表示されていることが分かる。また、ユーザが不要と思う評価関数を消去し、新たな評価関数を追加することもできる。さらに、特定の評価関数による評価結果のみを表示させることもできる。さらに、評価結果をアイコンでより簡易に示すことも出来る。なお、出力モジュール104は、図7に示したグラフをディスプレイ18上に表示させることもできる。
 このような処理を行うことで、好評の意見を持つレビュー文書を偏りなく取り出すことができる。すなわち、K件の中に、好評の意見だけのもの、不評も言及しているもの、などを含めることができる。その結果、ユーザ(分析者)が読み切れる量、または画面に一覧表示できる量の範囲内で、ユーザが本当に把握したい好評の情報にアクセスできる可能性が向上する。また、表示の際に、一次元の整序ではないことを分析者が直感的に理解することができる。さらに、興味のあるタイプの文書を重点的に参照することができる。
 なお、本発明は、全体がハードウェアの実施形態、全体がソフトウェアの実施形態、またはハードウェアおよびソフトウェア両方のエレメントを包含する実施形態の形を取ることができる。ある好適な実施形態において、本発明は、以下に限らないが、ファームウェア、常駐ソフトウェア、マイクロコード、構文解析ピココードなどを含めた、ソフトウェアに実装される。
 さらに、本発明は、コンピュータまたは任意の命令実行システムによってまたはこれに関連させて使用するプログラム・コードを備えるコンピュータ・プログラム、コンピュータ可読媒体の形態を採ることもできる。本説明目的の上で、コンピュータ可読媒体は、任意の命令実行システム、装置、またはデバイスによってまたはこれに関連させて使用するためのプログラムを、収容、格納、通信、伝搬、または伝送できる任意の装置であり得る。具体的には、前述の構文解析制御モジュールは、この意味で命令実行システム、またはコンピュータを構成する。
 媒体は、電子的、磁気的、光学的、電磁気的、赤外的、または半導体のシステム(もしくは装置もしくはデバイス)または伝搬媒体とすることができる。コンピュータ可読媒体の例には、半導体または固体メモリ、磁気テープ、着脱可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read-only memory)、剛体磁気ディスク、および光ディスクが含まれる。光ディスクの現時点での例には、コンパクト・ディスク読み取り専用メモリ(CD-ROM:compact disk read only memory)、コンパクト・ディスク読み取り/書き込み(CD-R/W:compact disk read/write)メモリ、およびDVDが含まれる。
 プログラム・コードを格納もしくは実行またはその両方を行うのに適したデータ処理システムは、システム・バスを介して直接的または間接的にメモリ・エレメントに連結された少なくとも一つのプロセッサを含み得る。このメモリ・エレメントには、プログラム・コードの実際の実行の過程で使われるローカル・メモリ、バルク記憶装置、および、実行中にバルク記憶装置から読み出さねばならない回数を低減するために、少なくとも一部のプログラム・コードに一時的保管を提供するキャッシュ・メモリを含めることができる。
1…パーソナル・コンピュータ、
11…CPU(演算制御装置)
12…RAM(ランダム・アクセス・メモリ:記憶装置)
13…ROM(リード・オンリ・メモリ:記憶装置)
14…HDD(ハード・ディスク・ドライブ:記憶装置)
15…通信インタフェース
16…入出力インタフェース
17…マウス
18…フラット・パネル・ディスプレイ(表示装置)
2…レビューサイト・サーバ
20、21…ハード・ディスク・ドライブ
31…スマートフォン
32…タブレット
33…(ノート型)パーソナル・コンピュータ
101…一次評価モジュール
102…二次評価モジュール
103…抽出モジュール
104…出力モジュール

Claims (12)

  1.  コンピュータにより複数の文章から一部の文章を抽出する方法であり、
     各文章の肯定的な表現の程度及び否定的な表現の程度を一次評価するステップと、
     少なくとも一部は前記肯定的な表現の程度及び前記否定的な表現の程度を変数とする複数の評価関数に基づいて、各文章を二次評価するステップと、
     同一の評価関数に基づいた各評価結果のより高い文章を前記評価結果のより低い文章よりも優先して文章を抽出するステップと
     を含む方法。
  2.  前記一部の評価関数の一は、肯定的及び否定的な表現を平均的に含む文章に対してより高い評結果を出力する関数である請求項1に記載の方法。
  3.  前記一部の評価関数の一は、p+nCpαp(1-α)n
    ×(p+n):pは肯定的な表現数、nは否定的な表現数、αは全文書中の好評の割合、で与えられる請求項1に記載の方法。
  4.  前記一部の評価関数の一は、前記肯定的な表現の程度と前記否定的な表現の程度の和である請求項1に記載の方法。
  5.  前記一部の評価関数の一は、前記肯定的な表現の程度と前記否定的な表現の程度の差である請求項1に記載の方法。
  6.  前記一次評価するステップは、各文章に含まれる肯定的な表現の数及び否定的な表現の数に基づいて、前記肯定的な表現の程度及び否定的な表現の程度を一次評価する請求項1に記載の方法。
  7.  前記抽出するステップは、異なる評価関数に基づいた各評価結果の文章を予め定められた順序に基づいて抽出する請求項1に記載の方法。
  8.  前記抽出された文章をユーザに出力するステップを更に備える請求項1に記載の方法。
  9.  前記出力するステップでは、前記抽出された文章がいずれの評価関数の評価結果に基づいて抽出されたのかを併せてユーザに出力する請求項8に記載の方法。
  10.  前記出力するステップでは、前記抽出された文章中の前記肯定的な表現と前記否定的な表現とを相異なる表現形態で出力する請求項8に記載の方法。
  11.  コンピュータに請求項1に記載の方法の各ステップを実行させるコンピュータ・プログラム。
  12.  複数の文章から一部の文章を抽出するコンピュータであり、
     各文章の肯定的な表現の程度及び否定的な表現の程度を一次評価する手段と、
     少なくとも一部は前記肯定的な表現の程度及び前記否定的な表現の程度を変数とする複数の評価関数に基づいて、各文章を二次評価する手段と、
     同一の評価関数に基づいた各評価結果のより高い文章を前記評価結果のより低い文章よりも優先して文章を抽出する手段と
     を含むコンピュータ。
PCT/JP2013/059472 2012-04-25 2013-03-29 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ WO2013161510A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201380021425.4A CN104272301B (zh) 2012-04-25 2013-03-29 用于提取一部分文本的方法、计算机可读介质和计算机
JP2014512437A JP5607859B2 (ja) 2012-04-25 2013-03-29 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ
DE112013002187.0T DE112013002187T5 (de) 2012-04-25 2013-03-29 Verfahren zum Klassifizieren von Texteinheiten auf der Grundlage von Bewertungsgegensätzen, Computerprogrammprodukt und Computer dafür

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012100288 2012-04-25
JP2012-100288 2012-04-25

Publications (1)

Publication Number Publication Date
WO2013161510A1 true WO2013161510A1 (ja) 2013-10-31

Family

ID=49478065

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/059472 WO2013161510A1 (ja) 2012-04-25 2013-03-29 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ

Country Status (5)

Country Link
US (1) US9740681B2 (ja)
JP (1) JP5607859B2 (ja)
CN (1) CN104272301B (ja)
DE (1) DE112013002187T5 (ja)
WO (1) WO2013161510A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095919A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020091730A (ja) * 2018-12-06 2020-06-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234090A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd 最新評判情報通知プログラム、記録媒体、装置及び方法
JP2009510637A (ja) * 2005-09-30 2009-03-12 グーグル インコーポレイテッド 表示のための高品質レビューの選択
JP2011085986A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1027181A (ja) 1996-07-11 1998-01-27 Fuji Xerox Co Ltd 文書評価装置
JP2002140465A (ja) 2000-08-21 2002-05-17 Fujitsu Ltd 自然文処理装置及び自然文処理用プログラム
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US7058566B2 (en) * 2001-01-24 2006-06-06 Consulting & Clinical Psychology, Ltd. System and method for computer analysis of computer generated communications to produce indications and warning of dangerous behavior
US7149804B2 (en) * 2001-04-30 2006-12-12 Sony Computer Entertainment America Inc. Method and system for providing evaluation of text-based products
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
JP2007299071A (ja) 2006-04-27 2007-11-15 Fuji Xerox Co Ltd 評判情報処理システム、評判情報処理方法及び評判情報処理プログラム
US20100017391A1 (en) 2006-12-18 2010-01-21 Nec Corporation Polarity estimation system, information delivery system, polarity estimation method, polarity estimation program and evaluation polarity estimatiom program
US7996210B2 (en) * 2007-04-24 2011-08-09 The Research Foundation Of The State University Of New York Large-scale sentiment analysis
US20080288481A1 (en) * 2007-05-15 2008-11-20 Microsoft Corporation Ranking online advertisement using product and seller reputation
US8280885B2 (en) * 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
JP5229504B2 (ja) 2007-11-05 2013-07-03 日本電気株式会社 広告提示方法、広告提示システム及びプログラム
US20100318526A1 (en) * 2008-01-30 2010-12-16 Satoshi Nakazawa Information analysis device, search system, information analysis method, and information analysis program
US8117207B2 (en) * 2008-04-18 2012-02-14 Biz360 Inc. System and methods for evaluating feature opinions for products, services, and entities
WO2010036012A2 (ko) * 2008-09-23 2010-04-01 주식회사 버즈니 인터넷을 이용한 의견 검색 시스템, 의견 검색 및 광고 서비스 시스템과 그 방법
JP4683394B2 (ja) * 2008-09-26 2011-05-18 Necビッグローブ株式会社 情報処理装置、情報処理方法およびプログラム
JP5359399B2 (ja) * 2009-03-11 2013-12-04 ソニー株式会社 テキスト分析装置および方法、並びにプログラム
US20110082687A1 (en) * 2009-10-05 2011-04-07 Marcelo Pham Method and system for taking actions based on analysis of enterprise communication messages
US8990124B2 (en) * 2010-01-14 2015-03-24 Microsoft Technology Licensing, Llc Assessing quality of user reviews
CN102163189B (zh) * 2010-02-24 2014-07-23 富士通株式会社 从评论性文本中提取评价性信息的方法和装置
US8402035B2 (en) * 2010-03-12 2013-03-19 General Sentiment, Inc. Methods and systems for determing media value
US20110320542A1 (en) * 2010-06-28 2011-12-29 Bank Of America Corporation Analyzing Social Networking Information
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
US8650023B2 (en) * 2011-03-21 2014-02-11 Xerox Corporation Customer review authoring assistant
US20120246054A1 (en) * 2011-03-22 2012-09-27 Gautham Sastri Reaction indicator for sentiment of social media messages
WO2012143069A1 (en) * 2011-04-21 2012-10-26 Sony Corporation A method for determining a sentiment from a text
US20120290606A1 (en) * 2011-05-11 2012-11-15 Searchreviews LLC Providing sentiment-related content using sentiment and factor-based analysis of contextually-relevant user-generated data
US20120290910A1 (en) * 2011-05-11 2012-11-15 Searchreviews LLC Ranking sentiment-related content using sentiment and factor-based analysis of contextually-relevant user-generated data
US8600796B1 (en) * 2012-01-30 2013-12-03 Bazaarvoice, Inc. System, method and computer program product for identifying products associated with polarized sentiments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009510637A (ja) * 2005-09-30 2009-03-12 グーグル インコーポレイテッド 表示のための高品質レビューの選択
JP2008234090A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd 最新評判情報通知プログラム、記録媒体、装置及び方法
JP2011085986A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> テキスト要約方法、その装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095919A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2020091730A (ja) * 2018-12-06 2020-06-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6993955B2 (ja) 2018-12-06 2022-01-14 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP5607859B2 (ja) 2014-10-15
US9740681B2 (en) 2017-08-22
CN104272301A (zh) 2015-01-07
CN104272301B (zh) 2018-01-23
DE112013002187T5 (de) 2015-01-08
US20130289978A1 (en) 2013-10-31
JPWO2013161510A1 (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
Nam et al. Harvesting brand information from social tags
Cacciatore et al. Coverage of emerging technologies: A comparison between print and online media
Tirunillai et al. Mining marketing meaning from online chatter: Strategic brand analysis of big data using latent dirichlet allocation
Jerath et al. Consumer click behavior at a search engine: The role of keyword popularity
Khang et al. Social media research in advertising, communication, marketing, and public relations, 1997–2010
Faulconbridge Global architects: learning and innovation through communities and constellations of practice
Burda et al. Sustaining accessibility of information through digital preservation: A literature review
Wang et al. Attribute embedding: Learning hierarchical representations of product attributes from consumer reviews
Harvey et al. Fear and derision: a quantitative content analysis of provaccine and antivaccine internet memes
Dahlstrom et al. Third-person perception of science narratives: The case of climate change denial
Keshavarz et al. Credibility evaluation of scientific information on websites: Designing and evaluating an exploratory model
Paul et al. TexTonic: Interactive visualization for exploration and discovery of very large text collections
Tong et al. A data-driven approach for integrating hedonic quality and pragmatic quality in user experience modeling
Karimi et al. Online news media website ranking using user-generated content
JP5607859B2 (ja) 評価の極性に基づいた文章の分類方法、コンピュータ・プログラム、コンピュータ
Downer et al. All work and no play: A text analysis
Wedel et al. A bilingual comparison of sentiment and topics for a product event on Twitter
Zhang et al. Providing consumers with a representative subset from online reviews
Flaxton HD aesthetics
CN112802454B (zh) 一种唤醒词的推荐方法、装置、终端设备及存储介质
Liang et al. Exploring online reviews for user experience modeling
Tonkin A day at work (with text): A brief introduction
Fu The cultural influences of narrative content on consumers’ perceptions of helpfulness
Read et al. Labeling emotions in suicide notes: Cost-sensitive learning with heterogeneous features
Singh et al. A clustering and opinion mining approach to socio-political analysis of the blogosphere

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13780607

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014512437

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 112013002187

Country of ref document: DE

Ref document number: 1120130021870

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13780607

Country of ref document: EP

Kind code of ref document: A1