WO2016181475A1 - 情報提示装置、情報提示方法およびプログラム - Google Patents
情報提示装置、情報提示方法およびプログラム Download PDFInfo
- Publication number
- WO2016181475A1 WO2016181475A1 PCT/JP2015/063532 JP2015063532W WO2016181475A1 WO 2016181475 A1 WO2016181475 A1 WO 2016181475A1 JP 2015063532 W JP2015063532 W JP 2015063532W WO 2016181475 A1 WO2016181475 A1 WO 2016181475A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- product
- document group
- score
- document
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 66
- 239000000284 extract Substances 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 description 87
- 238000012552 review Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 22
- 230000002776 aggregation Effects 0.000 description 9
- 238000004220 aggregation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 240000000220 Panda oleosa Species 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 235000015429 Mirabilis expansa Nutrition 0.000 description 3
- 244000294411 Mirabilis expansa Species 0.000 description 3
- 235000002595 Solanum tuberosum Nutrition 0.000 description 3
- 244000061456 Solanum tuberosum Species 0.000 description 3
- 230000002301 combined effect Effects 0.000 description 3
- 235000013536 miso Nutrition 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013498 data listing Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Definitions
- Embodiments described herein relate generally to an information presentation apparatus, an information presentation method, and a program.
- the product recommendation function is a product that is referred to by the user (hereinafter referred to as “first product”) as a purchase option, and another type of product (hereinafter referred to as “first product”) that harmonizes with the first product.
- first product a product that is referred to by the user
- first product another type of product
- harmonized recommendation is often realized by a mechanism that presents a product highly correlated with the first product as the second product from a statistical viewpoint.
- harmonized recommendation it is important that the user recognizes the combined effect of the first product and the second product.
- simply presenting the second product together with the first product does not create a motivation to “buy” the second product if the user does not recognize the combined effect of these products.
- just presenting "potato” along with “Miso” can only be felt as a strange combination of ingredients. Therefore, there is no willingness to purchase “potato” along with “miso”.
- presenting the second product presenting the recommendation reason including information related to the combination effect of the first product and the second product together in order to enhance the sales promotion effect by the harmonized recommendation. It will be effective.
- the EC system so far has a mechanism for presenting the reason for recommendation for a single product (for example, a review display function), but has a mechanism for presenting a reason for recommendation including information on the combined effect of multiple products. Absent. For this reason, there is a demand for the construction of a mechanism for presenting a reason for recommendation including information on such a combination effect.
- the problem to be solved by the present invention is to provide an information presentation device that can appropriately present a reason for recommendation including information related to the effect of combination of the first product and the second product, and can enhance the effect of sales promotion by harmonized recommendation. It is to provide an information presentation method and program.
- the information presentation apparatus presents a recommendation reason including information on a combination effect of the first product and the second product when recommending a second product that harmonizes with the first product referred to by the user.
- the information presentation device includes a first score calculation unit, a second score calculation unit, a third score calculation unit, an integrated score calculation unit, and a presentation unit.
- the first score calculation unit extracts a first document group related to the first product from the document group to be searched, and represents a relationship with the first product for each word included in the first document group. A first score is calculated.
- the second score calculation unit extracts a second document group relating to the second product from the document group to be searched, and represents each word included in the second document group and the relevance to the second product. A second score is calculated.
- the third score calculation unit extracts a third document group relating to both the first product and the second product from the document group to be searched, and for each word included in the third document group, A third score representing the relevance of both one product and the second product is calculated.
- the integrated score calculating unit calculates an integrated score by subtracting the first score and the second score from the third score for each word included in the third document group.
- the presenting unit selects at least one of one or more important words selected according to a predetermined criterion based on the integrated score or one or more texts in the third document group including the important words as the reason for recommendation. Present.
- FIG. 1 is a diagram illustrating a configuration example of the information presentation apparatus according to the first embodiment.
- FIG. 2 is a flowchart showing the processing procedure of the A document group extractor.
- FIG. 3 is a diagram illustrating an example of a synonym dictionary used for word expression normalization.
- FIG. 4 is a flowchart showing the processing procedure of the all document group extractor.
- FIG. 5 is a flowchart showing the processing procedure of the word relevance evaluator.
- FIG. 6 is a flowchart showing a processing procedure of the word importance degree evaluator.
- FIG. 7 is a flowchart illustrating a processing procedure of the integrated score calculation unit.
- FIG. 8 is a flowchart showing the processing procedure of the specific sentence output device.
- FIG. 1 is a diagram illustrating a configuration example of the information presentation apparatus according to the first embodiment.
- FIG. 2 is a flowchart showing the processing procedure of the A document group extractor.
- FIG. 3 is a diagram illustrating an example of
- FIG. 9 is a diagram illustrating a configuration example of the information presentation apparatus according to the second embodiment.
- FIG. 10 is a flowchart showing the processing procedure of the A document group extractor.
- FIG. 11 is a flowchart showing a processing procedure of the A ⁇ B document group extractor.
- FIG. 12 is a diagram for explaining a determination example of the A ⁇ B document group extractor.
- FIG. 13 is a flowchart showing the processing procedure of the word relevance evaluator.
- FIG. 14 is a block diagram illustrating a hardware configuration example of the information presentation device.
- the information presentation apparatus presents a recommendation reason including information related to the combination effect of the first product and the second product when recommending the second product in harmony with the first product referred to by the user. It is difficult to manually create such a reason for recommendation for all combinations of products in advance.
- information related to the combination effect of products exists in document groups such as various Web pages, SNS (Social Networking Service), and blogs. Therefore, in the present embodiment, a document group related to both products is found from such a document group, and further, a reference location suitable as a recommendation reason such as a combination effect of products is specified and presented to the user.
- the first product is the product A
- the document with the description about the first product is the A document
- the second product is the product B
- the document with the description about the second product is the B document
- a document that describes both one product and second product is called an A ⁇ B document.
- FIG. 1 is a diagram illustrating a configuration example of the information presentation apparatus according to the first embodiment.
- the information presentation apparatus according to the present embodiment includes a first score calculation unit 10, a second score calculation unit 20, a third score calculation unit 30, a fourth score calculation unit 40, and an integrated score.
- the EC system service includes a calculation unit 50 and a presentation unit 60, and displays a recommendation reason including information on the combination effect of the first product and the second product acquired from the document DB (Database) 100 on the screen 200.
- the information processing apparatus according to the present embodiment is assumed to be realized as part of the functions of the EC system, but is not limited thereto, and is configured as an independent system or apparatus that operates in conjunction with the EC system, for example. May be.
- the document DB 100 is an arbitrary document group to be searched in the present embodiment, and assumes various Web pages, SNSs, blogs, and the like.
- the screen 200 is assumed to be a screen displayed on a terminal device of a user who uses an EC system service, and is generally a Web screen displayed on a terminal device equipped with a Web browser.
- the first score calculation unit 10 includes an A document group extractor 11 and a word relevance evaluator 12.
- the A document group extractor 11 performs a word-based search on the document DB 100, extracts all A documents with descriptions related to the product A from the document DB 100, and obtains the A document group 15.
- the word relevance evaluator 12 creates a histogram of each word in the A document group 15 (data listing the frequencies for each word), and the first word corresponding to the appearance frequency in the A document group 15 for each word. Calculate the score.
- each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana.
- the appearance frequency of each word is normalized by dividing by the total number of words, and the log scale is used as the first score. Therefore, the first score is a negative value, and a word having a higher appearance frequency in the A document group 15 is given a first score having a higher value near 0.
- the second score calculation unit 20 includes a B document group extractor 21 and a word relevance evaluator 22.
- the B document group extractor 21 performs a word-based search on the document DB 100 and extracts all B documents having a description about the product B from the document DB 100 to obtain the B document group 25.
- the word relevance evaluator 22 creates a histogram of each word in the B document group 25 and calculates a second score corresponding to the appearance frequency in the B document group 25 for each word.
- each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana.
- the appearance frequency of each word is normalized by dividing by the total number of words, and the log scale is used as the second score. Therefore, the second score is a negative value, and a word having a higher appearance frequency in the B document group 25 is given a second score having a higher value near 0.
- the third score calculation unit 30 includes an A ⁇ B document group extractor 31 and a word relevance evaluator 32.
- the A ⁇ B document group extractor 31 performs a word-based search on the document DB 100, extracts all A ⁇ B documents having descriptions about both the products A and B from the document DB 100, and extracts the A ⁇ B.
- a document group 35 is obtained.
- the word relevance evaluator 32 creates a histogram of each word in the A ⁇ B document group 35 and calculates a third score corresponding to the appearance frequency in the A ⁇ B document group 35 for each word.
- each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana.
- the appearance frequency of each word is normalized by dividing by the total number of words, and a log scale is used as the third score. Therefore, the third score is a negative value, and a word having a higher appearance frequency in the A ⁇ B document group is given a third score having a higher value near 0.
- the fourth score calculation unit 40 includes an all document group extractor 41 and a word importance level evaluator 42.
- the all document group extractor 41 extracts all documents from the document DB 100 and obtains all document groups 45.
- the word importance evaluator 42 creates a histogram of the number of documents including each word in the entire document group 45, and for each word, the word importance level evaluator 42 corresponds to the appearance frequency of the document including the word in the entire document group 45. 4 scores are calculated. However, each word uses a dictionary to absorb notation fluctuations such as full-width, Japanese-English, and sending kana. Also, the appearance frequency of documents including each word is normalized by dividing the total frequency by the total number of documents, and the log scale is used to further reverse the positive and negative values as the fourth score. Accordingly, the fourth score is a positive value, and a higher fourth score is given as the appearance frequency of the document including the word is lower.
- the integrated score calculation unit 50 uses the third score, the first score, the second score, and the fourth score for each of the words included in the A ⁇ B document group 35 to obtain the following formula (1 ) Is used to calculate the integrated score.
- the integrated score is an index representing the uniqueness to the topic related to both the product A and the product B, and a higher integrated score is given to a word having a higher uniqueness to the topic related to both the product A and the product B.
- the presentation unit 60 includes a proper word output device 61 and a proper sentence output device 62.
- the proper word output unit 61 selects one or more important words (proprietary words) that are highly specific to the topics related to both the products A and B based on the integrated score, and displays the screen 200 as the word-based recommendation reason 65. Output to. When the recommendation reason is only a word, the word-based recommendation reason 65 output from the proper word output unit 61 is displayed on the screen 200.
- the proper sentence output device 62 selects one or more sentences having many important words (proprietary words) selected by the proper word output device 61 from the A ⁇ B document group 35, and displays the screen 200 as the sentence-based recommendation reason 66. Output to.
- a sentence-based recommendation reason 66 output from the specific sentence output unit 62 is displayed on the screen 200.
- both the word-based recommendation reason 65 output from the unique word output unit 61 and the sentence-based recommendation reason 66 output from the specific sentence output unit 62 may be displayed on the screen 200.
- the processing unit of the specific sentence output unit 62 is a sentence.
- the specific sentence output unit 62 may use a phrase, passage, paragraph, or the like as a processing unit instead of a sentence.
- the desired text can be displayed on the screen 200 as a recommendation reason by the same processing only by changing the processing unit of the specific sentence output device 62.
- the purpose of the processing of the A document group extractor 11 is to find all A documents from the document DB 100.
- the extraction of the A document can be performed by, for example, a word-based search using a conventional method.
- general search processing it is common to use a processing method in which an index of a document group to be searched is created in advance.
- a grep method for searching without creating an index is used.
- FIG. 2 is a flowchart showing a processing procedure of the A document group extractor 11.
- the A document group extractor 11 first extracts the product name from the metadata related to the A product and uses it as a search query (step S101).
- the A document group extractor 11 performs query normalization (step S102). Specifically, the A document group extractor 11 first absorbs a query notation fluctuation (half-width, Japanese-English, kana, etc.), and further uses a synonym dictionary as shown in FIG. Then, the product name of product A) is replaced with a representative expression. For example, the query “smartphone” is replaced with “smartphone”, and the query “personal computer” is replaced with “PC”.
- the A document group extractor 11 takes out one document from the document DB 100 (step S103). Then, the A document extractor 11 performs expression normalization for each word included in the document extracted in step S103 by the same method as in step S102 (step S104).
- the A document group extractor 11 includes the query (in other words, the product name of the product A) subjected to the expression normalization in step S102 in the document in which the word expression normalization is performed in step S104. If the expression normalized query is included, the document is added to the A document group 15 to be output (step S105).
- step S106 determines whether there is a document that has not been extracted from the document DB 100 (step S106). If there is a document that has not been extracted from the document DB 100 (step S106: Yes), step S103 is performed. Return to and repeat the subsequent processing. On the other hand, if the processing of steps S103 to S105 has been performed for all the documents in the document DB 100 (step S106: No), the A document group extractor 11 outputs the A document group 15 (step S107). A series of processing ends.
- the process of the B document group extractor 21 is to find all B documents from the document DB 100.
- the extraction of the B document is performed by a word-based search in the same manner as the extraction of the A document.
- the process of the B document group extractor 21 is the same as the process of the A document group extractor 11 described above, except that the query used for the search is replaced with the product name of the product B and the document group to be output is the B document group 25. Therefore, detailed description is omitted.
- the process of the A ⁇ B document group extractor 31 is to find all A ⁇ B documents from the document DB 100.
- the extraction of the A ⁇ B document is performed by word-based search in the same manner as the extraction of the A document and the B document.
- the processing of the A ⁇ B document group extractor 31 is as described above only when the query used for the search is an AND condition between the product name of the product A and the product name of the product B, and the output document group is the A ⁇ B document group 35. Since the processing is the same as that performed by the A document group extractor 11 and the B document group extractor 21, detailed description thereof is omitted.
- the processing of the all document group extractor 41 is intended to take out all documents from the document DB 100 and normalize the expression of each word included in each document for subsequent processing.
- FIG. 4 is a flowchart showing the processing procedure of the all document group extractor 41.
- the all document group extractor 41 extracts one document from the document DB 100 (step S201).
- the all document extractor 41 performs expression normalization for each word included in the document extracted in step S201 by the same method as in step S102 in FIG. 2 (step S202), and outputs all documents 45
- the document is added to (step S203).
- the all document group extractor 41 determines whether there is a document that has not been extracted from the document DB 100 (step S204). If there is a document that has not been extracted from the document DB 100 (step S204: Yes), step S201 is performed. Return to and repeat the subsequent processing. On the other hand, if the processing of steps S201 to S203 has been performed for all the documents in the document DB 100 (step S204: No), the all document group extractor 41 outputs the all document group 45 (step S205). A series of processing ends.
- the processing of the word relevance evaluator 12 is intended to calculate a first score representing the relevance with the product A for each word included in the A document group 15.
- the log probability of each word is obtained by dividing the number of occurrences of each word in the A document group 15 by the total number of words and converting it to a log scale, and this is used as the first score.
- FIG. 5 is a flowchart showing the processing procedure of the word relevance evaluator 12.
- the word relevance evaluator 12 initializes a counting histogram for counting the number of appearances of each word (step S301).
- the word relevance evaluator 12 extracts one document from the A document group 15 (step S302). Then, the word relevance evaluator 12 creates a histogram of words included in the document extracted in step S302 (step S303), and adds the obtained histogram to the aggregation histogram (step S304).
- the word relevance evaluator 12 determines whether there is a document that has not been extracted from the A document group 15 (step S305), and if there is a document that has not been extracted from the A document group 15 (step S305: Yes). ), Returning to step S302, the subsequent processing is repeated. On the other hand, if the processing of steps S302 to S304 is performed on all the documents in the A document group 15 (step S305: No), the word relevance evaluator 12 calculates the log probability of each word from the aggregation histogram. The index is determined (step S306).
- the log probability is log (x / y), where x is the frequency of each word indicated by the aggregation histogram and y is the total number of words in the A document group 15.
- the word relevance evaluator 12 outputs the log probability of each word calculated in step S306 as the first score of each word (step S307), and ends the series of processes.
- x 0
- the log probability is ⁇ . Since ⁇ and - ⁇ cannot be directly handled by a computer, a method of substituting an extremely large value or a small value can be considered. In the following, the same method may be used when dealing with ⁇ and ⁇ .
- the processing of the word relevance evaluator 22 is intended to calculate a second score representing the relevance with the product B for each word included in the B document group 25. Similar to the first score, the second score is a logarithmic probability of each word included in the B document group 25.
- the processing of the word relevance evaluation unit 22 replaces the given document set with the B document group 25, and outputs the log probabilities of the words included in the B document group 25 as the second score. Since it is the same as the processing of the container 12, detailed description is omitted.
- the processing of the word relevance evaluator 32 aims to calculate a third score representing the relevance of both the product A and the product B for each word included in the A ⁇ B document group 35.
- the third score is the logarithmic probability of each word included in the A ⁇ B document group 35, like the first score and the second score.
- the processing of the word relevance evaluator 32 is as described above only by replacing the given document set with the A ⁇ B document group 35 and outputting the log probabilities of each word included in the A ⁇ B document group 35 as the third score. Since it is the same as the processing of the word relevance evaluator 12, detailed description is omitted.
- the processing of the word importance level evaluator 42 is intended to calculate a fourth score representing the general importance of each word in the document DB 100.
- idf Inverse Document Frequency
- a word that rarely appears that is, a word with a low appearance probability
- idf shows a high value.
- FIG. 6 is a flowchart showing a processing procedure of the word importance degree evaluator 42.
- the word importance degree evaluator 42 initializes a totaling histogram for counting the number of appearances of each word (step S401).
- the word importance evaluator 42 takes out one document from the entire document group 45 (step S402). Then, the word importance level evaluator 42 creates a binary histogram of words included in the document extracted in step S402 (step S403), and adds the obtained histogram to the aggregation histogram (step S404).
- the binary histogram is a histogram having only a frequency value of 1 or 0, and 1 is given to a word appearing in a document regardless of the number of appearances.
- step S405 the word importance level evaluator 42 determines whether there is a document that has not been extracted from the entire document group 45 (step S405), and if there is a document that has not been extracted from the entire document group 45 (step S405: Yes). ), Returning to step S402, the subsequent processing is repeated. On the other hand, if the processing of steps S402 to S404 has been performed for all the documents in all the document groups 45 (step S405: No), the word importance level evaluator 42 determines the document containing each word from the aggregation histogram. A negative log probability is determined (step S406).
- the word importance evaluator 42 outputs the negative logarithmic probability of the document including the word calculated in step S406 as the fourth score of each word (step S407), and a series of processes Exit.
- the processing of the integrated score calculation unit 50 is performed for each word in the A ⁇ B document group 35 with respect to the uniqueness of the topic regarding both the product A and the product B (that is, a word that appears prominently only in the A ⁇ B document group 35). It is an object to calculate an integrated score that serves as an index representing the degree of whether or not. As a result, it is possible to find a word suitable for explanation regarding the combination of the product A and the product B.
- w is a word
- ntf (w) is a logarithmic probability of the word w in a given document set
- idf is a negative logarithmic probability of a document including the word w in the whole document group 45.
- the first term of Expression (1) indicates the log probability of the word w in the A ⁇ B document group 35, and corresponds to the third score output by the word relevance evaluator 32. The higher the value of the first term (third score), the more the word w appears in the A ⁇ B document group 35.
- the second term of Expression (1) indicates the log probability of the word w in the A document group 15 and corresponds to the first score output by the word relevance evaluator 12. The higher the value of the second term (first score), the more the word w appears in the A document group 15.
- the third term of Expression (1) indicates the log probability of the word w in the B document group 25 and corresponds to the second score output by the word relevance evaluator 22. The higher the value of the third term (second score), the more the word w appears in the B document group 25.
- the fourth term of the expression (1) indicates the rarity of the word w in the entire document group 45 and corresponds to the fourth score output by the word importance degree evaluator 42. As the value of the fourth term (fourth score) is higher, the word w is more scarce and indicates that the amount of information when it appears is an important word.
- Formula (1) is a calculation formula for subtracting the second term and the third term from the first term to obtain an integrated score.
- a high integrated score is given to words that frequently appear in the A ⁇ B document group 35 and do not frequently appear in the A document group 15 and the B document group 25. From this, it can be considered that the integrated score indicates a degree suitable for the description across both products, not the individual descriptions of the products A and B.
- the reason why the first term is doubled is that there are two terms subtracted from the first term.
- the uniqueness of the word appearing at the same frequency in each of the A ⁇ B document group 35, the A document group 15, and the B document group 25 is considered to be 0, but the first term is doubled as shown in Expression (1). Therefore, the integrated score in this case can be set to zero. However, doubling the first term is not essential, and the second and third terms may be subtracted without doubling the first term.
- the formula (1) is a calculation formula for obtaining an integrated score by multiplying the value obtained by subtracting the second term and the third term from the first term by the fourth term.
- the integrated score which considered the importance in the general viewpoint of each word is obtained. That is, if the number of documents in the A document group 15, the number of documents in the B document group 25, and the number of documents in the A ⁇ B document group 35 are not sufficient, the integration score of each word is calculated without multiplying the fourth term. There is a risk that the score is over-adapted, but this risk can be avoided by multiplying the fourth term. However, the multiplication of the fourth term is not essential, and the integrated score may be calculated without multiplying the fourth term.
- FIG. 7 is a flowchart showing a processing procedure of the integrated score calculation unit 50.
- the integrated score calculation unit 50 extracts one word from the A ⁇ B document group 35 (step S501).
- the integrated score calculation unit 50 applies the value of the third score output by the word relevance evaluator 32 to the first term of Expression (1) for the word extracted in step S501 (step S502).
- the integrated score calculation unit 50 applies the value of the first score output by the word relevance evaluator 12 to the second term of Expression (1) for the word extracted in step S501 (step S503).
- the integrated score calculation unit 50 applies the value of the second score output by the word relevance evaluation unit 22 to the third term of the equation (1) for the word extracted in step S501 (step S504).
- the integrated score calculation unit 50 applies the value of the fourth score output by the word importance degree evaluator 42 to the fourth term of Expression (1) for the word extracted in step S501 (step S505).
- the integrated score calculation unit 50 calculates the integrated score of the word extracted in step S501 using equation (1) (step S506).
- the integrated score calculation unit 50 determines whether there is a word that has not been extracted from the A ⁇ B document group 35 (step S507), and if there is a word that has not been extracted from the A ⁇ B document group 35 (step S507). (S507: Yes), the process returns to step S501 and the subsequent processing is repeated. On the other hand, if the processing in steps S501 to S506 has been performed for all the words included in the A ⁇ B document group 35 (step S507: No), the integrated score calculation unit 50 outputs the integrated score of each word. Then (step S508), a series of processing is terminated.
- the processing of the proper word output device 61 selects and outputs, as an important word, a word (proprietary word) having a high specificity with respect to topics related to both the product A and the product B among the words included in the A ⁇ B document group 35.
- the purpose is to do.
- the top k words having the highest integrated score among the words included in the A ⁇ B document group 35 are output as important words.
- the proper word output unit 61 sorts the integrated scores output from the integrated score calculation unit 50 in descending order of values, and selects and outputs the k words as important words in descending order of the integrated score value.
- the reason for recommendation of the B product is only a word
- the important word output by the proper word output unit 61 is displayed on the screen 200 as the word-based recommendation reason 65.
- the recommendation reason is required to be a sentence
- the important word output from the proper word output unit 61 is passed to the proper sentence output unit 62.
- the processing of the unique sentence output unit 62 is intended to find a sentence including many important words from the A ⁇ B document group 35 and output it to the screen 200 as a sentence-based recommendation reason 66.
- a sentence in the A ⁇ ⁇ B document group 35 that contains the most important words is found as a best sentence and is output to the screen 200 as a sentence-based recommendation reason 66.
- phrases, passages, paragraphs, and the like may be displayed on the screen 200 as the reason for recommendation instead of sentences.
- FIG. 8 is a flowchart showing the processing procedure of the specific sentence output unit 62.
- the unique sentence output unit 62 first initializes the best sentence and the best score (step S601). That is, the best sentence that is finally output as the sentence-based recommendation reason 66 is an empty sentence, and the best score that is the total value of the integrated scores of the words included in the best sentence is set to ⁇ .
- the specific sentence output unit 62 takes out one sentence from the A ⁇ B document group 35 (step S602). Then, the unique sentence output unit 62 sets the total score of the words included in the sentence extracted in step S602 as the score of the sentence (step S603).
- the specific sentence output unit 62 confirms whether the score of the sentence obtained in step S603 exceeds the best score. If the score exceeds the best score, the best sentence and the best score are replaced with the sentence and the score. (Step S604).
- the unique sentence output unit 62 determines whether there is a sentence that has not been extracted from the A ⁇ B document group 35 (step S605), and if there is a sentence that has not been extracted from the A ⁇ B document group 35 (step S605). (S605: Yes), the process returns to step S602 and the subsequent processing is repeated. On the other hand, if the processing in steps S602 to S604 has been performed on all the sentences included in the A ⁇ B document group 35 (step S605: No), the specific sentence output unit 62 recommends the best sentence based on the sentence. The reason 66 is output (step S606), and the series of processing ends.
- a word that is highly specific to a topic related to both the product A and the product B or a sentence including the word is specified.
- the word-based recommendation reason 65 or the sentence-based recommendation reason 66 is displayed on the screen 200. Therefore, by using this information presentation device, it is possible to appropriately present the reason for recommendation including information relating to the combination effect of the products A and B to the user who uses the EC system, and to promote sales by harmonized recommendation.
- the effect can be enhanced. That is, for users who use the EC system, the motivation to purchase the B product is born by referring to the reason for recommendation presented by the information presentation device of the present embodiment, and it becomes easier to purchase the product with a new experience, For stores, sales opportunities can be increased.
- documents that are predicted in advance to be described for a certain product such as a review article by a user using the EC system are used as a search target document group.
- EC systems often manage review articles by users for each product page.
- Such a review article is a document in which an impression of each product is described, and thus can be effectively used as a target for finding out the reason for recommendation.
- each review article is associated with the product ID (product identification information) to be reviewed and the purchase log of the user describing the review article as metadata.
- the review article associated with the product ID and the purchase log is referred to as a labeled document.
- a general document is a search target
- whether or not a product name is included in the document is used as a clue to search for the A document, the B document, and the A ⁇ B document.
- a method of searching using a review target product ID (or a product name if a product name is associated with a review article) assigned to each document to be searched is used.
- document search errors can be eliminated (in the first embodiment, there is a risk of error due to fluctuations in the expression, etc.), and the document is simply a document that does not contain a product name, such as “It was delicious!
- sorting can be easily performed by using metadata.
- the review article described by the user who purchased both the products A and B at a close timing from the purchase of these products may be a review article including a reference to both the products.
- the A ⁇ B document is specified based on the hypothesis that the property is high.
- FIG. 9 is a diagram illustrating a configuration example of the information presentation apparatus according to the second embodiment.
- the information presentation device of the second embodiment is replaced with the first score calculation unit 10, the second score calculation unit 20, and the third score calculation unit 30 (see FIG. 1) of the first embodiment.
- the first score calculation unit 70, the second score calculation unit 80, and the third score calculation unit 90 are provided.
- the information presentation apparatus according to the second embodiment uses a labeled document DB 300 instead of the document DB 100 (see FIG. 1) according to the first embodiment as a search target document set.
- the labeled document DB 300 is a collection of review articles by a user using an EC system, for example, and each review article is associated with a product ID and a purchase log 400.
- the first score calculation unit 70 includes an A document group extractor 71 and a word relevance evaluator 12.
- the A document group extractor 71 searches the labeled document DB 300 using the product ID of the product A, extracts all A documents from the labeled document DB 300, and obtains the A document group 15.
- the word relevance evaluator 12 is common to the first embodiment.
- the second score calculation unit 80 includes a B document group extractor 81 and a word association degree evaluator 22.
- the B document group extractor 81 searches the labeled document DB 300 using the product ID of the product B, extracts all the B documents from the labeled document DB 300, and obtains the B document group 25.
- the word relevance evaluator 22 is common to the first embodiment.
- the third score calculation unit 90 includes an A ⁇ B document group extractor 91 and a word relevance evaluator 92.
- the A ⁇ B document group extractor 91 searches the labeled document DB 300 using the product ID of the product A and the product ID of the product B, extracts the A ⁇ B document from the labeled document DB 300, and adds A with confidence.
- ⁇ A B document group 95 is obtained.
- the A ⁇ B document extracted from the labeled document DB 300 is a labeled document such as a review article extracted based on the above-described hypothesis, and the document includes descriptions regarding both the product A and the product B. Is given certainty that
- the word relevance evaluator 92 calculates a third score corresponding to the appearance frequency for each of the words included in the A ⁇ B document group 95 with certainty as in the relevance evaluator 32 of the first embodiment. To do. However, in this embodiment, a certainty factor is given that each of the A ⁇ B documents includes a description regarding both the product A and the product B, and the frequency of each word appears. The point of calculation using the certainty factor of the document is different from the first embodiment.
- the processing procedure of the A document group extractor 71 is to find all A documents from the labeled document DB 300.
- FIG. 10 is a flowchart showing the processing procedure of the A document group extractor 71.
- the A document group extractor 71 first extracts the product ID of the A product from the metadata related to the A product, and uses it as a search query (step S701).
- the A document group extractor 71 takes out one document from the labeled document DB 300 (step S702). Then, the A document extractor 71 checks whether the label of the document extracted in step S701 matches the product ID of the query, and if it matches, adds the document to the A document group 15 to be output (step S703). ).
- the A document group extractor 71 determines whether there is a document that has not been extracted from the labeled document DB 300 (step S704), and if there is a document that has not been extracted from the labeled document DB 300 (step S704: Yes). ), Returning to step S702, the subsequent processing is repeated. On the other hand, if the processing in steps S702 and S703 has been performed on all the documents in the labeled document DB 300 (step S704: No), the A document group extractor 71 outputs the A document group 15 (step S705). ), A series of processing ends.
- the processing of the B document group extractor 81 is to find all B documents from the labeled document DB 300.
- the process of the B document group extractor 81 is the same as the process of the A document group extractor 71 described above, except that the query used for the search is replaced with the product ID of the product B and the output document group is the B document group 25. Therefore, detailed description is omitted.
- the processing of the A ⁇ B document group extractor 91 is to find the A ⁇ B document from the labeled document DB 300. Since each labeled document in the labeled document DB 300 is linked to only one product ID, it is determined from the metadata only whether the labeled document includes a description of both the product A and the product B. I can't.
- the user who purchased the product A and the product B at the same time or at a close timing has an intention to combine both products, and the review document described by such a user at a timing close to it is Therefore, it is highly likely that a description about the combination of both products is included.
- a user who matches the hypothesis is selected using the purchase log 400, and a review article that matches the hypothesis is extracted as an A ⁇ B document from the review articles described by the user. Further, the A ⁇ B document group 95 with certainty is obtained by giving the certainty that the description about both the product A and the product B is included in the A ⁇ B document group thus extracted. .
- FIG. 11 is a flowchart showing a processing procedure of the A ⁇ B document group extractor 91.
- the A ⁇ B document group extractor 91 first selects one user from the purchase log 400 (step S801).
- the A ⁇ B document group extractor 91 extracts all purchase log pairs indicating that the user selected in Step S801 has purchased the products A and B within the predetermined first period (Step S801). S802).
- a determination example at this time is shown in FIG. Assuming that the first period is 2 days, in the purchase log of the user X, “11/7 15:20 product A purchase” and “11/7 18: The pair of “20 product B purchase” is extracted in the process of step S802 because the time difference between the purchase of both products is within two days. On the other hand, the pair of “11/7 18:20 product B purchase” and “11/10 9:50 product A purchase” is not extracted in step S802 because the time difference between the purchase of both products exceeds two days. .
- the time difference between the purchase times of the purchase log pairs is referred to as a “purchase time difference”.
- the A ⁇ B document group extractor 91 takes out one purchase log pair extracted in step S802 (step S803). Then, the A ⁇ B document group extractor 91 selects the predetermined purchase time from the later purchase time indicated by the purchase log pair extracted in step S803 by the user selected in step S801 from the labeled document DB 300. All documents (review articles) having the product ID of the product A or the product B described in the second period as labels are taken out (step S804).
- FIG. 12B An example of determination at this time is shown in FIG. Assuming that the second period is 3 days, among the review articles described by the user X as in the determination example 2 in FIG. 12B, “11/9 12:00 product A review article” is “11 Since it is a review article written within 3 days from the purchase time of the purchase log of “/ 7: 18: 20 Purchase of product B”, it is extracted in the process of step S804. On the other hand, “11/11 12:00 product A review article” is a review article described after 3 days from the purchase time of the purchase log of “11/7 18:20 product B purchase”, so step S804. It is not taken out in the process.
- the time difference between the purchase time of the purchase log and the review description time is hereinafter referred to as “review time difference”.
- the A ⁇ B document group extractor 91 assigns a certainty factor corresponding to the purchase time difference between the purchase log pair extracted in step S803 to each document extracted in step S804 (step S805). For example, 100% confidence level for purchases in the same session with purchase log pairs, 90% confidence level for purchases within 1 hour, 80% confidence level for purchases within 2 hours, same day As the certainty factor in the case of purchase is 50%, a certainty factor that gives a lower value is given as the purchase time difference increases.
- a certainty factor is given to a document extracted from the labeled document DB 300 according to the purchase time difference of a purchase log pair that causes the document to be extracted. The method is not limited to this. For example, the document retrieved from the labeled document DB 300 may be given a certainty factor that decreases as the review time difference increases, or a certainty factor that considers both the purchase time difference and the review time difference. It may be.
- the A ⁇ B document group extractor 91 adds the document with certainty obtained by the process of step S805 to the output A ⁇ B document group 95 with certainty (step S806).
- step S807 determines whether there is a purchase log pair that has not been extracted in step S803 (step S807), and if there is a purchase log pair that has not been extracted (step S807: Yes), the process returns to step S803 and the subsequent processing is repeated. On the other hand, if the processing from step S803 to step S806 is performed on all purchase log pairs (step S807: No), the A ⁇ B document group extractor 91 has any user not selected in step S801. If there is a user who has not selected (step S808: Yes), the process returns to step S801 and the subsequent processing is repeated.
- step S808 if all the users included in the purchase log have been selected and the processing from step S802 to step S806 has been performed (step S808: No), the A ⁇ B document group extractor 91 performs the A ⁇ B document with confidence.
- the group 95 is output (step S809), and a series of processing ends.
- the processing of the word association degree evaluator 92 is performed for both the products A and B for each word included in the A ⁇ B document group 95 with certainty factor, as in the word association degree evaluator 32 of the first embodiment.
- the purpose is to calculate a third score representing the relevance to the.
- the certainty factor is given to the A ⁇ B document, the process associated therewith is different from the word association degree evaluator 32 of the first embodiment.
- FIG. 13 is a flowchart showing the processing procedure of the word relevance evaluator 92.
- the word relevance evaluator 92 initializes a counting histogram and a total number of words for counting the number of appearances of each word (step S901).
- the total number of words is a value obtained by adjusting the total number of words included in the A ⁇ B document group 95 with certainty as described later according to the certainty of the document.
- the word relevance evaluator 92 takes out one document from the A ⁇ B document group 95 with certainty (step S902). Then, the word relevance evaluator 92 creates a histogram of words included in the document extracted in step S902 (step S903). However, at this time, the frequency given to each word is obtained by adding the certainty factor to the actual frequency. For example, in a document with a certainty factor of 50%, if the word A appears 10 times, the word B 6 times, and the word C 4 times, the frequency given to the word A is 5 times, the frequency given to the word B is 3 times, The frequency given to the word C is twice.
- the word relevance evaluator 92 adds the histogram obtained in step S903 to the aggregation histogram (step S904).
- the word relevance evaluator 92 adds a value obtained by adding the certainty factor to the number of words in the document to the total number of words (step S905). For example, if the number of words in the document is 1000 and the certainty factor is 50%, the number of words to be added is 500.
- the word relevance evaluator 92 determines whether or not there is a document that has not been extracted from the A ⁇ B document group 95 with certainty factor (step S906), and is extracted from the A ⁇ B document group 95 with certainty factor. If there is no document (step S906: Yes), the process returns to step S902 and the subsequent processing is repeated. On the other hand, if the processing in steps S902 to S905 is performed on all the documents in the A ⁇ B document group 95 with certainty level (step S906: No), the word relevance evaluator 92 determines each document from the aggregation histogram. The log probability of the word is determined (step S907).
- the word relevance evaluator 92 outputs the log probability of each word calculated in step S907 as the third score of each word (step S908), and ends the series of processes.
- the A ⁇ B document group extractor 91 extracts the A ⁇ B document group.
- the threshold process using the first period or the second period is not necessarily performed. If threshold processing is not performed in the A ⁇ B document group extractor 91, review articles having a very large purchase time difference or review time difference are also extracted. However, since such a review article has a very small certainty factor. It is. If threshold processing is not performed, the number of review articles to be extracted increases and the amount of calculation increases, but it is possible to avoid missing review articles due to threshold processing.
- the integrated score calculation unit 50 calculates an integrated score for each word included in the A ⁇ B document group 95 with confidence, and the proper word output unit 61 calculates the integrated score. Highly important words are output to the screen 200 as word-based recommendation reasons 65, and sentences containing many important words are output to the screen 200 as sentence-based recommendation reasons 66 by the unique sentence output unit 62.
- a recommendation reason including information regarding the combination effect of the product A and the product B is appropriately presented to the user who uses the EC system.
- the sales promotion effect can be enhanced. That is, for users who use the EC system, the motivation to purchase the B product is born by referring to the reason for recommendation presented by the information presentation device of the present embodiment, and it becomes easier to purchase the product with a new experience, For stores, sales opportunities can be increased.
- the information presenting apparatus is a processor such as a CPU (Central Processing Unit) 510, a storage device such as a ROM (Read Only Memory) 520 or a RAM (Random Access Memory) 530, a display device,
- a processor such as a CPU (Central Processing Unit) 510, a storage device such as a ROM (Read Only Memory) 520 or a RAM (Random Access Memory) 530, a display device,
- a hardware configuration using a normal computer including an input / output I / F 540 to which various operation devices are connected, a communication I / F 550 for connecting to a network for communication, a bus 560 for connecting each unit, and the like may be adopted. it can.
- the program executed by the information presentation device described above is, for example, a file in an installable or executable format, such as a CD-ROM (Compact Disk Read Only Memory), a flexible disk (FD), a CD-R (Compact Disk Recordable). ), DVD (Digital Versatile Disc), etc., recorded on a computer-readable recording medium and provided as a computer program product.
- a CD-ROM Compact Disk Read Only Memory
- FD flexible disk
- CD-R Compact Disk Recordable
- DVD Digital Versatile Disc
- the program executed by the information presentation apparatus described above may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network.
- the program executed by the information presentation apparatus of the present embodiment may be configured to be provided or distributed via a network such as the Internet.
- the program executed by the information presentation device described above may be provided by being incorporated in advance in the ROM 520 or the like.
- the programs executed by the information presentation device described above are the processing units of the information presentation device (first score calculation units 10, 70, second score calculation units 20, 80, third score calculation units 30, 90, fourth score).
- the module configuration includes a calculation unit 40, an integrated score calculation unit 50, and a presentation unit 60).
- the CPU 510 processor
- the CPU 510 reads and executes a program from the recording medium
- Each processing unit described above is loaded on the RAM 530 (main memory), and each processing unit described above is generated on the RAM 530 (main memory).
- the information presentation apparatus of the embodiment realizes part or all of each processing unit described above using dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array). Is also possible.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
実施形態の情報提示装置は、文書DB(100)からA文書群(15)を抽出してそこに含まれる各単語の第1スコアを算出する第1スコア算出部(10)と、文書DB(100)からB文書群(25)を抽出してそこに含まれる各単語の第2スコアを算出する第2スコア算出部(10)と、文書DB(100)からA∩B文書群(35)を抽出してそこに含まれる各単語の第3スコアを算出する第3スコア算出部(30)と、A∩B文書群(35)に含まれる各単語のそれぞれについて、第3スコアから第1スコアと第2スコアとを減算して統合スコアを算出する統合スコア算出部(50)と、統合スコアに基づいて選択された1以上の重要単語または重要単語を含むA∩B文書群(35)中の1以上のテキストの少なくとも一方を推薦理由として提示する提示部(60)と、を備える。
Description
本発明の実施形態は、情報提示装置、情報提示方法およびプログラムに関する。
電子商取引(EC:Electronic Commerce)のサービスを提供するECシステムの多くは、ユーザがある商品を参照しているときに、その商品に関連する別の商品を併せて提示する商品推薦機能を持つ。商品推薦機能は、ユーザが参照している商品(以下、「第1商品」という。)と同種の商品を購入の選択肢として提示する対立型推薦と、第1商品と調和する別商品(以下、「第2商品」という。)を紹介して、いわゆる“ついで買い”を促す調和型推薦に大別される。このうち調和型推薦は、多くの場合、統計的観点において第1商品と相関性の高い商品を第2商品として提示する仕組みによって実現されている。
調和型推薦においては、第1商品と第2商品との組み合わせ効果をユーザが認識していることが重要である。つまり、第1商品と併せて単に第2商品を提示しただけでは、ユーザがこれらの商品の組み合わせ効果を認識していない場合、第2商品を“ついで買い”する動機付けが生まれない。例えば、秩父のB級グルメとして話題になった「味噌ポテト」を知らないユーザにとっては、「味噌」と併せて「ジャガイモ」が提示されただけでは、これらは奇妙な食材の組み合わせに感じられるだけで、「味噌」のついでに「ジャガイモ」を買おうとする購買意欲は生じない。このため、第2商品を提示する際には、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を併せて提示することが、調和型推薦による販売促進の効果を高める上で有効になると考えられる。
しかし、これまでのECシステムでは、商品単体に関する推薦理由を提示する仕組み(例えばレビュー表示機能など)は持っていても、複数の商品の組み合わせ効果に関する情報を含む推薦理由を提示する仕組みは持っていない。このため、このような組み合わせ効果に関する情報を含む推薦理由を提示する仕組みの構築が求められている。
本発明が解決しようとする課題は、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる情報提示装置、情報提示方法およびプログラムを提供することである。
実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であり、第1スコア算出部と、第2スコア算出部と、第3スコア算出部と、統合スコア算出部と、提示部と、を備える。第1スコア算出部は、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する。第2スコア算出部は、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する。第3スコア算出部は、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する。統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する。提示部は、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する。
以下、実施形態の情報提示装置、情報提示方法およびプログラムを、図面を参照して詳細に説明する。
実施形態の情報提示装置は、ユーザが参照している第1商品に調和する第2商品を推薦する際に、第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する。このような推薦理由をあらゆる商品の組み合わせについて予め人手で作成することは困難である。しかし、商品の組み合わせ効果に関する情報は、例えば、各種のWebページ、SNS(Social Networking Service)、ブログなどの文書群に存在する。そこで、本実施形態では、このような文書群から両商品に関する文書群を見つけ出し、さらに商品の組み合わせ効果などの推薦理由としてふさわしい言及箇所を特定してユーザに提示する。なお、以下では説明の簡便化のため、第1商品を商品A、第1商品に関する記載のある文書をA文書、第2商品を商品B、第2商品に関する記載のある文書をB文書、第1商品と第2商品との双方に関する記載のある文書をA∩B文書と呼ぶ。
<第1実施形態>
まず、第1実施形態の情報提示装置について説明する。図1は、第1実施形態の情報提示装置の構成例を示す図である。本実施形態の情報提示装置は、図1に示すように、第1スコア算出部10と、第2スコア算出部20と、第3スコア算出部30と、第4スコア算出部40と、統合スコア算出部50と、提示部60とを備え、文書DB(Database)100から取得した第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を画面200に表示して、ECシステムのサービスを利用しているユーザに提示する。なお、本実施形態の情報処理装置は、ECシステムの機能の一部として実現されることを想定するが、これに限らず、例えばECシステムと連動して動作する独立のシステムあるいは装置として構成されてもよい。
まず、第1実施形態の情報提示装置について説明する。図1は、第1実施形態の情報提示装置の構成例を示す図である。本実施形態の情報提示装置は、図1に示すように、第1スコア算出部10と、第2スコア算出部20と、第3スコア算出部30と、第4スコア算出部40と、統合スコア算出部50と、提示部60とを備え、文書DB(Database)100から取得した第1商品と第2商品との組み合わせ効果に関する情報を含む推薦理由を画面200に表示して、ECシステムのサービスを利用しているユーザに提示する。なお、本実施形態の情報処理装置は、ECシステムの機能の一部として実現されることを想定するが、これに限らず、例えばECシステムと連動して動作する独立のシステムあるいは装置として構成されてもよい。
文書DB100は、本実施形態において検索対象とする任意の文書群であり、各種のWebページ、SNS、ブログなどを想定している。また、画面200は、ECシステムのサービスを利用しているユーザの端末装置に表示される画面を想定しており、一般的にはWebブラウザを搭載する端末装置に表示されるWeb画面である。
第1スコア算出部10は、A文書群抽出器11と、単語関連度評価器12とを含む。
A文書群抽出器11は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aに関する記載のあるA文書をすべて抽出してA文書群15を得る。
単語関連度評価器12は、A文書群15における各単語のヒストグラム(単語ごとの頻度を列挙したデータ)を作成し、各単語のそれぞれについて、A文書群15中の出現頻度に応じた第1スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第1スコアとする。したがって、第1スコアは負の値であり、A文書群15中の出現頻度が高い単語ほど、0に近い高い値の第1スコアが与えられる。
第2スコア算出部20は、B文書群抽出器21と、単語関連度評価器22とを含む。
B文書群抽出器21は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Bについての記載のあるB文書をすべて抽出してB文書群25を得る。
単語関連度評価器22は、B文書群25における各単語のヒストグラムを作成し、各単語のそれぞれについて、B文書群25中の出現頻度に応じた第2スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第2スコアとする。したがって、第2スコアは負の値であり、B文書群25中の出現頻度が高い単語ほど、0に近い高い値の第2スコアが与えられる。
第3スコア算出部30は、A∩B文書群抽出器31と、単語関連度評価器32とを含む。
A∩B文書群抽出器31は、文書DB100に対して単語ベースの検索を行い、文書DB100から商品Aと商品Bとの双方についての記載のあるA∩B文書をすべて抽出してA∩B文書群35を得る。
単語関連度評価器32は、A∩B文書群35における各単語のヒストグラムを作成し、各単語のそれぞれについて、A∩B文書群35中の出現頻度に応じた第3スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語の出現頻度は総単語数で割ることで数値を正規化し、logスケールにしたものを第3スコアとする。したがって、第3スコアは負の値であり、A∩B文書群中の出現頻度が高い単語ほど、0に近い高い値の第3スコアが与えられる。
第4スコア算出部40は、全文書群抽出器41と、単語重要度評価器42とを含む。
全文書群抽出器41は、文書DB100から文書をすべて抽出して全文書群45を得る。
単語重要度評価器42は、全文書群45における各単語が含まれる文書数のヒストグラムを作成し、各単語のそれぞれについて、全文書群45中における当該単語を含む文書の出現頻度に応じた第4スコアを算出する。ただし、各単語は辞書を用いて全半角・日英・送り仮名などの表記揺れを吸収する。また、各単語を含む文書の出現頻度は総文書数で割ることで数値を正規化し、logスケールにしてさらに正負を反転させたものを第4スコアとする。したがって、第4スコアは正の値であり、当該単語を含む文書の出現頻度が低いほど高い値の第4スコアが与えられる。
統合スコア算出部50は、A∩B文書群35に含まれる各単語のそれぞれについて、第3スコアと、第1スコアと、第2スコアと、第4スコアとを用いて、後述の式(1)を用いた計算によって統合スコアを算出する。統合スコアは、商品Aと商品Bとの双方に関する話題に対する固有性を表す指標であり、商品Aと商品Bとの双方に関する話題に対する固有性が高い単語ほど、高い値の統合スコアが与えられる。
提示部60は、固有語出力器61と、固有文出力器62とを含む。
固有語出力器61は、統合スコアに基づいて、商品Aと商品Bとの双方に関する話題に対する固有性が高い1以上の重要単語(固有語)を選択し、単語ベースの推薦理由65として画面200に出力する。推薦理由が単語のみでよい場合は、この固有語出力器61が出力する単語ベースの推薦理由65が画面200に表示される。
固有文出力器62は、A∩B文書群35から、固有語出力器61により選択された重要単語(固有語)を多く持つ1以上の文を選択し、文ベースの推薦理由66として画面200に出力する。推薦理由を文とすることが要求される場合は、この固有文出力器62が出力する文ベースの推薦理由66が画面200に表示される。また、固有語出力器61が出力する単語ベースの推薦理由65と、固有文出力器62が出力する文ベースの推薦理由66との双方を画面200に表示させるようにしてもよい。
なお、本実施形態では、固有文出力器62の処理単位を文としているが、固有文出力器62は、文ではなく、フレーズ、パッセージ、パラグラフなどを処理単位としてもよい。この場合も、固有文出力器62の処理単位が変わるだけで、同様の処理により所望のテキストを推薦理由として画面200に表示させることができる。
次に、本実施形態の情報提示装置を構成する上述した各部による処理手順の詳細について説明する。
まず、A文書群抽出器11の処理手順を説明する。A文書群抽出器11の処理は、文書DB100からすべてのA文書を見つけ出すことが目的である。A文書の抽出は、例えば、従来的な方法を用いた単語ベースの検索により行うことができる。一般的な検索処理では、検索対象の文書群のインデックスをあらかじめ作成しておく処理方式を用いるのが一般的である。しかし、本実施形態では説明を簡単にするため、インデックスを作成しないで検索するgrep方式を用いるものとする。
図2は、A文書群抽出器11の処理手順を示すフローチャートである。A文書群抽出器11は、まず、A商品に関するメタデータから商品名を取り出して、これを検索のクエリとする(ステップS101)。
次に、A文書群抽出器11は、クエリの表現正規化を行う(ステップS102)。具体的には、A文書群抽出器11は、まずクエリの表記ゆれ(半全角、日英、送り仮名など)を吸収し、さらに図3に示すような同意語辞書を用いて、クエリ(ここでは商品Aの商品名)を代表的表現に置き換える。例えば、クエリ「スマホ」は「スマートフォン」に置換され、クエリ「パソコン」は「PC」に置換される。
次に、A文書群抽出器11は、文書DB100から文書を1つ取り出す(ステップS103)。そして、A文書抽出器11は、ステップS103で取り出した文書に含まれる各単語に対して、ステップS102と同様の手法により表現正規化を行う(ステップS104)。
次に、A文書群抽出器11は、ステップS104で単語の表現正規化が行われた文書内に、ステップS102で表現正規化が行われたクエリ(つまり商品Aの商品名)が含まれているか確認し、表現正規化されたクエリが含まれていれば、出力するA文書群15に当該文書を追加する(ステップS105)。
次に、A文書群抽出器11は、文書DB100から取り出していない文書があるか否かを判定し(ステップS106)、文書DB100から取り出していない文書があれば(ステップS106:Yes)、ステップS103に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS103~ステップS105の処理を行っていれば(ステップS106:No)、A文書群抽出器11は、A文書群15を出力し(ステップS107)、一連の処理を終了する。
B文書群抽出器21の処理は、文書DB100からすべてのB文書を見つけ出すことが目的である。B文書の抽出は、A文書の抽出と同様に単語ベースの検索により行う。B文書群抽出器21の処理は、検索に用いるクエリが商品Bの商品名に置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器11の処理と同様であるため、詳細な説明は省略する。
A∩B文書群抽出器31の処理は、文書DB100からすべてのA∩B文書を見つけ出すことが目的である。A∩B文書の抽出は、A文書やB文書の抽出と同様に単語ベースの検索により行う。A∩B文書群抽出器31の処理は、検索に用いるクエリが商品Aの商品名と商品Bの商品名のアンド条件となり、出力する文書群がA∩B文書群35となるだけで、上述したA文書群抽出器11やB文書群抽出器21の処理と同様であるため、詳細な説明は省略する。
全文書群抽出器41の処理は、文書DB100から全文書を取り出して、後続処理のためにそれぞれの文書に含まれる各単語の表現正規化を行うことが目的である。
図4は、全文書群抽出器41の処理手順を示すフローチャートである。全文書群抽出器41は、まず、文書DB100から文書を1つ取り出す(ステップS201)。そして、全文書抽出器41は、ステップS201で取り出した文書に含まれる各単語に対して、図2のステップS102と同様の手法により表現正規化を行い(ステップS202)、出力する全文書群45に当該文書を追加する(ステップS203)。
次に、全文書群抽出器41は、文書DB100から取り出していない文書があるか否かを判定し(ステップS204)、文書DB100から取り出していない文書があれば(ステップS204:Yes)、ステップS201に戻って以降の処理を繰り返す。一方、文書DB100のすべての文書に対してステップS201~ステップS203の処理を行っていれば(ステップS204:No)、全文書群抽出器41は、全文書群45を出力し(ステップS205)、一連の処理を終了する。
次に、単語関連度評価器12の処理手順を説明する。単語関連度評価器12の処理は、A文書群15に含まれる各単語について、商品Aとの関連性を表す第1スコアを算出することを目的とする。本実施形態では、A文書群15における各単語の出現数を総単語数で割りlogスケールに変換することで各単語の対数確率を求め、これを第1スコアとする。これは、単位テキスト量あたりの各単語の頻度を計測していることとなり、情報検索においてよく用いられる指標であるtf(term frequency)を正規化したものと同等と言える。
図5は、単語関連度評価器12の処理手順を示すフローチャートである。単語関連度評価器12は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS301)。
次に、単語関連度評価器12は、A文書群15から文書を1つ取り出す(ステップS302)。そして、単語関連度評価器12は、ステップS302で取り出した文書内に含まれる単語のヒストグラムを作成し(ステップS303)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS304)。
次に、単語関連度評価器12は、A文書群15から取り出していない文書があるか否かを判定し(ステップS305)、A文書群15から取り出していない文書があれば(ステップS305:Yes)、ステップS302に戻って以降の処理を繰り返す。一方、A文書群15のすべての文書に対してステップS302~ステップS304の処理を行っていれば(ステップS305:No)、単語関連度評価器12は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS306)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、A文書群15中の総単語数をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器12は、ステップS306で算出した各単語の対数確率を、各単語の第1スコアとして出力し(ステップS307)、一連の処理を終了する。なお、x=0の場合、対数確率は-∞となる。∞や-∞は計算機では直接扱えないため、極端に大きな値や小さな値で代用する方法が考えられる。以降においても∞や-∞を扱う場合は同様の方法を用いればよい。
単語関連度評価器22の処理は、B文書群25に含まれる各単語について、商品Bとの関連性を表す第2スコアを算出することを目的とする。第2スコアは、第1スコアと同様に、B文書群25に含まれる各単語の対数確率である。単語関連度評価器22の処理は、与えられる文書セットがB文書群25に置き換わり、B文書群25に含まれる各単語の対数確率を第2スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。
単語関連度評価器32の処理は、A∩B文書群35に含まれる各単語について、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。第3スコアは、第1スコアや第2スコアと同様に、A∩B文書群35に含まれる各単語の対数確率である。単語関連度評価器32の処理は、与えられる文書セットがA∩B文書群35に置き換わり、A∩B文書群35に含まれる各単語の対数確率を第3スコアとして出力するだけで、上述した単語関連度評価器12の処理と同様であるため、詳細な説明は省略する。
次に、単語重要度評価器42の処理手順を説明する。単語重要度評価器42の処理は、文書DB100内の各単語が持つ一般的な重要性を表す第4スコアを算出することを目的とする。本実施形態では、単語の重要性の指標として情報検索などでよく用いられるidf(Inverse Document Frequency)を求めて、これを各単語の第4スコアとする。ある単語のidfは,当該単語を含む文書の負の対数確率である。つまり、当該単語を含む文書数をx、全文書数をyとすると、idf=-log(x/y)である。一般的に、めったに出現しない単語(すなわち出現確率の低い単語)は、出現した際に読者に与える情報量が多く重要であると考えられるが、この場合、idfは高い値を示す。
図6は、単語重要度評価器42の処理手順を示すフローチャートである。単語重要度評価器42は、まず、各単語の出現数を集計するための集計用ヒストグラムを初期化する(ステップS401)。
次に、単語重要度評価器42は、全文書群45から文書を1つ取り出す(ステップS402)。そして、単語重要度評価器42は、ステップS402で取り出した文書内に含まれる単語の2値ヒストグラムを作成し(ステップS403)、得られたヒストグラムを集計用ヒストグラムに加算する(ステップS404)。2値ヒストグラムは、1か0の頻度値しか持たないヒストグラムであり、文書内に出現する単語に対して、出現数にかかわらず1が与えられる。
次に、単語重要度評価器42は、全文書群45から取り出していない文書があるか否かを判定し(ステップS405)、全文書群45から取り出していない文書があれば(ステップS405:Yes)、ステップS402に戻って以降の処理を繰り返す。一方、全文書群45のすべての文書に対してステップS402~ステップS404の処理を行っていれば(ステップS405:No)、単語重要度評価器42は、集計用ヒストグラムから各単語を含む文書の負の対数確率を割り出す(ステップS406)。具体的には、集計用ヒストグラムが示す各単語の頻度x、全文書群45の総文書数をyとすると、負の対数確率は-log(x/y)である。そして、単語重要度評価器42は、各単語のそれぞれについて、ステップS406で算出した当該単語を含む文書の負の対数確率を、各単語の第4スコアとして出力し(ステップS407)、一連の処理を終了する。
次に、統合スコア算出部50の処理手順を説明する。統合スコア算出部50の処理は、A∩B文書群35内の各単語について、商品Aと商品Bとの双方に関する話題に対する固有性(つまり、A∩B文書群35にのみ顕著に出現する単語であるかどうかの度合い)を表す指標となる統合スコアを算出することを目的とする。これにより、商品Aと商品Bとの組み合わせに関する説明にふさわしい単語を見つけることができるようになる。
本実施形態では、統合スコアの計算に下記式(1)を用いるものとする。ただし、下記式(1)のwは単語、ntf(w)は与えられた文書セットにおける単語wの対数確率、idfは全文書群45における単語wを含む文書の負の対数確率である。
式(1)の第1項は、A∩B文書群35における単語wの対数確率を示しており、単語関連度評価器32が出力する第3スコアに相当する。この第1項の値(第3スコア)が高いほど、当該単語wが、A∩B文書群35において多く出現していることを示している。
式(1)の第2項は、A文書群15における単語wの対数確率を示しており、単語関連度評価器12が出力する第1スコアに相当する。この第2項の値(第1スコア)が高いほど、当該単語wがA文書群15において多く出現していることを示している。
式(1)の第3項は、B文書群25における単語wの対数確率を示しており、単語関連度評価器22が出力する第2スコアに相当する。この第3項の値(第2スコア)が高いほど、当該単語wがB文書群25において多く出現していることを示している。
式(1)の第4項は、全文書群45における単語wの希少性を示しており、単語重要度評価器42が出力する第4スコアに相当する。この第4項の値(第4スコア)が高いほど、当該単語wは希少性があり、出現したときの情報量が多く重要な単語であることを示している。
式(1)は、第1項から第2項および第3項を減算して統合スコアを求める計算式となっている。これにより、A∩B文書群35において多く出現し、かつ、A文書群15やB文書群25ではあまり出現していない単語に対し、高い値の統合スコアが与えられることとなる。このことから、統合スコアは、商品Aや商品Bの個別説明ではなく、両商品にまたがる説明にふさわしい度合いを示していると考えられる。なお、第1項を2倍しているのは、第1項から減算している項が2つあるためである。A∩B文書群35、A文書群15、B文書群25のそれぞれで同頻度で出現する単語の固有性は0と考えられるが、式(1)のように第1項を2倍しておくことで、この場合の統合スコアを0とすることができる。ただし、第1項を2倍することは必須ではなく、第1項を2倍せずに第2項および第3項を減算してもよい。
また、式(1)は、第1項から第2項および第3項を減算した値に、さらに第4項を乗算して統合スコアを求める計算式となっている。これにより、各単語の一般的な観点での重要性を加味した統合スコアが得られる。つまり、A文書群15の文書数、B文書群25の文書数、およびA∩B文書群35の文書数が十分でない場合、第4項を乗算せずに各単語の統合スコアを算出すると統合スコアが過適応してしまうリスクがあるが、第4項を乗算することで、このリスクを回避できる。ただし、第4項の乗算は必須ではなく、第4項を乗算せずに統合スコアを算出してもよい。
図7は、統合スコア算出部50の処理手順を示すフローチャートである。統合スコア算出部50は、まず、A∩B文書群35から単語を1つ取り出す(ステップS501)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器32が出力した第3スコアの値を、式(1)の第1項に当てはめる(ステップS502)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器12が出力した第1スコアの値を、式(1)の第2項に当てはめる(ステップS503)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語関連度評価器22が出力した第2スコアの値を、式(1)の第3項に当てはめる(ステップS504)。
次に、統合スコア算出部50は、ステップS501で取り出した単語について、単語重要度評価器42が出力した第4スコアの値を、式(1)の第4項に当てはめる(ステップS505)。
次に、統合スコア算出部50は、式(1)を用いて、ステップS501で取り出した単語の統合スコアを算出する(ステップS506)。
次に、統合スコア算出部50は、A∩B文書群35から取り出していない単語があるか否かを判定し(ステップS507)、A∩B文書群35から取り出していない単語があれば(ステップS507:Yes)、ステップS501に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての単語に対してステップS501~ステップS506の処理を行っていれば(ステップS507:No)、統合スコア算出部50は、各単語の統合スコアを出力し(ステップS508)、一連の処理を終了する。
次に、固有語出力器61の処理手順を説明する。固有語出力器61の処理は、A∩B文書群35に含まれる単語のうち、商品Aと商品Bとの双方に関する話題に対する固有性の高い単語(固有語)を重要単語として選択して出力することを目的とする。本実施形態では、A∩B文書群35に含まれる単語のうち、統合スコアが高い上位k個の単語を重要単語として出力するものとする。
すなわち、固有語出力器61は、統合スコア算出部50から出力された統合スコアを値が高い順にソートし、統合スコアの値が高い順に上記k個の単語を重要単語として選択して出力する。B商品の推薦理由が単語のみでよい場合は、この固有語出力器61が出力する重要単語が、単語ベースの推薦理由65として画面200に表示される。また、推薦理由を文とすることが要求される場合は、固有語出力器61が出力する重要単語が、固有文出力器62に渡される。
次に、固有文出力器62の処理手順を説明する。固有文出力器62の処理は、A∩B文書群35から重要単語を多く含む文を見つけ出し、文ベースの推薦理由66として画面200に出力することを目的とする。本実施形態では、重要単語を最も多く含むA∩B文書群35中の文をベスト文として見つけ出し、文ベースの推薦理由66として画面200に出力するものとする。なお、上述したように、文の代わりにフレーズ、パッセージ、パラグラフなどを推薦理由として画面200に表示させるようにしてもよい。
図8は、固有文出力器62の処理手順を示すフローチャートである。固有文出力器62は、まず、ベスト文およびベストスコアを初期化する(ステップS601)。つまり、文ベースの推薦理由66として最終的に出力するベスト文を空文とし、そのベスト文に含まれる各単語の統合スコアの合計値であるベストスコアを-∞にする。
次に、固有文出力器62は、A∩B文書群35から文を1つ取り出す(ステップS602)。そして、固有文出力器62は、ステップS602で取り出した文に含まれる各単語の統合スコアを合計したものを当該文のスコアとする(ステップS603)。
次に、固有文出力器62は、ステップS603で求めた文のスコアがベストスコアを上回っているか確認し、ベストスコアを上回っていれば、ベスト文およびベストスコアを、当該文とそのスコアで置き換える(ステップS604)。
次に、固有文出力器62は、A∩B文書群35から取り出していない文があるか否かを判定し(ステップS605)、A∩B文書群35から取り出していない文があれば(ステップS605:Yes)、ステップS602に戻って以降の処理を繰り返す。一方、A∩B文書群35に含まれるすべての文に対してステップS602~ステップS604の処理を行っていれば(ステップS605:No)、固有文出力器62は、ベスト文を文ベースの推薦理由66として出力し(ステップS606)、一連の処理を終了する。
以上、具体的な例を挙げながら説明したように、本実施形態の情報提示装置によれば、商品Aと商品Bとの双方に関する話題に対する固有が高い単語、あるいはその単語を含む文を特定して単語ベースの推薦理由65、あるいは文ベースの推薦理由66として画面200に表示させる。したがって、この情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。
<第2実施形態>
次に、第2実施形態の情報提示装置について説明する。本実施形態では、ECシステムを利用したユーザによるレビュー記事など、ある商品について記載されていることが事前に予測される文書を、検索対象の文書群として用いる。ECシステムは、商品ページごとにユーザによるレビュー記事を管理していることが多い。このようなレビュー記事は、それぞれの商品に対する感想などを記載した文書であるため、推薦理由を見つけ出す対象として有効に利用できる。ただし、各レビュー記事は、レビュー対象の商品ID(商品識別情報)およびレビュー記事を記載したユーザの購入ログがメタデータとして紐付けられているとする。以下、商品IDおよび購入ログと紐付けられたレビュー記事をラベル付き文書と呼ぶ。
次に、第2実施形態の情報提示装置について説明する。本実施形態では、ECシステムを利用したユーザによるレビュー記事など、ある商品について記載されていることが事前に予測される文書を、検索対象の文書群として用いる。ECシステムは、商品ページごとにユーザによるレビュー記事を管理していることが多い。このようなレビュー記事は、それぞれの商品に対する感想などを記載した文書であるため、推薦理由を見つけ出す対象として有効に利用できる。ただし、各レビュー記事は、レビュー対象の商品ID(商品識別情報)およびレビュー記事を記載したユーザの購入ログがメタデータとして紐付けられているとする。以下、商品IDおよび購入ログと紐付けられたレビュー記事をラベル付き文書と呼ぶ。
第1実施形態では、一般的な文書を検索対象としていたため、A文書、B文書、A∩B文書を検索する手がかりとして、文書内に商品名が含まれているかどうかを用いていた。これに対し本実施形態では、検索対象とする各文書に付与されたレビュー対象の商品ID(レビュー記事に商品名が紐付けられている場合は商品名でもよい)を用いて検索する方法を取る。このため、文書検索エラーを排除できる(第1実施形態では表現揺れなどによるエラーのリスクがある)ほか、単に「おいしかった!また買います」などのように商品名が含まれていない文書であっても、メタデータを用いることで簡単に仕分けを行うことができるメリットがある。ただし、文書に紐付けられている商品IDは1つであるため、A∩B文書を判定するのには工夫が必要である。そこで、本実施形態では、近いタイミングで商品Aと商品Bの両商品を購入したユーザがこれらの商品の購入から近いタイミングで記載したレビュー記事は、両商品への言及を含むレビュー記事である可能性が高いという仮説に基づいて、A∩B文書を特定するようにしている。
図9は、第2実施形態の情報提示装置の構成例を示す図である。第2実施形態の情報提示装置は、図9に示すように、第1実施形態の第1スコア算出部10、第2スコア算出部20および第3スコア算出部30(図1参照)に代えて、第1スコア算出部70、第2スコア算出部80および第3スコア算出部90を備えている。また、第2実施形態の情報提示装置は、検索対象の文書集合として、第1実施形態の文書DB100(図1参照)に代えて、ラベル付き文書DB300を用いる。ラベル付き文書DB300は、上述したように、例えばECシステムを利用したユーザによるレビュー記事の集合であり、各レビュー記事は商品IDおよび購入ログ400と紐付けられている。なお、第2実施形態の情報提示装置におけるその他の構成は、上述した第1実施形態と同様であるため、以下、第1実施形態と共通の構成要素については同一の符号を付して、重複した説明を適宜省略する。
第1スコア算出部70は、A文書群抽出器71と、単語関連度評価器12とを含む。A文書群抽出器71は、商品Aの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA文書をすべて抽出してA文書群15を得る。単語関連度評価器12は、第1実施形態と共通である。
第2スコア算出部80は、B文書群抽出器81と、単語関連度評価器22とを含む。B文書群抽出器81は、商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からB文書をすべて抽出してB文書群25を得る。単語関連度評価器22は、第1実施形態と共通である。
第3スコア算出部90は、A∩B文書群抽出器91と、単語関連度評価器92とを含む。
A∩B文書群抽出器91は、商品Aの商品IDおよび商品Bの商品IDを用いてラベル付き文書DB300に対する検索を行い、ラベル付き文書DB300からA∩B文書を抽出して確信度付きA∩B文書群95を得る。ここでラベル付き文書DB300から抽出されるA∩B文書は、上述した仮説に基づいて抽出されるレビュー記事などのラベル付き文書であり、その文書に商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられたものである。
単語関連度評価器92は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の関連度評価器32と同様に、出現頻度に応じた第3スコアを算出する。ただし、本実施形態では、A∩B文書のそれぞれに商品Aと商品Bとの双方に関する記述が含まれていることの確信度が与えられており、各単語の頻度が、その単語が出現する文書の確信度を用いて計算される点が第1実施形態とは異なる。
次に、本実施形態の情報提示装置において、第1実施形態とは異なる部分の処理手順の詳細について説明する。
まず、A文書群抽出器71の処理手順を説明する。A文書群抽出器71の処理は、ラベル付き文書DB300からすべてのA文書を見つけ出すことが目的である。
図10は、A文書群抽出器71の処理手順を示すフローチャートである。A文書群抽出器71は、まず、A商品に関するメタデータからA商品の商品IDを取り出して、これを検索のクエリとする(ステップS701)。
次に、A文書群抽出器71は、ラベル付き文書DB300から文書を1つ取り出す(ステップS702)。そして、A文書抽出器71は、ステップS701で取り出した文書のラベルがクエリの商品IDと一致するか確認し、一致していれば、出力するA文書群15に当該文書を追加する(ステップS703)。
次に、A文書群抽出器71は、ラベル付き文書DB300から取り出していない文書があるか否かを判定し(ステップS704)、ラベル付き文書DB300から取り出していない文書があれば(ステップS704:Yes)、ステップS702に戻って以降の処理を繰り返す。一方、ラベル付き文書DB300のすべての文書に対してステップS702およびステップS703の処理を行っていれば(ステップS704:No)、A文書群抽出器71は、A文書群15を出力し(ステップS705)、一連の処理を終了する。
B文書群抽出器81の処理は、ラベル付き文書DB300からすべてのB文書を見つけ出すことが目的である。B文書群抽出器81の処理は、検索に用いるクエリが商品Bの商品IDに置き換わり、出力する文書群がB文書群25となるだけで、上述したA文書群抽出器71の処理と同様であるため、詳細な説明は省略する。
次に、A∩B文書群抽出器91の処理手順を説明する。A∩B文書群抽出器91の処理は、ラベル付き文書DB300からA∩B文書を見つけ出すことが目的である。ラベル付き文書DB300内の各ラベル付き文書は1つの商品IDにしか結びついていないため、そのラベル付き文書が商品Aと商品Bとの双方に関する記述を含んでいるかどうかをメタデータだけから判定することはできない。ここで視点を変えて、商品Aと商品Bとを同時あるいは近いタイミングで購入したユーザは、両商品の組合せに意図を持っており、そのようなユーザがそれに近いタイミングで記載したレビュー文書には、両商品の組合せに関する記述が含まれている可能性が高いと考えられる。そこで、本実施形態では、購買ログ400を用いてこの仮説に適合するユーザを選び、このユーザが記載したレビュー記事から、この仮説に適合するレビュー記事を、A∩B文書として抽出する。さらに、このように抽出されたA∩B文書群に対し、商品Aと商品Bとの双方に関する記述が含まれていることの確信度を与えて、確信度付きA∩B文書群95を得る。
図11は、A∩B文書群抽出器91の処理手順を示すフローチャートである。A∩B文書群抽出器91は、まず、購入ログ400から1人のユーザを選択する(ステップS801)。
次に、A∩B文書群抽出器91は、ステップS801で選択したユーザが、所定の第1期間内に商品Aと商品Bを購入していることを示す購入ログのペアをすべて抜き出す(ステップS802)。このときの判定例を図12(a)に示す。上記の第1期間を2日とすると、図12(a)の判定例1のように、ユーザXの購入ログのうち、「11/7 15:20 商品A購入」と「11/7 18:20 商品B購入」のペアは、両商品を購入した時間差が2日以内のため、ステップS802の処理で抜き出される。一方、「11/7 18:20 商品B購入」と「11/10 9:50 商品A購入」のペアは、両商品を購入した時間差が2日を超えるため、ステップS802の処理では抜き出されない。この購入ログのペアの購入時刻の時間差を以下では「購入時間差」と呼ぶ。
次に、A∩B文書群抽出器91は、ステップS802で抜き出した購入ログのペアを1つ取り出す(ステップS803)。そして、A∩B文書群抽出器91は、ラベル付き文書DB300から、ステップS801で選択したユーザによって、ステップS803で取り出した購入ログのペアが示す購入時刻のうちの遅い方の購入時刻から所定の第2期間内に記載された、商品Aまたは商品Bの商品IDをラベルとして持つ文書(レビュー記事)をすべて取り出す(ステップS804)。
このときの判定例を図12(b)に示す。上記の第2期間を3日とすると、図12(b)の判定例2のように、ユーザXが記載したレビュー記事のうち、「11/9 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日以内に記載されたレビュー記事であるため、ステップS804の処理で取り出される。一方、「11/11 12:00 商品Aレビュー記事」は、「11/7 18:20 商品B購入」の購入ログの購入時刻から3日経過した後に記載されたレビュー記事であるため、ステップS804の処理では取り出されない。この購入ログの購入時刻とレビュー記載時刻の時間差を以下では「レビュー時間差」と呼ぶ。
次に、A∩B文書群抽出器91は、ステップS803で取り出した購入ログのペアの購入時間差に応じた確信度を、ステップS804で取り出した各文書に対して割り当てる(ステップS805)。例えば、購入ログのペアが同じセッションでの購入の場合の確信度を100%、1時間以内の購入の場合の確信度を90%、2時間以内の購入の場合の確信度を80%、同日購入の場合の確信度を50%といったように、購入時間差が大きいほど低い値となる確信度を与える。なお、本実施形態では、ラベル付き文書DB300から取り出した文書に対し、その文書を取り出す要因となった購入ログのペアの購入時間差に応じた確信度を与えるようにしているが、確信度を与える方法はこれに限らない。例えば、ラベル付き文書DB300から取り出した文書に対して、レビュー時間差が大きくなるほど低い値となる確信度を与えるようにしてもよいし、購入時間差とレビュー時間差との双方を考慮した確信度を与えるようにしてもよい。
次に、A∩B文書群抽出器91は、ステップS805の処理により得られた確信度付き文書を、出力する確信度付きA∩B文書群95に追加する(ステップS806)。
次に、A∩B文書群抽出器91は、ステップS803で取り出していない購入ログのペアがあるか否かを判定し(ステップS807)、取り出していない購入ログのペアがあれば(ステップS807:Yes)、ステップS803に戻って以降の処理を繰り返す。一方、すべての購入ログのペアに対してステップS803~ステップS806の処理を行っていれば(ステップS807:No)、A∩B文書群抽出器91は、ステップS801で選択していないユーザがいるか否かを判定し(ステップS808)、選択していないユーザがいれば(ステップS808:Yes)、ステップS801に戻って以降の処理を繰り返す。
一方、購入ログに含まれるすべてのユーザを選択してステップS802~ステップS806の処理を行っていれば(ステップS808:No)、A∩B文書群抽出器91は、確信度付きA∩B文書群95を出力し(ステップS809)、一連の処理を終了する。
次に、単語関連度評価器92の処理手順を説明する。単語関連度評価器92の処理は、確信度付きA∩B文書群95に含まれる各単語のそれぞれについて、第1実施形態の単語関連度評価器32と同様に、商品Aおよび商品Bの双方との関連性を表す第3スコアを算出することを目的とする。ただし、A∩B文書には確信度が与えられているため、それに伴う処理が第1実施形態の単語関連度評価器32とは異なる。
図13は、単語関連度評価器92の処理手順を示すフローチャートである。単語関連度評価器92は、まず、各単語の出現数を集計するための集計用ヒストグラムおよび総単語数を初期化する(ステップS901)。総単語数は、後述のように確信度付きA∩B文書群95に含まれる総単語数を文書の確信度に応じて調整した値である。
次に、単語関連度評価器92は、確信度付きA∩B文書群95から文書を1つ取り出す(ステップS902)。そして、単語関連度評価器92は、ステップS902で取り出した文書内に含まれる単語のヒストグラムを作成する(ステップS903)。ただし、この際、各単語に与えられる頻度は、実際の頻度に確信度を積算したものとする。例えば確信度が50%の文書において、単語Aが10回、単語Bが6回、単語Cが4回出現したとすると、単語Aに与える頻度は5回、単語Bに与える頻度は3回、単語Cに与える頻度は2回となる。
次に、単語関連度評価器92は、ステップS903で得られたヒストグラムを集計用ヒストグラムに加算する(ステップS904)。また、単語関連度評価器92は、当該文書の単語数に確信度を積算した値を総単語数に加算する(ステップS905)。例えば、当該文書の単語数が1000、確信度が50%であれば、加算する単語数は500となる。
次に、単語関連度評価器92は、確信度付きA∩B文書群95から取り出していない文書があるか否かを判定し(ステップS906)、確信度付きA∩B文書群95から取り出していない文書があれば(ステップS906:Yes)、ステップS902に戻って以降の処理を繰り返す。一方、確信度付きA∩B文書群95のすべての文書に対してステップS902~ステップS905の処理を行っていれば(ステップS906:No)、単語関連度評価器92は、集計用ヒストグラムから各単語の対数確率を割り出す(ステップS907)。具体的には、集計用ヒストグラムが示す各単語の頻度をx、確信度付きA∩B文書群95の総単語数(ステップS905で加算された総単語数)をyとすると、対数確率はlog(x/y)である。そして、単語関連度評価器92は、ステップS907で算出した各単語の対数確率を、各単語の第3スコアとして出力し(ステップS908)、一連の処理を終了する。
なお、単語関連度評価器92において、上述した購入時間差やレビュー時間差に応じた確信度に基づく処理を行う方法を用いる場合、A∩B文書群抽出器91においてA∩B文書群を抽出する際に、第1期間や第2期間を用いた閾値処理を必ずしも行わなくてもよい。A∩B文書群抽出器91において閾値処理を行わなければ、非常に大きな購入時間差やレビュー時間差を持つレビュー記事も抽出されるが、そのようなレビュー記事には非常に小さな確信度が与えられるためである。閾値処理を行わなければ抽出されるレビュー記事が増大するため計算量が増えるが、閾値処理によるレビュー記事の取りこぼしを回避することができる。
本実施形態の情報提示装置におけるその他の処理は、上述した第1実施形態と同様である。つまり、本実施形態の情報提示装置においても、統合スコア算出部50により、確信度付きA∩B文書群95に含まれる各単語について統合スコアが算出され、固有語出力器61により、統合スコアが高い重要単語が単語ベースの推薦理由65として画面200に出力され、固有文出力器62により、重要単語を多く含む文が文ベースの推薦理由66として画面200に出力される。
したがって、本実施形態の情報提示装置を用いることによって、ECシステムを利用するユーザに対して、商品Aと商品Bとの組み合わせ効果に関する情報を含む推薦理由を適切に提示して、調和型推薦による販売促進の効果を高めることができる。すなわち、ECシステムを利用するユーザにとっては、本実施形態の情報提示装置により提示される推薦理由を参照することでB商品を購入する動機付けが生まれ、新体験を伴う商品購入がしやすくなり、店舗にとっては販売機会を増やすことができる。
以上説明した第1実施形態または第2実施形態の情報提示装置における上述した各機能は、例えば、情報提示装置において所定のプログラムを実行することにより実現することができる。この場合、情報提示装置は、例えば図14に示すように、CPU(Central Processing Unit)510などのプロセッサ、ROM(Read Only Memory)520やRAM(Random Access Memory)530などの記憶装置、表示器や各種操作デバイスが接続される入出力I/F540、ネットワークに接続して通信を行う通信I/F550、各部を接続するバス560などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。
上述した情報提示装置で実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、上述した情報提示装置で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の情報提示装置で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。
また、上述した情報提示装置で実行されるプログラムを、ROM520などに予め組み込んで提供するように構成してもよい。
上述した情報提示装置で実行されるプログラムは、情報提示装置の各処理部(第1スコア算出部10,70、第2スコア算出部20,80、第3スコア算出部30,90、第4スコア算出部40、統合スコア算出部50および提示部60)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU510(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM530(主記憶)上にロードされ、上述した各処理部がRAM530(主記憶)上に生成されるようになっている。なお、実施形態の情報提示装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
Claims (8)
- ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置であって、
検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する第1スコア算出部と、
検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する第2スコア算出部と、
検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する第3スコア算出部と、
前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する統合スコア算出部と、
前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する提示部と、を備える情報提示装置。 - 前記第1スコア算出部は、検索対象の文書群から前記第1商品を表す記述を含む前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
前記第2スコア算出部は、検索対象の文書群から前記第2商品を表す記述を含む前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
前記第3スコア算出部は、検索対象の文書群から前記第1商品を表す記述と前記第2商品を表す記述との双方を含む前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。 - 検索対象の文書群に含まれる各単語のそれぞれについて、検索対象の文書群における該単語を含む文書の出現頻度が低いほど高い値となる第4スコアを算出する第4スコア算出部をさらに備え、
前記統合スコア算出部は、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算した値に、さらに前記第4スコアを積算または加算して、前記統合スコアを算出する、請求項2に記載の情報提示装置。 - 検索対象の文書群は、商品の識別情報と関連付けられた文書群であり、
前記第1スコア算出部は、検索対象の文書群から前記第1商品の識別情報に関連付けられた前記第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1文書群における該単語の出現頻度が高いほど高い値となる前記第1スコアを算出し、
前記第2スコア算出部は、検索対象の文書群から前記第2商品の識別情報に関連付けられた前記第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2文書群における該単語の出現頻度が高いほど高い値となる前記第2スコアを算出し、
前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を購入したユーザによって記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項1に記載の情報提示装置。 - 前記第3スコア算出部は、検索対象の文書群から、前記第1商品と前記第2商品の双方を所定の第1期間内に購入したユーザによって、前記第1商品または前記第2商品の購入時から所定の第2期間内に記載された、前記第1商品の識別情報または前記第2商品の識別情報に関連付けられた前記第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度が高いほど高い値となる前記第3スコアを算出する、請求項4に記載の情報提示装置。
- 前記第3スコア算出部は、前記第3文書群に含まれる各文書について、前記第1商品と前記第2商品の購入時間の差、あるいは、前記第1商品または前記第2商品の購入時から該文書が記載された時刻までの時間差をもとに、該文書に前記第1商品と前記第2商品の双方についての記述が含まれていることの確信度を設定し、前記第3文書群に含まれる各単語のそれぞれについて、前記第3文書群における該単語の出現頻度に応じたスコアに対して、該単語を含む文書に設定したスコアを積算または加算し、前記第3スコアを算出する、請求項4または5に記載の情報提示装置。
- ユーザが参照している第1商品に調和する第2商品を推薦する際に、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由を提示する情報提示装置により実行される情報提示方法であって、
前記情報提示装置が、検索対象の文書群から前記第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する工程と、
前記情報提示装置が、検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する工程と、
前記情報提示装置が、前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する工程と、
前記情報提示装置が、前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記推薦理由として提示する工程と、を含む情報提示方法。 - コンピュータに、
検索対象の文書群からユーザが参照している第1商品に関する第1文書群を抽出し、該第1文書群に含まれる各単語のそれぞれについて、前記第1商品との関連性を表す第1スコアを算出する機能と、
検索対象の文書群から前記第1商品に調和する第2商品に関する第2文書群を抽出し、該第2文書群に含まれる各単語のそれぞれについて、前記第2商品との関連性を表す第2スコアを算出する機能と、
検索対象の文書群から前記第1商品と前記第2商品との双方に関する第3文書群を抽出し、該第3文書群に含まれる各単語のそれぞれについて、前記第1商品および前記第2商品の双方との関連性を表す第3スコアを算出する機能と、
前記第3文書群に含まれる各単語のそれぞれについて、前記第3スコアから前記第1スコアと前記第2スコアとを減算し、統合スコアを算出する機能と、
前記統合スコアに基づいて所定の基準に従って選択された1以上の重要単語、または、該重要単語を含む前記第3文書群中の1以上のテキストの少なくとも一方を、前記第1商品と前記第2商品との組み合わせ効果に関する情報を含む推薦理由として提示する機能と、を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201580077969.1A CN107533545B (zh) | 2015-05-11 | 2015-05-11 | 信息提示装置、信息提示方法及记录介质 |
PCT/JP2015/063532 WO2016181475A1 (ja) | 2015-05-11 | 2015-05-11 | 情報提示装置、情報提示方法およびプログラム |
US15/702,971 US20180005300A1 (en) | 2015-05-11 | 2017-09-13 | Information presentation device, information presentation method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/063532 WO2016181475A1 (ja) | 2015-05-11 | 2015-05-11 | 情報提示装置、情報提示方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/702,971 Continuation US20180005300A1 (en) | 2015-05-11 | 2017-09-13 | Information presentation device, information presentation method, and computer program product |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016181475A1 true WO2016181475A1 (ja) | 2016-11-17 |
Family
ID=57247832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/063532 WO2016181475A1 (ja) | 2015-05-11 | 2015-05-11 | 情報提示装置、情報提示方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180005300A1 (ja) |
CN (1) | CN107533545B (ja) |
WO (1) | WO2016181475A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010788A (zh) * | 2021-03-19 | 2021-06-22 | 成都欧珀通信科技有限公司 | 信息推送方法及装置、电子设备、计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417268B2 (en) * | 2017-09-22 | 2019-09-17 | Druva Technologies Pte. Ltd. | Keyphrase extraction system and method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225659A (ja) * | 2007-03-09 | 2008-09-25 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2009064187A (ja) * | 2007-09-05 | 2009-03-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2010113557A (ja) * | 2008-11-07 | 2010-05-20 | Nippon Telegr & Teleph Corp <Ntt> | レコメンデーション装置、レコメンデーション方法およびレコメンデーションプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5197310B2 (ja) * | 2008-11-06 | 2013-05-15 | 富士通コンポーネント株式会社 | 座標入力装置 |
JP2011095905A (ja) * | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US9286391B1 (en) * | 2012-03-19 | 2016-03-15 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
CN103377193B (zh) * | 2012-04-13 | 2018-02-16 | 阿里巴巴集团控股有限公司 | 信息提供方法、网页服务器以及网页浏览器 |
CN103839172B (zh) * | 2012-11-23 | 2017-12-29 | 阿里巴巴集团控股有限公司 | 商品推荐方法及系统 |
US20140351079A1 (en) * | 2013-05-24 | 2014-11-27 | University College Dublin | Method for recommending a commodity |
-
2015
- 2015-05-11 CN CN201580077969.1A patent/CN107533545B/zh not_active Expired - Fee Related
- 2015-05-11 WO PCT/JP2015/063532 patent/WO2016181475A1/ja active Application Filing
-
2017
- 2017-09-13 US US15/702,971 patent/US20180005300A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225659A (ja) * | 2007-03-09 | 2008-09-25 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2009064187A (ja) * | 2007-09-05 | 2009-03-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2010113557A (ja) * | 2008-11-07 | 2010-05-20 | Nippon Telegr & Teleph Corp <Ntt> | レコメンデーション装置、レコメンデーション方法およびレコメンデーションプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010788A (zh) * | 2021-03-19 | 2021-06-22 | 成都欧珀通信科技有限公司 | 信息推送方法及装置、电子设备、计算机可读存储介质 |
CN113010788B (zh) * | 2021-03-19 | 2023-05-23 | 成都欧珀通信科技有限公司 | 信息推送方法及装置、电子设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107533545B (zh) | 2021-01-12 |
CN107533545A (zh) | 2018-01-02 |
US20180005300A1 (en) | 2018-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghiassi et al. | A domain transferable lexicon set for Twitter sentiment analysis using a supervised machine learning approach | |
Assiri et al. | Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
Korenek et al. | Sentiment analysis on microblog utilizing appraisal theory | |
US10878233B2 (en) | Analyzing technical documents against known art | |
Aisopos et al. | Sentiment analysis of social media content using n-gram graphs | |
JP5442401B2 (ja) | 行動情報抽出システム及び抽出方法 | |
dos Santos et al. | Computational personality recognition from facebook text: psycholinguistic features, words and facets | |
Serigos | Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish | |
Bhattacharjee et al. | Sentiment analysis using cosine similarity measure | |
Singh et al. | SentiVerb system: classification of social media text using sentiment analysis | |
Ghosh et al. | A rule based extractive text summarization technique for Bangla news documents | |
Verhoeven et al. | Gender profiling for Slovene Twitter communication: The influence of gender marking, content and style | |
Hassan et al. | Exploiting tweet sentiments in altmetrics large-scale data | |
Campesato | Natural language processing fundamentals for developers | |
Rathan et al. | Every post matters: a survey on applications of sentiment analysis in social media | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
JP6235386B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
WO2016181475A1 (ja) | 情報提示装置、情報提示方法およびプログラム | |
Zoya et al. | Assessing Urdu Language Processing Tools via Statistical and Outlier Detection Methods on Urdu Tweets | |
Iserman et al. | Dictionaries and decision trees for the 2019 CLPsych shared task | |
Balage Filho | Aspect extraction in sentiment analysis for portuguese language | |
WO2010060117A1 (en) | Method and system for improving utilization of human searchers | |
Francis et al. | SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation | |
de Jong | Making Sense of App Reviews: Efficient Analysis of User Reviews for Mobile Apps with STM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15891801 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15891801 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |