WO2014056408A1 - 推荐信息的方法、装置和服务器 - Google Patents

推荐信息的方法、装置和服务器 Download PDF

Info

Publication number
WO2014056408A1
WO2014056408A1 PCT/CN2013/084563 CN2013084563W WO2014056408A1 WO 2014056408 A1 WO2014056408 A1 WO 2014056408A1 CN 2013084563 W CN2013084563 W CN 2013084563W WO 2014056408 A1 WO2014056408 A1 WO 2014056408A1
Authority
WO
WIPO (PCT)
Prior art keywords
recommendation result
post
recommendation
behavior data
weight
Prior art date
Application number
PCT/CN2013/084563
Other languages
English (en)
French (fr)
Inventor
姚从磊
翟俊杰
王亮
温泉
李亚楠
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2014056408A1 publication Critical patent/WO2014056408A1/zh
Priority to US14/678,890 priority Critical patent/US10268960B2/en
Priority to US16/289,056 priority patent/US11710054B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to the field of the Internet, and in particular, to a method, an apparatus, and a server for recommending information. Background technique
  • An existing content recommendation method is a recommendation method based on user browsing behavior. The method assumes that users who browse the same content have the same interest, analyzes the browsing behavior of the users in the forum, and establishes a two-dimensional matrix of the user/browsing content. On this matrix, an algorithm such as collaborative filtering is used to calculate the degree of association between contents, thereby obtaining a recommendation result, and recommending the recommendation result to the user.
  • the inventors have found that the prior art has at least the following problems:
  • the interests of the same user may be multi-faceted, and the browsing behavior of the user may cover the content of different topics
  • the prior art The user in the middle of the book assumes that the users who browse the same content have the same interest, and the content of different topics is considered to be similar to the theme.
  • the recommended result is not necessarily the content that the user is interested in, and the content recommended to the user is reduced.
  • the embodiment of the invention provides a method and an apparatus for recommending information.
  • the technical solution is as follows:
  • a method for recommending information comprising:
  • the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommended content recommended to the specified user is obtained.
  • the pre-processing the search behavior data to obtain the first recommendation result includes: filtering out noise data in the search behavior data to obtain denoised data, where the denoising data includes the specified user The query string entered in the forum;
  • the pre-processing the browsing behavior data to obtain the second recommendation result comprises: analyzing the browsing behavior data, and acquiring a post in the forum that has been browsed by the specified user;
  • a browsing behavior matrix of the specified user according to each of the sub-topic segments, where the browsing behavior matrix includes: a sub-topic and a number of times the post in the forum appears in the sub-topic; Correlation calculation is performed on the browsing behavior matrix to obtain a second recommendation result.
  • the pre-processing the click behavior data to obtain the third recommendation result comprises: analyzing the click behavior data, obtaining related posts of each post in the forum, and the number of times each of the related posts is clicked ;
  • the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommended content recommended to the specified user is obtained, including:
  • the first recommendation result, the second, according to a preset first weight of the first recommendation result, a second weight of the second recommendation result, and a third weight of the third recommendation result The recommendation result and the third recommendation result are distributed and integrated, and the recommended content recommended to the specified user is obtained.
  • an apparatus for recommending information comprising:
  • An obtaining module configured to obtain search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum of the specified user
  • a pre-processing module configured to pre-process the search behavior data, the browsing behavior data, and the click behavior data of the recommended content to obtain a first recommendation result, a second recommendation result, and a third recommendation result;
  • the preprocessing module includes:
  • a filtering unit configured to filter out noise data in the search behavior data, to obtain denoised data, where the denoising data includes a query string input by the specified user in the forum; Counting each of the query strings (3 times the number of times the click post 1 ⁇ is triggered; the first calculating unit is configured to calculate the post ⁇ according to the number of times the post is triggered by each of the query strings The click probability W1 caused by each query string;
  • a first establishing unit configured to establish a query vector that causes the click of the post Ti according to the click probability w l triggered by the each query string, wherein the query vector is ⁇ Wl , w 2 , Wj , ..., w n >;
  • a second calculating unit configured to calculate a correlation between any two of the two posts according to the created query vector of each post, to obtain a first recommendation result.
  • the preprocessing module includes:
  • An obtaining unit configured to analyze the browsing behavior data, and obtain a post in the forum that has been browsed by the specified user;
  • a first dividing unit configured to divide the browsing behavior of the specified user into at least one parent topic segment according to a layout to which the browsed post belongs;
  • a third calculating unit configured to calculate a text similarity of the post title in each of the parent topic segments
  • a second dividing unit configured to perform the corresponding parent topic segment according to a dividing line between the sub-topic segments Dividing, obtaining at least one sub-topic segment
  • a second establishing unit configured to establish, according to each of the sub-topic segments, a browsing behavior matrix of the specified user, where the browsing behavior matrix includes: a sub-topic and a number of times the post in the forum appears in the sub-topic ;
  • a fourth calculating unit configured to perform correlation calculation on the browsing behavior matrix to obtain a second recommendation result.
  • the preprocessing module includes:
  • An analyzing unit configured to analyze the click behavior data, obtain related stickers of each post in the forum, and the number of times each of the related posts is clicked;
  • a reordering unit configured to reorder the related stickers in the forum according to the number of times each of the related posts is clicked and the time when the related posts are clicked, and the clicked time A number of related posts whose difference between the clicked time and the current time are within a preset range are ranked at the front end of the queue, and a third recommendation result is obtained.
  • the integration module includes:
  • a calculating unit configured to separately calculate a first average probability that each of the posts in the forum is posted in the first recommendation result, the second recommendation result, and the third recommendation result, and second Average probability and third average probability;
  • a determining unit configured to determine, according to the first average probability, the second average probability, and the third average probability, a weight of the first recommendation result, a weight of the second recommendation result, and the third The weight of the recommendation result;
  • a first integration unit configured to use, according to the weight of the first recommendation result, the weight of the second recommendation result, and the weight of the third recommendation result, the first recommendation result, the second recommendation result, and the The third recommendation result is integrated to obtain recommended content recommended to the designated user;
  • a second integration unit configured to: perform, according to the preset first weight of the first recommendation result, the second weight of the second recommendation result, and the third weight of the third recommendation result, to the first The recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated, and the recommended content recommended to the specified user is obtained.
  • a server comprising:
  • One or more processors are One or more processors.
  • the memory stores one or more programs, the one or more programs being configured to be executed by the one or more processors, the one or more programs including instructions for: obtaining a designation Search behavior data, browsing behavior data, and click behavior data for recommended content in the forum;
  • the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommended content recommended to the specified user is obtained.
  • the server also includes instructions for performing the following operations:
  • denoised data includes a query string input by the specified user in the forum; Counting the number of times the click post ⁇ is triggered by each query string;
  • the server also includes instructions for performing the following operations:
  • the browsing behavior matrix includes: a sub-topic and a number of times the post in the forum appears in the sub-topic;
  • Correlation calculation is performed on the browsing behavior matrix to obtain a second recommendation result.
  • the server also includes instructions for performing the following operations:
  • the server also includes instructions for performing the following operations:
  • Calculating, respectively, a first average probability, a second average probability, and a third occurrence of each of the posts in the forum posted in the first recommendation result, the second recommendation result, and the third recommendation result Average probability Determining, according to the first average probability, the second average probability, and the third average probability, a weight of the first recommendation result, a weight of the second recommendation result, and a weight of the third recommendation result, respectively;
  • the first recommendation result, the second, according to a preset first weight of the first recommendation result, a second weight of the second recommendation result, and a third weight of the third recommendation result The recommendation result and the third recommendation result are distributed and integrated, and the recommended content recommended to the specified user is obtained.
  • the technical solution provided by the embodiment of the present invention has the following beneficial effects: obtaining search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum; respectively, the search behavior data and the browsing behavior Data and the click behavior data of the recommended content are preprocessed to obtain a first recommendation result, a second recommendation result, and a third recommendation result; and the first recommendation result, the second recommendation result, and the third recommendation As a result, the distribution integration is performed according to the weight, and the recommended content recommended to the specified user is obtained.
  • the search behavior data, the browsing behavior data and the click behavior data of the recommended content are comprehensively considered, which enriches the data used by the recommendation and improves the accuracy of the recommendation.
  • FIG. 1 is a flowchart of a method for recommending information according to Embodiment 1 of the present invention
  • FIG. 2 is a flowchart of a method for recommending information according to Embodiment 2 of the present invention
  • FIG. 3 is a schematic structural diagram of an apparatus for recommending information according to Embodiment 3 of the present invention.
  • FIG. 4 is a schematic structural diagram of another apparatus for recommending information according to Embodiment 3 of the present invention.
  • FIG. 5 is a schematic structural diagram of a server according to an embodiment of the present invention. detailed description
  • a method for recommending information including:
  • Step 102 Perform pre-processing on the search behavior data, the browsing behavior data, and the click behavior data of the recommended content to obtain a first recommendation result, a second recommendation result, and a third recommendation result;
  • the performing the pre-processing of the search behavior data to obtain the first recommendation result includes: filtering out noise data in the search behavior data to obtain denoised data, where the denoising data includes the designated user The query string entered in the forum;
  • the pre-processing the browsing behavior data to obtain a second recommendation result includes:
  • the matrix includes: a sub-topic and a number of times the post in the forum appears in the sub-topic; performing correlation calculation on the browsing behavior matrix to obtain a second recommendation result.
  • the pre-processing the click behavior data to obtain the third recommendation result includes: analyzing the click behavior data, obtaining related posts of each post in the forum, and clicking each related post to be clicked Number of times;
  • the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommended content recommended to the specified user is obtained, including: separately calculating the a first average probability, a second average probability, and a third average probability that each of the posts in the forum is associated with the first recommendation result, the second recommendation result, and the third recommendation result;
  • the first recommendation result, the second, according to a preset first weight of the first recommendation result, a second weight of the second recommendation result, and a third weight of the third recommendation result The recommendation result and the third recommendation result are distributed and integrated, and the recommended content recommended to the specified user is obtained.
  • the beneficial effects of the embodiment are: acquiring search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum; respectively, the search behavior data, the browsing behavior data, and the pair of recommended content And the third recommendation result, the second recommendation result, and the third recommendation result are integrated to obtain the recommendation The recommended content of the specified user.
  • the search behavior data, the browsing behavior data and the click behavior data of the recommended content are comprehensively considered, which enriches the data used by the recommendation and improves the accuracy of the recommendation.
  • the embodiment of the present invention provides a method for recommending information.
  • the basic behaviors of the user include: browsing behavior, search behavior, and click behavior on the recommended content.
  • a search behavior model, a browsing behavior model, and a recommendation are established. Click on the behavior model to analyze the three behavioral data of the forum users through three models, and obtain three different recommendation results. Finally, the three different recommendation results are integrated to obtain the final recommendation content.
  • the method flow includes:
  • the forum may be any forum community on the network, and the designated user may be any user in the forum, which is not specifically limited in this embodiment.
  • the data in the forum is analyzed, and the search behavior data of the specified user in the forum is obtained, wherein the search behavior data includes search click behavior data, and the search click behavior data is preprocessed and filtered.
  • the noise data of malicious clicks is deleted; then the mapping of the query string to the clicked post is established; finally, based on the mapping relationship, the post is represented as a vector of the query, and then the topic relevance of the post is calculated, and the recommended result is obtained.
  • the noise data refers to the normal operation behavior data of the non-forum user, including the abnormal data such as the robot crawling and the malicious click, which is not specifically limited in this embodiment.
  • the distribution of noise data in time has a certain pattern. For example, if the search results of the first few pages of a query are clicked by the same user in a short time, the click event is noise data, and the noise data can be filtered by using these modes. Get clean denoising data.
  • the first search result is obtained by preprocessing the search behavior data, including:
  • the click probability W1 , Wl caused by the post ⁇ each of the query strings. ((3 ⁇ 4, ⁇ )/(.( , ⁇ ) + c(Q 2 ,T)+ ... + c(Q n ,T)), where n is the total number of query strings;
  • the post ⁇ is caused by the click probability W1 triggered by each of the query strings, and a query vector that triggers clicking on the post is created, wherein the query vector is ⁇ Wl , w 2 , w 1 5 ..., w n >;
  • each post is represented as a vector that triggers a query that clicks on the post.
  • the similarity of their corresponding query vectors can be used to measure their topic relevance.
  • the correlation calculation generally uses the cosine distance, that is, the angle cosine of the two vectors, ie
  • the calculation of the similarity of the query vector can be performed by using the classical vector space model.
  • the method for calculating the similarity of the vector in other prior art can also be used, which is not specifically limited in this embodiment.
  • the user browsing behavior modeling it is necessary to first analyze the characteristics of the browsing behavior of the specified user in the forum, and pre-process the user browsing behavior according to the characteristics, so that the processed data can truly reflect the user's interest and the content of the post.
  • the content of the forum is organized according to the layout, and the post content of each layout is often carried out around a big theme, in this big theme.
  • different posts are organized and discussed around small topics. For example, if the big theme is “cultural consumption”, there will be many small themes under the theme of “cultural consumption”. Different users will further discuss according to the small topics of interest.
  • preprocessing the browsing behavior data to obtain a second recommendation result including: analyzing the browsing behavior data, obtaining The forum has been viewed by the specified user
  • the browsing behavior matrix includes: a sub-topic and a number of times the post in the forum appears in the sub-topic;
  • Correlation calculation is performed on the browsing behavior matrix to obtain a second recommendation result.
  • the browsing behavior is divided into a large parent topic segment according to the layout of the browsed post; in each parent topic segment, the text similarity of the post title is calculated, and the basic topic segment (sub-topic segment) is found.
  • the dividing line which in turn divides each parent topic segment into multiple sub topic segments.
  • the posts in each sub-topic segment belong to the same topic, and they can reflect the user's clear single interest.
  • a two-dimensional matrix is established for all recent user browsing behaviors of each forum: one dimension is the sub-topic segment of each user, wherein, if a user U ⁇ browsing behavior includes ⁇ basic topic segments, then M users The corresponding dimension of this dimension is N 1 +N 2 +... +N i +... +N M ; the other dimension is the post dimension, and the value of the matrix element represents a post in a subtopic segment The number of occurrences.
  • a matrix element of 1 indicates that the user has browsed the corresponding topic
  • a matrix element of 0 indicates that the user has not browsed the corresponding topic.
  • the vector description of topic 1 is its corresponding column ⁇ 1, 0, 1>
  • the vector of topic 2 is described as ⁇ 1, 1 , 0>.
  • the established two-dimensional matrix is taken as an input, and the correlation between the posts is calculated by using the item-to-item method in the classical collaborative filtering algorithm to obtain a second recommendation result.
  • the collaborative filtering algorithm belongs to the prior art, and is not described in this embodiment.
  • the system will recommend a number of related posts to the user.
  • the specified user clicks on the recommended posts, and the recommended click behavior is modeled according to the clicks of the related posts.
  • the recommended content click behavior data may be equivalent to the query result in the relevance ranking click data.
  • the related algorithms in the click model are used to reorder related posts to achieve better results.
  • pre-processing the click behavior data to obtain a third recommendation result including: analyzing the click behavior data, obtaining related posts of each post in the forum, and clicking each related post to be clicked Number of times
  • the preset range may be 5 minutes, 10 minutes, 20 minutes, 30 minutes, etc., which is not specifically limited in this embodiment.
  • the steps 201-203 are not specified in the sequence, and may be performed in parallel or sequentially.
  • the specific execution sequence is not specifically limited in this embodiment.
  • each modeling module After modeling using the above three types of user behavior data, each modeling module outputs corresponding recommendation results, and the three recommended results need to be integrated.
  • One of the integration methods is to use a voting mechanism. Specifically, the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight based on the voting mechanism, and the recommended content recommended to the specified user is obtained, including: Calculating, respectively, a first average probability, a second average probability, and a third occurrence of each of the posts in the forum posted in the first recommendation result, the second recommendation result, and the third recommendation result Average probability
  • the method of using the voting mechanism is not limited.
  • the weights of the three types of recommendation results may be differently given according to the size of the different user behaviors that may affect the recommendation result. Among them, the recommended result of the recommended click behavior modeling output has the highest weight, the browsing behavior modeling output has the second highest weight, and the search behavior modeling output has the lowest weight. Then combine the three recommendations with different weights to get the final recommendation.
  • the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommended content recommended to the specified user is obtained, including: according to a preset a first weight of the first recommendation result, a second weight of the second recommendation result, and a third weight of the third recommendation result, to the first recommendation result, the second recommendation result, and the The third recommendation result is distributed and integrated, and the recommended content recommended to the specified user is obtained.
  • the data of the online recommendation system is updated at an appropriate timing to achieve a good recommendation effect. Since the accumulation of user behavior data takes time, and the modeling calculation based on the three user behaviors takes time, in this embodiment, the user active period of each forum is analyzed, and the time period in which each forum user is inactive is found, and the user does not Modeling calculations and result updates are performed during active time periods. For example, after analyzing a forum, it is found that the user's behavior is very small during the time between 1:00 am and 9:00 am, so the calculation and update are selected during this time period.
  • the beneficial effects of the embodiment include: acquiring search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum; respectively, the search behavior data, the browsing behavior data, and the pair of recommended content And the third recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, Get recommended content recommended to the specified user.
  • the search behavior data, the browsing behavior data and the click behavior data of the recommended content are comprehensively considered, which enriches the data used by the recommendation and improves the accuracy of the recommendation.
  • an apparatus for recommending information including: an obtaining module 301, a pre-processing module 302, and an integration module 303.
  • the obtaining module 301 is configured to obtain search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum of the specified user;
  • the pre-processing module 302 is configured to pre-process the search behavior data, the browsing behavior data, and the click behavior data of the recommended content to obtain a first recommendation result, a second recommendation result, and a third recommendation result;
  • the integration module 303 is configured to perform distribution and integration on the first recommendation result, the second recommendation result, and the third recommendation result according to the weight, to obtain recommended content recommended to the specified user.
  • the pre-processing module 302 includes:
  • a filtering unit 302a configured to filter out noise data in the search behavior data, to obtain denoised data, where the denoising data includes a query string input by the specified user in the forum; and a statistical unit 302b, Used to count the number of click posts ⁇ caused by each of the query strings;
  • a first calculating unit 302c configured to calculate, according to the number of times the post 1 ⁇ is triggered by each of the query strings, a click probability W1 triggered by the each query string;
  • 302d configured to generate a query vector that triggers clicking on the post Ti according to the click probability W1 triggered by the post 1 ⁇ , wherein the query vector is ⁇ Wl , w 2 , . . . , Wj , ..., w n >;
  • the second calculating unit 302f is configured to calculate, according to the query vector of each post that is established, the correlation between any two of the posts, to obtain a first recommendation result.
  • the pre-processing module 302 includes:
  • the obtaining unit 302a' is configured to analyze the browsing behavior data, and obtain a post in the forum that has been browsed by the specified user;
  • the first dividing unit 302b' is configured to divide the browsing behavior of the specified user into at least one parent topic segment according to a layout to which the browsed post belongs; a third calculating unit 302c', configured to calculate a text phase second dividing unit 302d' of the post title in each of the parent topic segments, for using the corresponding parent topic according to a dividing line between the sub-topic segments The segment is divided to obtain at least one sub-topic segment;
  • a second establishing unit 302e' is configured to establish a browsing behavior matrix of the specified user according to each of the sub-topic segments, where the browsing behavior matrix includes: a sub-topic and a post in the forum appear in the sub-topic Number of times;
  • the fourth calculating unit 302f is configured to perform correlation calculation on the browsing behavior matrix to obtain a second recommendation result.
  • the pre-processing module 302 includes:
  • the analyzing unit 302a′′ is configured to analyze the click behavior data, obtain related stickers of each post in the forum, and the number of times each of the related posts is clicked;
  • the reordering unit 302b′′ is configured to reorder the related stickers in the forum according to the number of times each of the related posts is clicked and the relationship between the time when the related posts are clicked and the current time, so that the click is clicked.
  • the relevant signatures with a large number of times and the difference between the clicked time and the current time are within a preset range are arranged at the front end of the queue, and a third recommendation result is obtained.
  • the integration module 303 includes:
  • the calculating unit 303a is configured to separately calculate a first average probability that each of the posts in the forum is posted in the first recommendation result, the second recommendation result, and the third recommendation result, Two average probability and a third average probability;
  • a determining unit 303b configured to determine, according to the first average probability, the second average probability, and the third average probability, a weight of the first recommendation result, a weight of the second recommendation result, and the first The weight of the three recommended results;
  • the first integration unit 303c is configured to calculate, according to the weight of the first recommendation result, the weight of the second recommendation result, and the weight of the third recommendation result, the first recommendation result, the second recommendation result, and The third recommendation result is integrated to obtain recommended content recommended to the specified user; or, the second integration unit 303d, according to the preset first weight of the first recommendation result, the second recommendation result
  • the second weight of the third recommendation result and the third weight of the third recommendation result, the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated to obtain a recommendation recommended to the specified user content.
  • the beneficial effects of the embodiment are: acquiring search behavior data, browsing behavior data, and click behavior data of the recommended content in the forum; respectively, the search behavior data, the browsing behavior data, and the click on the recommended content
  • the behavior data is preprocessed to obtain a first recommendation result, a second recommendation result, and a third recommendation result; and the first recommendation result, the second recommendation result, and the third recommendation result are distributed and integrated according to the weight, and the recommendation is obtained.
  • the search behavior data, the browsing behavior data and the click behavior data of the recommended content are comprehensively considered, which enriches the data used by the recommendation and improves the accuracy of the recommendation.
  • FIG. 5 is a schematic structural diagram of a server according to an embodiment of the present invention.
  • the server 500 includes a central processing unit (CPU) 501, a system memory 504 including a random access memory (RAM) 502 and a read only memory (ROM) 503, and a system bus 505 that connects the system memory 504 and the central processing unit 501.
  • the server 500 also includes a basic input/output system (I/O system) 506 that facilitates transfer of information between various devices within the computer, and mass storage for storing the operating system 513, applications 514, and other program modules 515.
  • I/O system basic input/output system
  • the basic input/output system 506 includes a display 508 for displaying information and an input device 509 such as a mouse, keyboard for inputting information to the user.
  • the display 508 and input device 509 are both coupled to the central processing unit 501 via an input and output controller 510 coupled to the system bus 505.
  • the basic input/output system 506 can also include an input and output controller 510 for receiving and processing input from a plurality of other devices, such as a keyboard, mouse, or electronic stylus.
  • input output controller 510 also provides output to a display screen, printer, or other type of output device.
  • the mass storage device 507 is connected to the central processing unit 501 by a mass storage controller (not shown) connected to the system bus 505.
  • the mass storage device 507 and its associated computer readable medium provide non-volatile storage for the client device 500. That is, the large capacity Storage device 507 can include a computer readable medium (not shown) such as a hard disk or a CD-ROM drive.
  • the computer readable medium can include computer storage media and communication media.
  • Computer storage media includes volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Computer storage media includes RAM, ROM, EPROM, EEPROM, flash memory or other solid state storage technologies, CD-ROM, DVD or other optical storage, tape cartridges, magnetic tape, disk storage or other magnetic storage devices.
  • RAM random access memory
  • ROM read only memory
  • EPROM Erasable programmable read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • the server 500 can also be operated by a remote computer connected to the network through a network such as the Internet. That is, the server 500 can be connected to the network 512 through a network interface unit 511 connected to the system bus 505, or can be connected to other types of networks or remote computer systems (not shown) using the network interface unit 511. .
  • the memory also includes one or more programs, the one or more programs being stored in a memory, and configured to be executed by one or more central processing units 501, the one or more programs comprising A method of recommending information provided by the embodiment shown in FIG. 1 and a method of recommending information provided by the embodiment shown in FIG. 2.
  • the serial numbers of the embodiments of the present invention are merely for the description, and do not represent the advantages and disadvantages of the embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐信息的方法和装置,属于互联网领域。所述方法包括:获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据;分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果;对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述指定用户的推荐内容。本发明综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据,丰富了推荐所利用的数据,提升了推荐的准确性。

Description

推荐信息的方法、 装置和服务器
本申请要求于 2012 年 10 月 08 日提交中国专利局、 申请号为 201210377563.3、 发明名称为 "推荐信息的方法和装置" 的中国专利申请的优 先权, 其全部内容通过引用结合在本申请中。 技术领域
本发明涉及互联网领域, 特别涉及一种推荐信息的方法、 装置和服务器。 背景技术
随着网络的发展, 出现了论坛社区。 论坛社区中聚合了一群兴趣相似的用 户, 在各个版面中讨论各种最近热门的话题。 在论坛中, 用户最基本的目标是 阅读内容获取信息,所以为了给用户提供更多的内容,在用户阅读一篇内容时, 自动为用户推荐主题相关的内容, 可以方便用户获取相关信息, 并增加网站的 黏性和点击率。
现有的一种内容推荐方法是基于用户浏览行为的推荐方法, 该方法假设浏 览相同内容的用户具有相同的兴趣, 对论坛中用户的浏览行为进行分析, 建立 用户 /浏览内容的二维矩阵,在此矩阵上利用协同过滤等算法计算内容间的关联 程度, 从而得到推荐结果, 将推荐结果推荐给用户。
在实现本发明的过程中, 发明人发现现有技术至少存在以下问题: 在一个论坛中, 同一个用户的兴趣可能是多方面的, 用户的浏览行为可能 涵盖了不同主题的内容, 现有技术中筒单假设浏览相同内容的用户具有相同的 兴趣, 会导致不同主题的内容被认为是主题相近的, 这样得到的推荐结果不一 定是用户感兴趣的内容, 降低了推荐给用户的为内容为用户感兴趣的内容的准 确性。 且, 当论坛的数据量相对较少, 并且用户的浏览行为数据规模也相对较 小时, 会造成用户 /浏览内容二维矩阵比较稀疏, 严重影响最后的推荐效果, 所 以单纯的通过用户的浏览行为得到的推荐结果对于用户而言不一定准确,影响 论坛社区对用户推荐结果的准确性。 发明内容 为了提高论坛中推荐内容的准确性, 本发明实施例提供了一种推荐信息的 方法和装置。 所述技术方案如下:
一方面, 提供了一种推荐信息的方法, 所述方法包括:
获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点 击行为数据;
分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行 为数据进行预处理得到第一推荐结果、 第二推荐结果和第三推荐结果;
对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进 行分配整合, 得到推荐给所述指定用户的推荐内容。
所述对所述搜索行为数据进行预处理得到第一推荐结果, 包括: 过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的查询字符串;
统计所述每个查询字符串 引发的点击帖子 ^的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖 子 ^被所述每个查询字符串引发的点击概率 Wl;
根据所述帖子 被所述每个查询字符串引发的点击概率 Wl, 建立引发点 击所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 . . . ,wn>; 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相 关度, 得到第一推荐结果。
所述对所述浏览行为数据进行预处理得到第二推荐结果, 包括: 对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至 少一个父主题段;
计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线;
根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数; 对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
所述对所述点击行为数据进行预处理得到第三推荐结果, 包括: 对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时 间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击 时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第 三推荐结果。
所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权 重进行分配整合, 得到推荐给所述指定用户的推荐内容, 包括:
分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三 平均概率;
根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定 所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权 重;
基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容; 或,
根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二 权重和所述第三推荐结果的第三权重, 对所述第一推荐结果、 所述第二推荐结 果和所述第三推荐结果进行分配整合, 得到推荐给所述指定用户的推荐内容。
另一方面, 提供了一种推荐信息的装置, 所述装置包括:
获取模块, 用于获取指定用户在论坛中的搜索行为数据、 浏览行为数据和 对推荐内容的点击行为数据;
预处理模块, 用于分别对所述搜索行为数据、 所述浏览行为数据和所述对 推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三 推荐结果;
整合模块, 用于对所述第一推荐结果、 所述第二推荐结果和所述第三推荐 结果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容。 所述预处理模块, 包括:
过滤单元, 用于过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串; 统计单元, 用于统计所述每个查询字符串(¾引发的点击帖子 1^的次数; 第一计算单元, 用于根据所述每个查询字符串 引发的点击所述帖子 ^ 的次数, 计算所述帖子 ^被所述每个查询字符串引发的点击概率 Wl;
第一建立单元,用于根据所述帖子 ^被所述每个查询字符串引发的点击概 率 wl 建立引发点击所述帖子 Ti的查询向量,其中所述查询向量为 <Wl, w2, Wj , ...,wn>;
第二计算单元, 用于根据所述建立的每个帖子的查询向量计算任意所述任 意两个帖子间的相关度, 得到第一推荐结果。
所述预处理模块, 包括:
获取单元, 用于对所述浏览行为数据进行分析, 获取所述论坛中被所述指 定用户浏览过的帖子;
第一划分单元, 用于根据所述被浏览的帖子所属的版面, 将所述指定用户 的浏览行为划分成至少一个父主题段;
第三计算单元, 用于计算所述每个父主题段中的帖子标题的文本相似度, 第二划分单元, 用于根据所述子主题段间的分界线将所述相应的父主题段 进行划分, 得到至少一个子主题段;
第二建立单元, 用于根据所述每个子主题段建立所述指定用户的浏览行为 矩阵, 所述浏览行为矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中 出现的次数;
第四计算单元, 用于对所述浏览行为矩阵进行相关度计算, 得到第二推荐 结果。
所述预处理模块, 包括:
分析单元, 用于对所述点击行为数据进行分析, 获得所述论坛中每篇帖子 的相关贴和所述每篇相关帖被点击的次数;
重排序单元, 用于根据所述每篇相关帖被点击的次数和所述相关帖被点击 的时间与当前时间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次 数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队 列的前端, 得到第三推荐结果。
所述整合模块, 包括:
计算单元, 用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推 荐结果、 所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、 第二 平均概率和第三平均概率;
确定单元, 用于根据所述第一平均概率、 所述第二平均概率和所述第三平 均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第 三推荐结果的权重;
第一整合单元, 用于基于所述第一推荐结果的权重、 所述第二推荐结果的 权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所 述第三推荐结果进行整合, 得到推荐给所述指定用户的推荐内容; 或,
第二整合单元, 用于根据预先设定的所述第一推荐结果的第一权重、 所述 第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结 果、 所述第二推荐结果和所述第三推荐结果进行分配整合, 得到推荐给所述指 定用户的推荐内容。
再一方面, 提供了一种服务器, 所述服务器包括:
一个或多个处理器; 和
存储器;
所述存储器存储有一个或多个程序, 所述一个或多个程序被配置成由所述 一个或多个处理器执行, 所述一个或多个程序包含用于进行以下操作的指令: 获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点 击行为数据;
分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行 为数据进行预处理得到第一推荐结果、 第二推荐结果和第三推荐结果;
对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进 行分配整合, 得到推荐给所述指定用户的推荐内容。
所述服务器还包含用于进行以下操作的指令:
过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的查询字符串; 统计所述每个查询字符串 引发的点击帖子 ^的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖 子 ^被所述每个查询字符串引发的点击概率 Wl;
根据所述帖子 被所述每个查询字符串引发的点击概率 Wl, 建立引发点 击所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 . . . ,wn>; 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相 关度, 得到第一推荐结果。
所述服务器还包含用于进行以下操作的指令:
对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至 少一个父主题段;
计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线;
根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数;
对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
所述服务器还包含用于进行以下操作的指令:
对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时 间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击 时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第 三推荐结果。
所述服务器还包含用于进行以下操作的指令:
分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三 平均概率; 根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定 所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权 重;
基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容; 或,
根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二 权重和所述第三推荐结果的第三权重, 对所述第一推荐结果、 所述第二推荐结 果和所述第三推荐结果进行分配整合, 得到推荐给所述指定用户的推荐内容。
本发明实施例提供的技术方案带来的有益效果是: 获取指定用户在论坛中 的搜索行为数据、 浏览行为数据和对推荐内容的点击行为数据; 分别对所述搜 索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理 得到第一推荐结果、 第二推荐结果和第三推荐结果; 对所述第一推荐结果、 所 述第二推荐结果和所述第三推荐结果根据权重进行分配整合,得到推荐给所述 指定用户的推荐内容。 其中综合考虑了搜索行为数据、 浏览行为数据和对推荐 内容的点击行为数据, 丰富了推荐所利用的数据, 提升了推荐的准确性。 附图说明
为了更清楚地说明本发明实施例中的技术方案, 下面将对实施例描述中所 需要使用的附图作筒单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例一提供的一种推荐信息的方法流程图;
图 2是本发明实施例二提供的一种推荐信息的方法流程图;
图 3是本发明实施例三提供的一种推荐信息的装置结构示意图;
图 4是本发明实施例三提供的另一种推荐信息的装置结构示意图; 图 5是本发明一个实施例提供的服务器的结构示意图。 具体实施方式
为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明 实施方式作进一步地详细描述。
实施例一
参见图 1 , 本实施例中提供了一种推荐信息的方法, 包括:
101、 获取指定用户在论坛中的搜索行为数据、 浏览行为数据和对推荐内 容的点击行为数据;
102、 分别对所述搜索行为数据、 所述浏览行为数据和所述对推荐内容的 点击行为数据进行预处理得到第一推荐结果、 第二推荐结果和第三推荐结果;
103、 对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果根据 权重进行分配整合, 得到推荐给所述指定用户的推荐内容。
其中, 所述对所述搜索行为数据进行预处理得到第一推荐结果, 包括: 过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的查询字符串;
统计所述每个查询字符串 引发的点击帖子 ^的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖 子 ^被所述每个查询字符串引发的点击概率 Wl;
根据所述帖子 ^被所述每个查询字符串引发的点击概率 Wl, 建立引发点 击所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 . . . ,wn>; 根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相 关度, 得到第一推荐结果。
本实施例中, 所述对所述浏览行为数据进行预处理得到第二推荐结果, 包 括:
对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至 少一个父主题段;
计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线;
根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数; 对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
其中, 所述对所述点击行为数据进行预处理得到第三推荐结果, 包括: 对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时 间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击 时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第 三推荐结果。
可选地, 所述对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结 果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容, 包括: 分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三 平均概率;
根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定 所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权 重;
基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容; 或,
根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二 权重和所述第三推荐结果的第三权重, 对所述第一推荐结果、 所述第二推荐结 果和所述第三推荐结果进行分配整合, 得到推荐给所述指定用户的推荐内容。
本实施例的有益效果是: 获取指定用户在论坛中的搜索行为数据、 浏览行 为数据和对推荐内容的点击行为数据; 分别对所述搜索行为数据、 所述浏览行 为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二 推荐结果和第三推荐结果; 对所述第一推荐结果、 所述第二推荐结果和所述第 三推荐结果进行整合, 得到推荐给所述指定用户的推荐内容。 其中综合考虑了 搜索行为数据、 浏览行为数据和对推荐内容的点击行为数据, 丰富了推荐所利 用的数据, 提升了推荐的准确性。 实施例二
本发明实施例提供了一种推荐信息的方法, 在论坛中, 用户的基本行为包 括: 浏览行为、 搜索行为和对推荐内容的点击行为, 本实施例中建立搜索行为 模型、 浏览行为模型和推荐点击行为模型, 通过三个模型分别对论坛用户的三 种行为数据进行分析, 得到三种不同的推荐结果, 最后将这三种不同的推荐结 果整合, 得到最终的推荐内容。
参见图 2, 方法流程包括:
201、 获取指定用户在论坛中的搜索行为数据, 对所述搜索行为数据进行 预处理得到第一推荐结果。
本实施例中, 论坛可以是网络上的任意一个论坛社区, 指定用户可以是论 坛中的任意一个用户, 对此本实施例不做具体限定。
本实施例在搜索行为建模中, 对论坛中的数据进行分析, 获取论坛中指定 用户的搜索行为数据, 其中, 搜索行为数据包括搜索点击行为数据, 首先对搜 索点击行为数据进行预处理, 过滤掉恶意点击的噪音数据; 然后建立查询字符 串到被点击帖子的映射; 最后基于这种映射关系, 将帖子表示为查询的向量, 进而计算帖子的主题相关度, 得到推荐结果。 其中, 噪音数据是指非论坛用户 的正常操作行为数据, 包括机器人爬取和恶意点击等异常数据, 对此本实施例 不做具体限定。 噪音数据在时间上的分布具有一定的模式, 比如一个查询的前 几页搜索结果均在很短时间内被同一用户点击, 则该点击事件即为噪音数据, 利用这些模式可以过滤掉噪音数据, 得到干净的去噪数据。
本步骤中, 具体的对所述搜索行为数据进行预处理得到第一推荐结果, 包 括:
过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的所有查询字符串;
统计所述每个查询字符串 引发的点击帖子 1^的次数,其中(((¾,Τ)为查询 引发点击帖子 Τ的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖 子 ^被所述每个查询字符串引发的点击概率 Wl , Wl = 。((¾,Τ)/(。( ,Τ) + c(Q2,T)+ ... + c(Qn,T)), 其中 n为查询字符串的总数; 所述帖子 ^被所述每个查询字符串引发的点击概率 Wl, 建立引发点击所 述帖子 的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 ...,wn>;
根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相 关度, 得到第一推荐结果。
本实施例中, 当指定用户用同一个查询串来进行搜索时, 会输出不同的搜 索结果, 指定用户可能会在每次搜索时点击不同的帖子, 所以可以根据查询字 符串对应的帖子点击数据, 把每一篇帖子表示为引发点击该帖子的查询的向 量。 对于一篇帖子 T, 其查询向量为: T=<Wl, w2, Wi, ...,wn>。 这样每 一篇帖子都可以表示为查询的向量。 对于两篇帖子 ^和 η,可以利用它们对应 的查询向量的相似度来衡量它们的主题相关度。 如 T^ W W2, W3, ....wn>, , v2, v3, ....vn>, 相关度计算一般采用余弦距离, 即两个向量的夹角余 弦, 即其相似度为 Sim<Ti,Tj> = (Ti *Tj)/(ITillTjl)。
本实施例中在计算查询向量相似度时, 可以利用经典的向量空间模型来进 行计算, 当然也可以采用其它现有技术中计算向量相似度的方法, 对此本实施 例不做具体限定。
202、 获取指定用户在论坛中的浏览行为数据, 对所述浏览行为数据进行 预处理得到第二推荐结果。
本步骤中, 在用户浏览行为建模中, 需要首先分析指定用户在论坛中的浏 览行为的特点, 根据特点对用户浏览行为进行预处理, 使得处理过后的数据可 以真实反映用户的兴趣和帖子内容之间的关系。 在具体实现过程中, 一方面, 现有的论坛组织形式中, 论坛中的内容是按版面来组织的, 每个版面的帖子内 容往往是围绕一个大的主题进行的, 在这一大的主题下, 不同的帖子围绕一些 小的主题进行展开和讨论。 例如, 大的主题为 "文化消费", 则在 "文化消费" 的主题下还会有好多小的主题, 不同用户根据自己感兴趣的小的主题, 再进一 步进行讨论。 另一方面, 用户在浏览论坛时是以版面为单元进行浏览的, 并且 在用户浏览同一版面的帖子时, 由于用户兴趣的持续性, 即便浏览的帖子属于 不同的小的主题, 但它们的主题分布还是连续的。
基于上述论坛用户浏览行为的特点,对于一个用户的一段连续时间的浏览 行为, 具体的, 对所述浏览行为数据进行预处理得到第二推荐结果, 包括: 对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面,将所述指定用户的浏览行为划分成至 少一个父主题段;
计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线;
根据所述子主题段间的分界线将所述相应的父主题段进行划分,得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数;
对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
本步骤中, 按照被浏览帖子所属的版面将浏览行为划分为大的父主题段; 在每一个父主题段中,对帖子标题的文本相似度进行计算,找到基本主题段(子 主题段) 间的分界线, 进而将每个父主题段分为多个子主题段。 这样每个子主 题段内的帖子都是属于同一个主题的, 它们可以反映用户的明确单一的兴趣。 然后, 对于每个论坛近期的所有用户浏览行为建立一个二维矩阵: 一个维度为 每个用户的子主题段, 其中, 如果一个用户 U 々浏览行为中包含 ^个基本主 题段, 那么 M个用户对应的这一维的大小就为 N1+N2+... +Ni+... +NM; 另一个 维度为帖子维度, 矩阵元素的值代表一篇帖子在一个子主题段中出现的次数。
如 4个主题, 3个用户, 其矩阵为:
主题 1 主题 2 主题 3 主题 4
用户 1 1 1 0 0
用户 2 0 1 1 0
用户 3 1 0 0 1;
其中, 矩阵元素为 1表示用户浏览过对应的主题, 矩阵元素为 0则为用户 未浏览过对应的主题。 主题 1 的向量描述即为其对应的列 <1 , 0, 1>, 主题 2 的向量描述为 <1 , 1 , 0>。
本实施例中, 将建立的二维矩阵作为输入, 利用经典协同过滤算法中 item-to-item的方法计算帖子之间的相关度,得到第二推荐结果。其中协同过滤 算法属于现有技术, 对此本实施例不再赘述。
203、 获取指定用户在论坛中的对推荐内容的点击行为数据, 对所述点击 行为数据进行预处理得到第三推荐结果。
在相关帖推荐中, 对于一个帖子, 系统会推荐给用户若干篇相关帖子, 本 实施例中获得指定用户对这些被推荐帖子的点击情况,根据相关贴的点击情况 为推荐点击行为建模。 其中, 如果将每个帖子看作是查询, 将它的相关帖看作 是查询结果, 那么推荐内容点击行为数据可以等同于相关性排序中的查询结果 点击数据。 本实施例中利用点击模型中的经典算法对相关帖进行重排序, 达到 更好的效果。
具体的, 对所述点击行为数据进行预处理得到第三推荐结果, 包括: 对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时 间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击 时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端,得到第 三推荐结果。
本实施例中, 一方面, 根据相关贴的点击次数进行排序; 另一方面, 考虑 到论坛数据的强时效性特点, 需要对不同时间的推荐点击数据区别处理, 使得 被点击时间与当前时间的差值在预设范围内的帖子排在队列的前端。 其中队列 是指推荐结果的队列。 在得到推荐结果后, 会将推荐结果放入队列中, 等待推 荐。 预设范围可以是 5分钟、 10分钟、 20分钟、 30分钟等, 对此本实施例不 做具体限定。
值得说明的是, 在具体的执行过程中, 步骤 201-203并没有指定的先后顺 序, 可以是并列执行, 也可以是先后执行, 具体的执行顺序本实施例不做具体 限定。
204、 对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果根据 权重进行分配整合, 得到推荐给所述指定用户的推荐内容。
在利用上述三种用户行为数据进行建模后,每个建模模块都会输出对应的 推荐结果, 需要将这三种推荐结果进行整合。 其中一种整合方法是采用投票机 制。 具体的, 基于投票机制对所述第一推荐结果、 所述第二推荐结果和所述第 三推荐结果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容, 包 括: 分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三 平均概率;
根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定 所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权 重;
基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容。
当然本实施例中也不局限于使用投票机制一种方法, 本实施例中还可以根 据不同用户行为可能对推荐结果产生影响的大小,预先赋予三种推荐结果不同 的权重。 其中, 推荐点击行为建模输出的推荐结果权重最高, 浏览行为建模输 出的结果权重次之, 搜索行为建模输出的结果权重最低。 然后结合不同的权重 将三种推荐结果整合起来, 得到最终的推荐内容。 所以可选地, 对所述第一推 荐结果、 所述第二推荐结果和所述第三推荐结果根据权重进行分配整合, 得到 推荐给所述指定用户的推荐内容, 包括: 根据预先设定的所述第一推荐结果的 第一权重、 所述第二推荐结果的第二权重和所述第三推荐结果的第三权重, 对 所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果进行分配整合, 得 到推荐给所述指定用户的推荐内容。
本实施例中, 在结果整合中, 选择合适的时机更新线上推荐系统的数据, 以达到良好的推荐效果。 由于用户行为数据的积累需要时间, 并且基于三种用 户行为的建模计算都需要时间, 本实施例中分析每个论坛的用户活跃周期, 找 到每个论坛用户不活跃的时间段, 在用户不活跃的时间段中进行建模计算和结 果更新。 例如, 再对某个论坛进行分析后发现, 在凌晨 1 : 00到早晨 9: 00之 间的时间段里,用户的行为非常少,所以就选择在此时间段中进行计算和更新。
本实施例的有益效果包括: 获取指定用户在论坛中的搜索行为数据、 浏览 行为数据和对推荐内容的点击行为数据; 分别对所述搜索行为数据、 所述浏览 行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、 第 二推荐结果和第三推荐结果; 对所述第一推荐结果、 所述第二推荐结果和所述 第三推荐结果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容。 其中综合考虑了搜索行为数据、 浏览行为数据和对推荐内容的点击行为数据, 丰富了推荐所利用的数据, 提升了推荐的准确性。 实施例三
参见图 3 , 本实施例中提供了一种推荐信息的装置, 包括: 获取模块 301、 预处理模块 302和整合模块 303。
获取模块 301 , 用于获取指定用户在论坛中的搜索行为数据、 浏览行为数 据和对推荐内容的点击行为数据;
预处理模块 302, 用于分别对所述搜索行为数据、 所述浏览行为数据和所 述对推荐内容的点击行为数据进行预处理得到第一推荐结果、 第二推荐结果和 第三推荐结果;
整合模块 303 , 用于对所述第一推荐结果、 所述第二推荐结果和所述第三 推荐结果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容。
其中, 参见图 4, 所述预处理模块 302, 包括:
过滤单元 302a, 用于过滤掉所述搜索行为数据中的噪音数据,得到去噪数 据, 其中, 所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串; 统计单元 302b, 用于统计所述每个查询字符串 引发的点击帖子 ^的次 数;
第一计算单元 302c, 用于根据所述每个查询字符串 引发的点击所述帖 子 1^的次数, 计算所述帖子 ^被所述每个查询字符串引发的点击概率 Wl; 第一建立单元 302d, 用于根据所述帖子 1^被所述每个查询字符串引发的 点击概率 Wl,建立引发点击所述帖子 Ti的查询向量,其中所述查询向量为 <Wl, w2, .. . , Wj , ...,wn>;
第二计算单元 302f,用于根据所述建立的每个帖子的查询向量计算任意所 述任意两个帖子间的相关度, 得到第一推荐结果。
其中, 参见图 4, 所述预处理模块 302, 包括:
获取单元 302a' , 用于对所述浏览行为数据进行分析, 获取所述论坛中被 所述指定用户浏览过的帖子;
第一划分单元 302b' ,用于根据所述被浏览的帖子所属的版面,将所述指 定用户的浏览行为划分成至少一个父主题段; 第三计算单元 302c' ,用于计算所述每个父主题段中的帖子标题的文本相 第二划分单元 302d' ,用于根据所述子主题段间的分界线将所述相应的父 主题段进行划分, 得到至少一个子主题段;
第二建立单元 302e' ,用于根据所述每个子主题段建立所述指定用户的浏 览行为矩阵, 所述浏览行为矩阵中包括: 子主题和所述论坛中的帖子在所述子 主题中出现的次数;
第四计算单元 302f , 用于对所述浏览行为矩阵进行相关度计算, 得到第 二推荐结果。
参见图 4, 所述预处理模块 302, 包括:
分析单元 302a' ' , 用于对所述点击行为数据进行分析, 获得所述论坛中 每篇帖子的相关贴和所述每篇相关帖被点击的次数;
重排序单元 302b' ' ,用于根据所述每篇相关帖被点击的次数和所述相关 帖被点击的时间与当前时间的关系, 对所述论坛中的相关贴进行重排序, 使得 被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关 帖排在队列的前端, 得到第三推荐结果。
可选地, 参见图 4, 所述整合模块 303 , 包括:
计算单元 303a,用于分别计算所述论坛中的每一篇帖子的相关贴在所述第 一推荐结果、 所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、 第二平均概率和第三平均概率;
确定单元 303b,用于根据所述第一平均概率、所述第二平均概率和所述第 三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所 述第三推荐结果的权重;
第一整合单元 303c, 用于基于所述第一推荐结果的权重、所述第二推荐结 果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果 和所述第三推荐结果进行整合, 得到推荐给所述指定用户的推荐内容; 或, 第二整合单元 303d,根据预先设定的所述第一推荐结果的第一权重、所述 第二推荐结果的第二权重和所述第三推荐结果的第三权重,对所述第一推荐结 果、 所述第二推荐结果和所述第三推荐结果进行分配整合, 得到推荐给所述指 定用户的推荐内容。 本实施例的有益效果是: 获取指定用户在论坛中的搜索行为数据、 浏览行 为数据和对推荐内容的点击行为数据; 分别对所述搜索行为数据、 所述浏览行 为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、 第二推荐 结果和第三推荐结果; 对所述第一推荐结果、 所述第二推荐结果和所述第三推 荐结果根据权重进行分配整合, 得到推荐给所述指定用户的推荐内容。 其中综 合考虑了搜索行为数据、 浏览行为数据和对推荐内容的点击行为数据, 丰富了 推荐所利用的数据, 提升了推荐的准确性。 需要说明的是: 上述实施例提供的推荐信息的装置中, 仅以上述各功能模 块的划分进行举例说明, 实际应用中, 可以根据需要而将上述功能分配由不同 的功能模块完成, 即将装置的内部结构划分成不同的功能模块, 以完成以上描 述的全部或者部分功能。
另外, 上述实施例提供的推荐信息的装置与推荐信息的方法实施例属于同 一构思, 其具体实现过程详见方法实施例, 这里不再赘述。 图 5是本发明一个实施例提供的服务器的结构示意图。所述服务器 500包 括中央处理单元(CPU ) 501、 包括随机存取存储器(RAM ) 502 和只读存储 器(ROM ) 503的系统存储器 504, 以及连接系统存储器 504和中央处理单元 501的系统总线 505。 所述服务器 500还包括帮助计算机内的各个器件之间传 输信息的基本输入 /输出系统(I/O系统) 506, 和用于存储操作系统 513、 应用 程序 514和其他程序模块 515的大容量存储设备 507。
所述基本输入 /输出系统 506包括有用于显示信息的显示器 508和用于用户 输入信息的诸如鼠标、 键盘之类的输入设备 509。 其中所述显示器 508和输入 设备 509都通过连接到系统总线 505的输入输出控制器 510连接到中央处理单 元 501。所述基本输入 /输出系统 506还可以包括输入输出控制器 510以用于接 收和处理来自键盘、 鼠标、 或电子触控笔等多个其他设备的输入。 类似地, 输 入输出控制器 510还提供输出到显示屏、 打印机或其他类型的输出设备。
所述大容量存储设备 507通过连接到系统总线 505 的大容量存储控制器 (未示出)连接到中央处理单元 501。 所述大容量存储设备 507及其相关联的 计算机可读介质为客户端设备 500提供非易失性存储。 也就是说, 所述大容量 存储设备 507可以包括诸如硬盘或者 CD-ROM驱动器之类的计算机可读介质 (未示出)。
不失一般性, 所述计算机可读介质可以包括计算机存储介质和通信介质。 计算机存储介质包括以用于存储诸如计算机可读指令、 数据结构、 程序模块或 其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移 动介质。 计算机存储介质包括 RAM、 ROM, EPROM、 EEPROM、 闪存或其他 固态存储其技术, CD-ROM、 DVD 或其他光学存储、 磁带盒、 磁带、 磁盘存 储或其他磁性存储设备。 当然, 本领域技术人员可知所述计算机存储介质不局 限于上述几种。上述的系统存储器 504和大容量存储设备 507可以统称为存储 器。
根据本发明的各种实施例, 所述服务器 500还可以通过诸如因特网等网络 连接到网络上的远程计算机运行。也即服务器 500可以通过连接在所述系统总 线 505上的网络接口单元 511连接到网络 512, 或者说, 也可以使用网络接口 单元 511来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序, 所述一个或者一个以上程序 存储于存储器中, 且经配置以由一个或者一个以上中央处理单元 501执行所述 一个或者一个以上程序包含用于执行图 1所示实施例所提供的推荐信息的方法 和图 2所示实施例所提供的推荐信息的方法。 上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通 过硬件来完成, 也可以通过程序来指令相关的硬件完成, 所述的程序可以存储 于一种计算机可读存储介质中, 上述提到的存储介质可以是只读存储器, 磁盘 或光盘等。 以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的 精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的 保护范围之内。

Claims

权 利 要 求 书
1、 一种推荐信息的方法, 其特征在于, 所述方法包括:
获取指定用户在论坛中的搜索行为数据、 浏览行为数据和对推荐内容的点 击行为数据;
分别对所述搜索行为数据、 所述浏览行为数据和所述对推荐内容的点击行 为数据进行预处理得到第一推荐结果、 第二推荐结果和第三推荐结果;
对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果根据权重进 行分配整合, 得到推荐给所述指定用户的推荐内容。
2、 根据权利要求 1所述的方法, 其特征在于, 所述对所述搜索行为数据进 行预处理得到第一推荐结果, 包括:
过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的查询字符串;
统计所述每个查询字符串 引发的点击帖子 ^的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖子 ^被所述每个查询字符串引发的点击概率 Wl;
根据所述帖子 ^被所述每个查询字符串引发的点击概率 Wl, 建立引发点击 所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 . . . ,wn>;
根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关 度, 得到第一推荐结果。
3、 根据权利要求 1所述的方法, 其特征在于, 所述对所述浏览行为数据进 行预处理得到第二推荐结果, 包括:
对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面, 将所述指定用户的浏览行为划分成至 少一个父主题段;
计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线; 根据所述子主题段间的分界线将所述相应的父主题段进行划分, 得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数;
对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
4、 根据权利要求 1所述的方法, 其特征在于, 所述对所述点击行为数据进 行预处理得到第三推荐结果, 包括:
对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间 的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击时 间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端, 得到第三 推荐结果。
5、 根据权利要求 1所述的方法, 其特征在于, 所述对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果根据权重进行分配整合, 得到推荐给所 述指定用户的推荐内容, 包括:
分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、 所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、 第二平均概率和第三 平均概率;
根据所述第一平均概率、 所述第二平均概率和所述第三平均概率分别确定 所述第一推荐结果的权重、 所述第二推荐结果的权重和所述第三推荐结果的权 重;
基于所述第一推荐结果的权重、 所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容; 或,
根据预先设定的所述第一推荐结果的第一权重、 所述第二推荐结果的第二 权重和所述第三推荐结果的第三权重, 对所述第一推荐结果、 所述第二推荐结 果和所述第三推荐结果进行分配整合, 得到推荐给所述指定用户的推荐内容。
6、 一种推荐信息的装置, 其特征在于, 所述装置包括:
获取模块, 用于获取指定用户在论坛中的搜索行为数据、 浏览行为数据和 对推荐内容的点击行为数据;
预处理模块, 用于分别对所述搜索行为数据、 所述浏览行为数据和所述对 推荐内容的点击行为数据进行预处理得到第一推荐结果、 第二推荐结果和第三 推荐结果;
整合模块, 用于对所述第一推荐结果、 所述第二推荐结果和所述第三推荐 结果进行整合, 得到推荐给所述指定用户的推荐内容。
7、 根据权利要求 6所述的装置, 其特征在于, 所述预处理模块, 包括: 过滤单元, 用于过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串;
统计单元, 用于统计所述每个查询字符串(¾引发的点击帖子 1^的次数; 第一计算单元, 用于根据所述每个查询字符串 引发的点击所述帖子 1^的 次数, 计算所述帖子 ^被所述每个查询字符串引发的点击概率 Wl;
第一建立单元, 用于根据所述帖子 1^被所述每个查询字符串引发的点击概 率 wl 建立引发点击所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2,
Wj , ...,wn>;
第二计算单元, 用于根据所述建立的每个帖子的查询向量计算任意所述任 意两个帖子间的相关度, 得到第一推荐结果。
8、 根据权利要求 6所述的装置, 其特征在于, 所述预处理模块, 包括: 获取单元, 用于对所述浏览行为数据进行分析, 获取所述论坛中被所述指 定用户浏览过的帖子;
第一划分单元, 用于根据所述被浏览的帖子所属的版面, 将所述指定用户 的浏览行为划分成至少一个父主题段;
第三计算单元, 用于计算所述每个父主题段中的帖子标题的文本相似度, 第二划分单元, 用于根据所述子主题段间的分界线将所述相应的父主题段 进行划分, 得到至少一个子主题段;
第二建立单元, 用于根据所述每个子主题段建立所述指定用户的浏览行为 矩阵, 所述浏览行为矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中 出现的次数;
第四计算单元, 用于对所述浏览行为矩阵进行相关度计算, 得到第二推荐 结果。
9、 根据权利要求 6所述的装置, 其特征在于, 所述预处理模块, 包括: 分析单元, 用于对所述点击行为数据进行分析, 获得所述论坛中每篇帖子 的相关贴和所述每篇相关帖被点击的次数;
重排序单元, 用于根据所述每篇相关帖被点击的次数和所述相关帖被点击 的时间与当前时间的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次 数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列 的前端, 得到第三推荐结果。
10、 根据权利要求 6所述的装置, 其特征在于, 所述整合模块, 包括: 计算单元, 用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推 荐结果、 所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、 第二 平均概率和第三平均概率;
确定单元, 用于根据所述第一平均概率、 所述第二平均概率和所述第三平 均概率分别确定所述第一推荐结果的权重、 所述第二推荐结果的权重和所述第 三推荐结果的权重;
第一整合单元, 用于基于所述第一推荐结果的权重、 所述第二推荐结果的 权重和所述第三推荐结果的权重对所述第一推荐结果、 所述第二推荐结果和所 述第三推荐结果进行整合, 得到推荐给所述指定用户的推荐内容; 或,
第二整合单元, 用于根据预先设定的所述第一推荐结果的第一权重、 所述 第二推荐结果的第二权重和所述第三推荐结果的第三权重, 对所述第一推荐结 果、 所述第二推荐结果和所述第三推荐结果进行分配整合, 得到推荐给所述指 定用户的推荐内容。
11、 一种服务器, 其特征在于, 所述服务器包括:
一个或多个处理器; 和
存储器;
所述存储器存储有一个或多个程序, 所述一个或多个程序被配置成由所述 一个或多个处理器执行, 所述一个或多个程序包含用于进行以下操作的指令: 获取指定用户在论坛中的搜索行为数据、 浏览行为数据和对推荐内容的点 击行为数据;
分别对所述搜索行为数据、 所述浏览行为数据和所述对推荐内容的点击行 为数据进行预处理得到第一推荐结果、 第二推荐结果和第三推荐结果;
对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果根据权重进 行分配整合, 得到推荐给所述指定用户的推荐内容。
12、 根据权利要求 11所述的服务器, 其特征在于, 还包含用于进行以下操 作的指令:
过滤掉所述搜索行为数据中的噪音数据, 得到去噪数据, 其中, 所述去噪 数据包括所述指定用户在所述论坛中输入的查询字符串;
统计所述每个查询字符串 引发的点击帖子 ^的次数;
根据所述每个查询字符串 引发的点击所述帖子 1^的次数, 计算所述帖子 ^被所述每个查询字符串引发的点击概率 Wl;
根据所述帖子 ^被所述每个查询字符串引发的点击概率 Wl, 建立引发点击 所述帖子 Ti的查询向量, 其中所述查询向量为 <Wl, w2, w1 5 . . . ,wn>;
根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关 度, 得到第一推荐结果。
13、 根据权利要求 11所述的服务器, 其特征在于, 还包含用于进行以下操 作的指令:
对所述浏览行为数据进行分析, 获取所述论坛中被所述指定用户浏览过的 帖子;
根据所述被浏览的帖子所属的版面, 将所述指定用户的浏览行为划分成至 少一个父主题段; 计算所述每个父主题段中的帖子标题的文本相似度, 获得所述每个父主题 段下子主题段间的分界线;
根据所述子主题段间的分界线将所述相应的父主题段进行划分, 得到至少 一个子主题段;
根据所述每个子主题段建立所述指定用户的浏览行为矩阵, 所述浏览行为 矩阵中包括: 子主题和所述论坛中的帖子在所述子主题中出现的次数;
对所述浏览行为矩阵进行相关度计算, 得到第二推荐结果。
14、 根据权利要求 11所述的服务器, 其特征在于, 还包含用于进行以下操 作的指令:
对所述点击行为数据进行分析, 获得所述论坛中每篇帖子的相关贴和所述 每篇相关帖被点击的次数;
根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间 的关系, 对所述论坛中的相关贴进行重排序, 使得被点击次数多的且被点击时 间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端, 得到第三 推荐结果。
15、 根据权利要求 11所述的服务器, 其特征在于, 还包含用于进行以下操 作的指令:
分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、 所述第 二推荐结果和所述第三推荐结果中出现的第一平均概率、 第二平均概率和第三 平均概率;
根据所述第一平均概率、 第二平均概率和第三平均概率分别确定所述第一 推荐结果的权重、 所述第二推荐结果的权重和所述第三推荐结果的权重;
基于所述第一推荐结果的权重、 所述第二推荐结果的权重和所述第三推荐 结果的权重对所述第一推荐结果、 所述第二推荐结果和所述第三推荐结果进行 分配整合, 得到推荐给所述指定用户的推荐内容; 或,
根据预先设定的所述第一推荐结果的第一权重、 所述第二推荐结果的第二 权重和所述第三推荐结果的第三权重, 对所述第一推荐结果、 所述第二推荐结 果和所述第三推荐结果进行分配整合, 得到推荐给所述指定用户的推荐内容。
PCT/CN2013/084563 2012-10-08 2013-09-29 推荐信息的方法、装置和服务器 WO2014056408A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/678,890 US10268960B2 (en) 2012-10-08 2015-04-03 Information recommendation method, apparatus, and server based on user data in an online forum
US16/289,056 US11710054B2 (en) 2012-10-08 2019-02-28 Information recommendation method, apparatus, and server based on user data in an online forum

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210377563.3A CN103714084B (zh) 2012-10-08 2012-10-08 推荐信息的方法和装置
CN201210377563.3 2012-10-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/678,890 Continuation US10268960B2 (en) 2012-10-08 2015-04-03 Information recommendation method, apparatus, and server based on user data in an online forum

Publications (1)

Publication Number Publication Date
WO2014056408A1 true WO2014056408A1 (zh) 2014-04-17

Family

ID=50407070

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/084563 WO2014056408A1 (zh) 2012-10-08 2013-09-29 推荐信息的方法、装置和服务器

Country Status (3)

Country Link
US (2) US10268960B2 (zh)
CN (1) CN103714084B (zh)
WO (1) WO2014056408A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353088A (zh) * 2018-12-24 2020-06-30 中移(杭州)信息技术有限公司 一种电子资源推荐方法、装置和可读介质
CN111782940A (zh) * 2020-06-10 2020-10-16 支付宝(杭州)信息技术有限公司 基于自然流量选择的推荐方法、装置、电子设备及介质
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914550B (zh) * 2014-04-11 2017-08-18 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置
US20160162779A1 (en) * 2014-12-05 2016-06-09 RealMatch, Inc. Device, system and method for generating a predictive model by machine learning
CN104881484A (zh) * 2015-06-04 2015-09-02 百度在线网络技术(北京)有限公司 信息推荐方法和装置
EP3323099A1 (en) * 2015-07-16 2018-05-23 B2Cloud Method for processing a recommendation request and recommendation engine
CN107026731A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种用户身份验证的方法及装置
CN105872629B (zh) 2016-03-18 2019-08-27 合一网络技术(北京)有限公司 内容推荐方法、装置及系统
CN106202394B (zh) * 2016-07-07 2021-03-19 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN106202534A (zh) * 2016-07-25 2016-12-07 十九楼网络股份有限公司 一种基于社区用户行为的内容推荐方法及系统
CN106599047B (zh) * 2016-11-10 2020-08-18 咪咕动漫有限公司 一种信息的推送方法及装置
CN108694211B (zh) * 2017-04-11 2023-05-12 腾讯科技(深圳)有限公司 应用分发方法及装置
CN107423355B (zh) * 2017-05-26 2019-03-15 北京三快在线科技有限公司 信息推荐方法及装置、电子设备
CN107463704B (zh) * 2017-08-16 2021-05-07 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108196926B (zh) * 2017-12-29 2021-03-26 努比亚技术有限公司 平台内容标识方法、终端及计算机可读存储介质
CN109190024B (zh) * 2018-08-20 2023-04-07 平安科技(深圳)有限公司 信息推荐方法、装置、计算机设备及存储介质
CN109753601B (zh) * 2018-11-28 2021-10-22 北京奇艺世纪科技有限公司 推荐信息点击率确定方法、装置及电子设备
CN109685614A (zh) * 2018-12-19 2019-04-26 广州易起行信息技术有限公司 旅游产品推荐方法、装置、计算机设备和存储介质
CN109344335B (zh) * 2018-12-20 2020-12-25 广东小天才科技有限公司 一种内容推荐方法及电子设备
CN109684546B (zh) * 2018-12-24 2022-01-28 北京城市网邻信息技术有限公司 推荐方法、装置、存储介质及终端
CN109871491A (zh) * 2019-03-20 2019-06-11 江苏满运软件科技有限公司 论坛帖子推荐方法、系统、设备及存储介质
CN110222271B (zh) * 2019-06-19 2022-03-15 北京百度网讯科技有限公司 用于生成网页的方法和装置
CN111581452B (zh) * 2020-03-26 2023-10-17 浙江口碑网络技术有限公司 推荐对象数据的获得方法、装置及电子设备
CN111506831A (zh) * 2020-04-13 2020-08-07 蔡梓超 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN113763086A (zh) * 2020-09-23 2021-12-07 北京沃东天骏信息技术有限公司 信息推荐方法及装置
CN112150206B (zh) * 2020-09-28 2022-11-08 京东科技控股股份有限公司 用户感兴趣物品的预测方法及设备
CN112182382B (zh) * 2020-09-28 2021-08-24 上海嗨普智能信息科技股份有限公司 数据处理方法、电子设备及介质
CN112488842A (zh) * 2020-12-14 2021-03-12 天津北晟企业服务有限公司 投资机构推荐方法和装置
CN112732927A (zh) * 2020-12-31 2021-04-30 平安资产管理有限责任公司 基于知识图谱的内容相似性分析方法和装置
CN113159905A (zh) * 2021-05-20 2021-07-23 深圳马六甲网络科技有限公司 新用户的商品推荐方法、装置、设备及存储介质
CN113836437B (zh) * 2021-09-14 2024-01-30 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质
CN114153884B (zh) * 2021-11-09 2022-07-12 安徽大学 一种基于区块链的智能档案管理利用系统
CN116170497B (zh) * 2022-12-09 2023-10-20 北京国电通网络技术有限公司 用户行为信息推送方法、装置、电子设备和计算机介质
CN117473165A (zh) * 2023-11-20 2024-01-30 河北汉统信息科技有限公司 一种基于大数据的用户关注需求分析处理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102332006A (zh) * 2011-08-03 2012-01-25 百度在线网络技术(北京)有限公司 一种信息推送控制方法及装置
CN102479366A (zh) * 2010-11-25 2012-05-30 阿里巴巴集团控股有限公司 一种商品推荐方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8954412B1 (en) * 2006-09-28 2015-02-10 Google Inc. Corroborating facts in electronic documents
CN101923545B (zh) * 2009-06-15 2012-10-10 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN101923544B (zh) * 2009-06-15 2012-08-08 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN102298750B (zh) * 2010-06-28 2016-11-02 百度在线网络技术(北京)有限公司 用于广告搜索点击回放的方法及装置
US8392343B2 (en) * 2010-07-21 2013-03-05 Yahoo! Inc. Estimating probabilities of events in sponsored search using adaptive models
CN102541893B (zh) * 2010-12-16 2016-05-25 腾讯科技(深圳)有限公司 关键词分析方法及装置
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN102567902A (zh) * 2012-02-10 2012-07-11 亿赞普(北京)科技有限公司 网络广告动态发布方法及其系统
CN102708198A (zh) * 2012-05-16 2012-10-03 杭州通策会综合服务有限公司 个性化网络广告的推送方法
CN103631779A (zh) * 2012-08-21 2014-03-12 上海凌攀信息科技有限公司 一种基于社交化词典的单词推荐系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102479366A (zh) * 2010-11-25 2012-05-30 阿里巴巴集团控股有限公司 一种商品推荐方法及系统
CN102332006A (zh) * 2011-08-03 2012-01-25 百度在线网络技术(北京)有限公司 一种信息推送控制方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353088A (zh) * 2018-12-24 2020-06-30 中移(杭州)信息技术有限公司 一种电子资源推荐方法、装置和可读介质
CN111782940A (zh) * 2020-06-10 2020-10-16 支付宝(杭州)信息技术有限公司 基于自然流量选择的推荐方法、装置、电子设备及介质
CN111782940B (zh) * 2020-06-10 2024-04-23 支付宝(杭州)信息技术有限公司 基于自然流量选择的推荐方法、装置、电子设备及介质
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN112749331B (zh) * 2020-06-28 2023-09-19 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
US20190197416A1 (en) 2019-06-27
US20150213368A1 (en) 2015-07-30
US10268960B2 (en) 2019-04-23
CN103714084B (zh) 2018-04-03
US11710054B2 (en) 2023-07-25
CN103714084A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
WO2014056408A1 (zh) 推荐信息的方法、装置和服务器
JP6408081B2 (ja) オンライン・ソーシャル・ネットワーク上の検索結果をブレンドすること
US20190361945A1 (en) Analytics based on scalable hierarchical categorization of web content
White et al. Predicting user interests from contextual information
US10515374B2 (en) Keyword generation method and apparatus
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
Agarwal et al. Statistical methods for recommender systems
WO2015192667A1 (zh) 推荐广告的方法及广告推荐服务器
US20060206479A1 (en) Keyword effectiveness prediction method and apparatus
US20180060426A1 (en) Systems and methods for issue management
US9767417B1 (en) Category predictions for user behavior
WO2013049774A2 (en) Sentiment analysis from social media content
CN109241412A (zh) 一种基于网络表示学习的推荐方法、系统及电子设备
Arrigo et al. Non-backtracking walk centrality for directed networks
US9767204B1 (en) Category predictions identifying a search frequency
JP5662299B2 (ja) 情報推薦装置及び方法及び装置及びプログラム
Yin et al. Exploring social activeness and dynamic interest in community-based recommender system
US10474670B1 (en) Category predictions with browse node probabilities
WO2010085874A1 (en) Recommender system for on-line articles and documents
WO2017112053A1 (en) Prediction using a data structure
CN107003829A (zh) 各个结果类别的视野内和视野外的与请求相关的结果区域
EP1861820A2 (en) Keyword effectiveness prediction and/or keyword generation method and apparatus
US10387934B1 (en) Method medium and system for category prediction for a changed shopping mission
Dong et al. Improving sequential recommendation with attribute-augmented graph neural networks
Antulov-Fantulin et al. Ecml-pkdd 2011 discovery challenge overview

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13845768

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19/08/2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13845768

Country of ref document: EP

Kind code of ref document: A1