WO2020037930A1 - 信息推荐方法、装置、计算机设备及存储介质 - Google Patents

信息推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2020037930A1
WO2020037930A1 PCT/CN2018/125327 CN2018125327W WO2020037930A1 WO 2020037930 A1 WO2020037930 A1 WO 2020037930A1 CN 2018125327 W CN2018125327 W CN 2018125327W WO 2020037930 A1 WO2020037930 A1 WO 2020037930A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
document
browsing
browsing data
time period
Prior art date
Application number
PCT/CN2018/125327
Other languages
English (en)
French (fr)
Inventor
吴壮伟
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020037930A1 publication Critical patent/WO2020037930A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the present application relates to the field of computer technology, and in particular, to an information recommendation method, device, computer device, and storage medium.
  • the recommendation system is an intelligent agent system proposed to solve the problem of information overload. It can automatically recommend resources from a large amount of information to users that meet their interest preferences or needs. With the rapid development of the Internet, recommendation systems have been applied in various fields, especially in fields such as e-commerce websites.
  • This application provides an information recommendation method, device, computer equipment, and storage medium to improve the accuracy and rationality of information recommendation.
  • the present application provides an information recommendation method, including: obtaining first browsing data of a plurality of users in a first preset time period and second browsing data in a second preset time period, wherein The first browsing data and the second browsing data are user behavior data when a plurality of the users browse a webpage; determining a plurality of user keywords and each of the users according to the first browsing data and the second browsing data The degree of interest in each of the user keywords, and generating an interest vector corresponding to each of the users according to a plurality of the user keywords and the degree of interest of each of the users in each of the user keywords; A plurality of documents to be recommended, and based on a preset keyword information technology, a document keyword corresponding to each of the documents to be recommended and a weight value corresponding to each of the document keywords are obtained; according to a document key corresponding to the document to be recommended Words and weight values corresponding to each of the document keywords to generate a recommendation vector corresponding to each of the documents to be recommended; and calculating an interest vector
  • the present application provides an information recommendation device, including: a browsing data obtaining unit, configured to obtain a plurality of users' first browsing data within a first preset time period and within a second preset time period The second browsing data, wherein the first browsing data and the second browsing data are user behavior data when a plurality of users browses a webpage; an interest vector generating unit is configured to generate the second browsing data according to the first browsing data and the second browsing data;
  • the browsing data determines a plurality of user keywords and the degree of interest of each of the users to each of the user keywords, and according to the plurality of user keywords and each of the users to each of the user keywords
  • the degree of interest generates an interest vector corresponding to each of the users;
  • a keyword obtaining unit is configured to obtain a plurality of documents to be recommended, and obtain a document keyword corresponding to each of the to-be-recommended documents and a A weight value corresponding to each of the document keywords;
  • a recommendation vector generating unit configured to: according to a document keyword corresponding
  • the present application further provides a computer device including a memory, a processor, and a computer program stored on the memory and executable on the processor.
  • the processor is implemented when the computer program is executed.
  • the information recommendation method provided by the first aspect.
  • the present application also provides a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and the computer program, when executed by a processor, causes the processor to execute the first aspect.
  • the information recommendation method when executed by a processor, causes the processor to execute the first aspect.
  • FIG. 1 is a schematic flowchart of an information recommendation method according to an embodiment of the present application
  • FIG. 2 is a specific schematic flowchart of an information recommendation method according to an embodiment of the present application.
  • FIG. 3 is a specific schematic flowchart of an information recommendation method according to an embodiment of the present application.
  • FIG. 4 is a specific schematic flowchart of an information recommendation method according to an embodiment of the present application
  • FIG. 5 is a schematic block diagram of an information recommendation device according to an embodiment of the present application.
  • FIG. 6 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • FIG. 1 is a schematic flowchart of an information recommendation method according to an embodiment of the present application.
  • the information recommendation method includes steps S101 to S105.
  • the time lengths of the first preset time period and the second preset time period are different.
  • the duration of the first preset time period may be shorter than the duration of the second preset time period.
  • the first preset time period is approximately 7 days and the second preset time period is approximately 90 days.
  • the first browsing data in the first preset time period is equivalent to short-term data
  • the second browsing data in the second preset time period is equivalent to long-term data, so that the user can combine the long-term and short-term data to the user.
  • Recommend information improve the accuracy of information recommendation, and also solve the problem of sparseness in the user rating matrix.
  • the specific way to obtain the user behavior data when the user browses the webpage that is, to obtain the user's first browsing data and the second browsing data can be obtained through a Web server log, or through software running on the client
  • the manner of acquiring the user's first browsing data and second browsing data there is no limitation on the manner of acquiring the user's first browsing data and second browsing data.
  • the first browsing data may include all documents browsed by a plurality of users within a first preset time period and a plurality of users' browsing behavior parameters of each document within the first preset time period, where
  • the browsing behavior parameter may include a click parameter of each user on each document in the first browsing data, a start time and an ending time of each user when browsing each document in the first browsing data, and the like.
  • the second browsing data also includes all documents browsed by multiple users in the second preset time period and multiple users' browsing behavior parameters of each document in the second preset time period.
  • the behavior parameter may include a click parameter of each user on each document in the second browsing data, a start time and an ending time of each user when browsing each document in the second browsing data, and so on.
  • the first browsing data or the second browsing data may also include other data, for example, it may also include the user's network address, the URL of the document (English full name: Uniform Resource Locator, Chinese name: Uniform Resource Locator) link, and other information. There are no specific restrictions here.
  • S102 Determine a plurality of user keywords and the degree of interest of each user to each of the user keywords according to the first browsing data and the second browsing data, and according to the plurality of user keywords and each The degree of interest of the user in each of the user keywords generates an interest vector corresponding to each of the users.
  • a plurality of user keywords and the degree of interest of each user to each user keyword will be determined according to the first browsing data and the second browsing data.
  • FIG. 2 is a specific schematic flowchart of an information recommendation method provided by an embodiment of the present application.
  • the first browsing data includes a plurality of documents browsed by the user in the first preset time period and a plurality of documents of the user on each document in the first preset time period. Browsing behavior parameters;
  • the second browsing data includes a plurality of documents browsed by the user in the second preset time period and a plurality of user browsing behaviors of each document in the second preset time period parameter.
  • step S102 determining a plurality of user keywords and the degree of interest of each user to each of the user keywords according to the first browsing data and the second browsing data, specifically including steps S1021 to S1025.
  • a model is generated based on a document theme, acquiring a plurality of first topics corresponding to a plurality of documents in the first browsing data and a first keyword list corresponding to each of the first topics, and acquiring the second browsing Multiple second topics corresponding to multiple documents in the data and a second keyword list corresponding to each of the second topics, wherein the first keyword list and the second keyword list both include corresponding topic correspondences A plurality of topic keywords and a weight value corresponding to each of the topic keywords.
  • a document theme generation model (English name: Latent, Dirichlet, Allocation, LDA for short) will be used to obtain the topics corresponding to each document in the first browsing data and the second browsing data, and a keyword list corresponding to each topic. .
  • multiple documents in the first browsing data are input into a document topic generation model to obtain multiple first topics corresponding to the multiple documents and a first keyword list corresponding to each first topic.
  • a keyword list includes a plurality of topic keywords corresponding to each first topic and a weight value corresponding to each topic keyword.
  • a plurality of second topics corresponding to multiple documents in the second browsing data and a second keyword list corresponding to each second topic can be obtained, where the second keyword list includes the second keyword corresponding to each second topic Multiple topic keywords and weight values corresponding to each topic keyword.
  • the topic keyword is a pre-set number of vocabularies in which the weight values of the plurality of words corresponding to the corresponding topic are arranged in descending order.
  • the topic keyword is the top 10 words with a larger weight value among a plurality of words corresponding to the corresponding topic.
  • S1022 Perform a union operation on the plurality of topic keywords in the first browsing data and the plurality of topic keywords in the second browsing data to obtain a plurality of user keywords.
  • the first browsing data and the second browsing data are user behavior data when the user browses the webpage in different time periods
  • the first browsing data and the second browsing data can reflect the user's interest preferences in different time periods.
  • the user's preferred document type, document content, etc. in the first preset time period and the second preset time period may be the same, or there may be differences. Therefore, many of the first browsing data
  • the first topic and multiple second topics in the second browsing data may have the same topic and different topics.
  • the corresponding topic keywords in the multiple first topics and the topic keywords in the multiple second topics may also be the same. There may be the same keywords and different keywords.
  • the multiple topic keywords in the first browsing data include “Kobe” and “Cecilia Cheung”
  • the multiple keyword keywords in the second browsing data include “Kobe”, “blood pressure” and “investment and financial management”.
  • the user keywords obtained from the calculation include “Kobe”, “Cecilia Cheung”, “blood pressure” and “investment and financial management”.
  • FIG. 3 is a specific schematic flowchart of an information recommendation method provided by an embodiment of the present application.
  • This step S1023 includes steps S10231 to S10238.
  • S10231 Calculate the degree of interest of each user in each document in the first browsing data and the second in accordance with the browsing behavior parameters of each user, the number of words in each document, and the current browsing time. The degree of interest in browsing each document in the data.
  • the current browsing time can be understood as the time when the application program in the user terminal currently needs to obtain the document that the user is interested in from the server.
  • the current browsing time can be the time when the application sends a request to the corresponding server to obtain a document that the user is interested in when the user clicks an application icon in the terminal, or it can be understood as the user's browsing the application's page , The application sends a request to the corresponding server to obtain the time of the document that the user is interested in, and so on.
  • FIG. 4 is a specific schematic flowchart of an information recommendation method provided by an embodiment of the present application.
  • the browsing behavior parameters include each user's click parameter I ij on each document in the first browsing data or the second browsing data, and the start time T 0ij of each user when browsing each document. And termination time T ij .
  • This step S10231 includes steps S10231a to S10231i.
  • S10231a Acquire all the documents browsed by each user within the first preset time period, and the start time and end time of each document, and acquire each of the users at the second preset time. All documents viewed in the paragraph and the start and end times of each document.
  • the user's click parameter I ij for each document is used to indicate whether the user has clicked to read the document. If the user clicks on the document, the click parameter I ij of the document has a value of 1 If the user has not clicked the document, the click parameter I ij of the document is 0.
  • the browsing data filters out all documents viewed by each user.
  • all documents viewed by each user can be filtered out by determining whether the click parameter I ij is 1.
  • S10231b According to all documents browsed by each user in the first preset time period, and the start time and end time of each document, each user is counted in the first preset time period. The total number of words and the total time spent on all documents viewed within.
  • the time of each document browsed by the user is first calculated. Specifically, the difference between the end time and the start time of each document may be used to calculate the difference to obtain the time taken by the user to browse each document. Then, the time spent by all the documents browsed by the user is summed to obtain the total time spent by the user by browsing all the documents. Similarly, when counting the total number of words of all documents browsed by each user, the word count of each document browsed by the user can be counted first, and then the word counts of all documents browsed by the user can be summed to obtain the user's view of all documents The total number of words.
  • the time taken by a user to browse a document may sometimes be abnormal. For example, after a user clicks into a document page, he immediately exits. In this way, the time taken to browse a document is abnormal time. For another example, after a user clicks into a document page to do other things, and stays on the document page for a long time, the time taken to browse the document is also abnormal time. In order to accurately calculate the first browsing speed and the second browsing speed of the user, before step S10231b, it is necessary to filter the time taken by the user to browse each document.
  • the method further includes: calculating, according to a start time and an end time of the user browsing each article, a duration of each document browsed by the user in the first preset time period, And calculating the duration of each document browsed by each user within the second preset time period; each of the first preset time period and the second preset time period is separately extracted through a normal distribution The effective duration of the user and a document corresponding to the effective duration.
  • step S10231b is specifically: according to all documents corresponding to the valid durations and corresponding valid durations browsed by each of the users in the first preset time period, counting each of the users' Set the total number of words in the document corresponding to all valid durations in the time period and the total time corresponding to all valid durations.
  • the first browsing speed can be subsequently calculated according to the total number of words of the document corresponding to the valid duration and the total time corresponding to the valid duration.
  • the total number of words of all documents browsed by each user in the second preset time period and the total time consumed can be obtained by statistics.
  • step S10231b is specifically: according to each of the users in the second preset time period. Set all documents corresponding to the valid duration and corresponding valid durations browsed in the time period, and count the total number of words of all the documents corresponding to all valid durations of the user in the second preset time period and correspond to all valid durations. Total time.
  • the total number of words of all documents browsed by each user within the first preset time period is divided by the total time consumed to obtain the first browsing speed of each user.
  • S10231e Calculate the second browsing speed of each user according to the total number of words and total time consumed by all the documents browsed by the user in the second preset time period.
  • a second browsing speed of each user is obtained by dividing the total number of words of all documents browsed by each user in the second preset time period by the total time consumed.
  • S10231f Calculate each user's response to the search according to the first browsing speed of each user, the start time and end time of browsing each document within the first preset time period, and the number of words of each document. The attention degree of each document browsed in the first preset time period is described.
  • the attention degree calculation formula may be used to calculate the attention degree of each user for each document browsed in the first preset time period.
  • the calculation formula of the attention degree is shown in the following formula (1):
  • C ij represents the degree of attention of the i-th user to the j-th document browsed in the first preset time period
  • Speed i represents the first browsing speed of the i-th user
  • T 0ij and T ij respectively represent the i-th The start time and end time of each user when browsing the j-th document.
  • Size j represents the word count of the j-th document.
  • S10231g Calculate each user pair according to the second browsing speed of each user, the start time and end time of browsing each document within the second preset time period, and the number of words of each document Attention degree of each document browsed in the second preset time period.
  • S10231h According to each user's degree of attention to each document browsed in the first preset time period, each user's click parameters for each document in the first browsing data, browsing each document The start time of the document and the current browsing time are used to calculate the degree of interest of each user in each document in the first browsing data.
  • an interest degree calculation formula may be used to calculate an interest degree R of each user in each document in the first browsing data.
  • the formula for calculating the degree of interest is shown in the following formula (2):
  • R ij indicates the degree of interest of the i-th user in the j-th document
  • C ij indicates the degree of attention of the i-th user in the j-th document
  • I ij indicates the click parameter of the i-th user in the j-th document
  • is the time decay constant
  • T represents the current browsing time
  • T 0ij represents the starting time of the i-th user browsing the j-th document.
  • S10231i According to each user's degree of attention to each document browsed in the second preset time period, each user's click parameters for each document in the second browsing data, browsing each document The start time of the document and the current browsing time are used to calculate the degree of interest of each user in each document in the second browsing data.
  • the preset keyword information technology may be, for example, TF-IDF (full name in English: Term Frequency-Inverse Document Frequency, Chinese name: word frequency-reverse document frequency).
  • TF-IDF full name in English: Term Frequency-Inverse Document Frequency
  • Chinese name word frequency-reverse document frequency.
  • the browsing keywords of each document in the first browsing data and the weight values corresponding to each browsing keyword are obtained based on the TF-IDF.
  • a browsing keyword of each document in the second browsing data and a weight value corresponding to each browsing keyword may be obtained based on the TF-IDF.
  • the first 10 browsing keywords with larger weight values for each document in the first browsing data and the weight values corresponding to each browsing keyword obtain the weight for each document in the second browsing data.
  • the top 10 browsing keywords with larger values and the weight values corresponding to each browsing keyword obtain the top 10 browsing keywords with larger values and the weight values corresponding to each browsing keyword.
  • S10233 According to a browsing keyword of each document in the first browsing data and a weight value corresponding to each of the browsing keywords, and a plurality of the first topics in the first browsing data and each A first keyword list corresponding to the first topic calculates a probability of each document in the first browsing data on each of the first topics.
  • the A document in the first browsing data corresponds to two browsing keywords and corresponding weight values, and these two browsing keywords and corresponding weight values are respectively expressed as (China, 0.4) and (national flag, 0.6).
  • the number of the first topics is two.
  • One of the first topics includes the topic keywords and the corresponding weight values are expressed as (China, 0.6)
  • the other first topic includes the topic keywords and the corresponding weight values are expressed as (China, 0.7) and (Flag, 0.3).
  • S10234 According to a browsing keyword of each document in the second browsing data and a weight value corresponding to each of the browsing keywords, and a plurality of the second topics in the second browsing data and each The second keyword list corresponding to the second topic calculates the probability of each document in the second browsing data on each of the second topics.
  • step S10233 the probability of each document on the second topic in the second browsing data can be calculated.
  • the first browsing data includes n documents and the first browsing data includes m first topics.
  • the degree of interest of the i-th user in the j-th document is expressed as R ij , where j takes an integer from 1 to n.
  • the probability of the j-th document on the k-th first topic is expressed as P jk , where k takes an integer from 1 to m.
  • the expression of the degree of interest Q ik of the i-th user on the k-th first topic is shown in formula (3):
  • the degree of interest of each user on each first topic can be calculated in turn.
  • S10237 According to the degree of interest of each of the users in each of the first topics, and a plurality of topic keywords in the first keyword list of each of the first topics, and a weight value corresponding to each topic keyword, Calculate the degree of interest of each user in each topic keyword in the first browsing data.
  • each first topic has a corresponding topic keyword and a weight value corresponding to the topic keyword
  • the degree of interest of each user on different topic keywords can be calculated. Specifically, the degree of interest of each user on each first topic is multiplied by the weight value of the topic keywords of the first topic to obtain the user's degree of interest on each topic keyword in each first topic, and Sum the degree of interest of the same topic keywords in multiple first topics to obtain the degree of interest of each user in each topic keyword in the first browsing data. Represents the degree of interest of the i-th user in the j-th topic keyword in the first browsing data.
  • S10238 According to the degree of interest of each of the users in each of the second topics, and a plurality of topic keywords in the second keyword list of each of the second topics and a weight value corresponding to each topic keyword, Calculate the degree of interest of each user in each topic keyword in the second browsing data.
  • the degree of interest of each user in each topic keyword in the second browsing data can be calculated in the same way. Represents the degree of interest of the i-th user in the j-th topic keyword in the second browsing data.
  • the first weight value and the second weight value are preset information used to represent the last recommendation information of the first browsing data in the first preset time period and the second browsing data in the second preset time period, respectively. Importance.
  • the first weight value and the second weight value can be set according to actual needs. For example, the first weight value and the second weight value can both be set to 0.5, or the first weight value can be set to 0.6 and the second weight value can be set to 0.4.
  • the preset calculation formula is the following formula (4):
  • F ij represents the degree of interest of the i-th user in the j-th user keyword
  • x is the first weight value
  • y is the second weight value
  • the plurality of subject keywords in the first browsing data include “Kobe” and “Cecilia Cecilia”.
  • Step S1023 calculates that the degree of interest of the A user to "Kobei” is 0.2, and the degree of interest of "Ceiberia” is 0.8.
  • a plurality of subject keywords include “Kobe”, “blood pressure” and “investment and financial management”.
  • Step S1023 calculates that the degree of interest of user A on “Kobe” is 0.4 and the degree of interest on “blood pressure” is 0.5
  • the degree of interest in "investment and financial management” is 0.1. Assume that the first weight value x is 0.4 and the second weight value y is 0.6.
  • the multiple user keywords and each The degree of interest of the user for each user keyword is input into the word vector model to generate an interest vector of a preset dimension corresponding to each user.
  • the interest vector may be a 256-dimensional vector.
  • multiple documents to be recommended are obtained, where the multiple documents to be recommended may be the latest updated documents.
  • keyword extraction is performed on each of the acquired documents to be recommended to obtain multiple document keywords corresponding to each to-be-recommended document, and at the same time, each The weight value corresponding to the document keywords, that is, the TF-IDF value corresponding to each document keyword.
  • a recommendation vector corresponding to each document to be recommended will be generated according to the document keywords and the corresponding weight values.
  • a plurality of document keywords corresponding to each document to be recommended and weight values corresponding to each document keyword may be input into a word vector model to generate a recommendation vector of a predetermined dimension.
  • the recommendation vector may be a 256-dimensional vector.
  • S105 Calculate a distance value between the user's interest vector and a recommendation vector of each of the documents to be recommended, and push, according to each of the distance values, the to-be-recommended document that meets a preset condition as push information to the user.
  • step S104 After the interest vector of each user is obtained in step S102 and the recommendation vector corresponding to each document to be recommended is obtained in step S104, the distance value between the user's interest vector and the recommendation vector of each document to be recommended will be calculated.
  • a distance value between a user's interest vector and a recommendation vector of each document to be recommended may be calculated by a preset cosine similarity calculation formula.
  • the preset cosine similarity calculation formula may be, for example, the following formula (5):
  • a document to be recommended of a recommendation vector corresponding to the smallest distance value preset among a plurality of distance values may be recommended to the user as recommendation information.
  • the multiple distance values are arranged in ascending order, and the to-be-recommended document of the recommendation vector corresponding to the previously preset number of distance values is recommended to the user as recommendation information.
  • the preset number can be set according to actual needs. For example, the preset number can be set to five, and then a document to be recommended with a recommendation vector corresponding to the smallest five distance values is obtained from a plurality of distance values.
  • As recommendation information 5 pieces of recommendation information are recommended to corresponding users, thereby completing information recommendation.
  • the information recommendation method in this embodiment can recommend the user by combining the browsing data of the user in the first preset time period and the second preset time period, thereby improving the accuracy and rationality of the information recommendation.
  • An embodiment of the present application further provides an information recommendation device, where the information recommendation device is configured to execute any one of the foregoing information recommendation methods.
  • FIG. 5 is a schematic block diagram of an information recommendation device according to an embodiment of the present application.
  • the information recommendation device 300 includes a browsing data acquisition unit 301, an interest vector generation unit 302, a keyword acquisition unit 303, a recommendation vector generation unit 304, and a recommendation unit 305.
  • the browsing data obtaining unit 301 is configured to obtain first browsing data of a plurality of users in a first preset time period and second browsing data in a second preset time period, wherein the first browsing data and the first browsing data
  • the second browsing data is user behavior data when a plurality of the users browse the webpage.
  • the interest vector generating unit 302 is configured to determine a plurality of user keywords and the degree of interest of each user to each of the user keywords according to the first browsing data and the second browsing data, and according to a plurality of the user keywords.
  • User keywords and the degree of interest of each user in each of the user keywords generate an interest vector corresponding to each of the users.
  • the keyword acquisition unit 303 is configured to acquire a plurality of documents to be recommended, and obtain a document keyword corresponding to each of the documents to be recommended and a weight value corresponding to each of the document keywords based on a preset keyword information technology.
  • the recommendation vector generating unit 304 is configured to generate a recommendation vector corresponding to each of the documents to be recommended according to a document keyword corresponding to the document to be recommended and a weight value corresponding to each of the document keywords.
  • the recommendation unit 305 is configured to calculate a distance value between the user's interest vector and the recommendation vector of each of the documents to be recommended, and push the to-be-recommended document that satisfies a preset condition as push information to each distance value The user.
  • the information recommendation device 300 in this embodiment can recommend the user based on the browsing data of the user in the first preset time period and the second preset time period, thereby improving the accuracy and rationality of the information recommendation.
  • the above information recommendation device can be implemented in the form of a computer program, which can be run on a computer device as shown in FIG. 6.
  • FIG. 6 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the computer device 500 includes a processor 502, a memory, and a network interface 505 connected through a system bus 501.
  • the memory may include a non-volatile storage medium 503 and an internal memory 504.
  • the non-volatile storage medium 503 can store an operating system 5031 and a computer program 5032.
  • the computer program 5032 includes program instructions. When the program instructions are executed, the processor 502 can execute an information recommendation method.
  • the processor 502 is used to provide computing and control capabilities to support the operation of the entire computer device 500.
  • the internal memory 504 provides an environment for running the computer program 5032 in the non-volatile storage medium 503.
  • the processor 502 can execute an information recommendation method.
  • the network interface 505 is used for network communication, such as sending assigned tasks.
  • the processor 502 is configured to run a computer program 5032 stored in a memory to implement the embodiments of the information recommendation methods described above.
  • the processor 502 may be a central processing unit, and the processor 502 may also be other general-purpose processors, digital signal processors, application specific integrated circuits, ready-made programmable gate arrays, or other programmable logic. Devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor, or the processor may be any conventional processor.
  • a person of ordinary skill in the art can understand that all or part of the processes in the embodiment of the method for recommending information described above can be completed by instructing related hardware through a computer program.
  • the computer program may be stored in a computer-readable storage medium.
  • the computer program is executed by at least one processor in the computer system to implement the process steps of the embodiment including the information recommendation methods as described above.
  • the computer-readable storage medium may be various media that can store program codes, such as a U disk, a mobile hard disk, a read-only memory (ROM, Read-Only Memory), a magnetic disk, or an optical disk.
  • program codes such as a U disk, a mobile hard disk, a read-only memory (ROM, Read-Only Memory), a magnetic disk, or an optical disk.
  • the steps in the method of the embodiment of the present application can be adjusted, combined, and deleted according to actual needs.
  • the units in the apparatus of the embodiment of the present application may be combined, divided, and deleted according to actual needs.
  • the integrated unit When the integrated unit is implemented in the form of a software functional unit and sold or used as an independent product, it can be stored in a storage medium.
  • the technical solution of this application is essentially a part that contributes to the existing technology, or all or part of the technical solution may be embodied in the form of a software product, which is stored in a storage medium Included are instructions for causing a computer device (which may be a personal computer, a terminal, or a network device, etc.) to perform all or part of the steps of the method described in the embodiments of the present application.
  • a computer device which may be a personal computer, a terminal, or a network device, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息推荐方法、装置、计算机设备及存储介质。该方法根据用户在第一预设时间段和第二预设时间段内的第一浏览数据和第二浏览数据确定用户关键词和兴趣程度,根据用户关键词和兴趣程度生成兴趣向量;根据待推荐文档的文档关键词和权重值生成推荐向量;根据兴趣向量与推荐向量之间的距离值向用户推荐待推荐文档。

Description

信息推荐方法、装置、计算机设备及存储介质
本申请要求于2018年8月20日提交中国专利局、申请号为201810948488.9、发明名称为“信息推荐方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息推荐方法、装置、计算机设备及存储介质。
背景技术
推荐系统是为解决信息过载问题而提出的一种智能代理系统,其能从大量信息中向用户自动推荐出符合其兴趣偏好或需求的资源。随着互联网的飞速发展,推荐系统已被应用在各个领域,尤其是应用在电子商务网站等领域。
目前的推荐系统大多是基于用户评分矩阵的协同过滤系统,根据用户以往对浏览过的新闻等文档的评分来向用户推荐其可能感兴趣的新闻、文档等信息。然而,很多用户在看完新闻等文档信息后,一般都没有对所浏览的新闻等进行评分的习惯,这就导致用户评分矩阵存在严重的稀疏性,使得后续向用户推荐信息的准确性和合理性都较低,用户体验较差。
发明内容
本申请提供了一种信息推荐方法、装置、计算机设备及存储介质,以提高信息推荐的准确性和合理性。
第一方面,本申请提供了一种信息推荐方法,其包括:获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每 个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
第二方面,本申请提供了一种信息推荐装置,其包括:浏览数据获取单元,用于获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;兴趣向量生成单元,用于根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;关键词获取单元,用于获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;推荐向量生成单元,用于根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及推荐单元,用于计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的所述的信息推荐方法。
第四方面,本申请还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行第一方面提供的所述的信息推荐方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实 施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息推荐方法的示意流程图;
图2为本申请实施例提供的一种信息推荐方法的具体示意流程图;
图3为本申请实施例提供的一种信息推荐方法的具体示意流程图;
图4为本申请实施例提供的一种信息推荐方法的具体示意流程图
图5为本申请实施例提供的一种信息推荐装置的示意性框图;
图6为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请实施例提供的一种信息推荐方法的示意流程图。该信息推荐方法包括步骤S101~S105。
S101、获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据。
在本实施例中,第一预设时间段和第二预设时间段的时间长度不相同。譬如,第一预设时间段的时间长度可以小于第二预设时间段的时间长度,例如,第一预设时间段为近7天时间,第二预设时间段为近90天时间。这样第一预设时间段内的第一浏览数据就相当于短期的数据,第二预设时间段内的第二浏览数据就相当于长期的数据,从而实现结合长期和短期内的数据向用户推荐信息,提高信息推荐的准确性,同时也可以解决用户评分矩阵存在稀疏性的问题。
在一实施例中,获取用户浏览网页时的用户行为数据,即获取用户的第一浏览数据和第二浏览数据的具体方式可为通过Web服务器日志的方式来获取,或者通过运行在客户端的软件进行隐性获取等,在此不对获取用户的第一浏览数据和第二浏览数据的方式做限制。
在一实施例中,该第一浏览数据可以包括多个用户在第一预设时间段内浏 览的所有文档和多个用户对第一预设时间段内的每篇文档的浏览行为参数,其中,浏览行为参数可以包括每个用户对第一浏览数据中的每篇文档的点击参数、每个用户在浏览第一浏览数据中的每篇文档时的起始时间和终止时间等等。同理,该第二浏览数据中也包括多个用户在第二预设时间段内浏览的所有文档和多个用户对第二预设时间段内的每个文档的浏览行为参数,其中,浏览行为参数可以包括每个用户对第二浏览数据中的每篇文档的点击参数、每个用户在浏览第二浏览数据中的每篇文档时的起始时间和终止时间等等。当然,该第一浏览数据或第二浏览数据还可以包括其他数据,譬如,还可以包括用户的网络地址、文档的URL(英文全称:Uniform Resource Locator,中文名称:统一资源定位符)链接等信息,在此不做具体限制。
S102、根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量。
在获得第一浏览数据和第二浏览数据后,将根据第一浏览数据和第二浏览数据确定多个用户关键词以及每个用户对每个用户关键词的兴趣程度。
具体地,在一实施例中,如图2所示,图2是本申请实施例提供的一种信息推荐方法的具体示意流程图。在该实施例中,第一浏览数据包括多个所述用户在所述第一预设时间段内浏览的文档和多个所述用户对所述第一预设时间段内的每个文档的浏览行为参数;第二浏览数据包括多个所述用户在所述第二预设时间段内浏览的文档和多个所述用户对所述第二预设时间段内的每个文档的浏览行为参数。该步骤S102中的根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,具体包括步骤S1021至S1025。
S1021、基于文档主题生成模型,获取所述第一浏览数据中的多个文档对应的多个第一主题以及每个所述第一主题对应的第一关键词列表,以及获取所述第二浏览数据中的多个文档对应的多个第二主题以及每个所述第二主题对应的第二关键词列表,其中,所述第一关键词列表和第二关键词列表均包括相应的主题对应的多个主题关键词以及每个所述主题关键词对应的权重值。
在该实施例中,将采用文档主题生成模型(英文名称:Latent Dirichlet  Allocation,简称:LDA)获得第一浏览数据和第二浏览数据中每篇文档对应的主题以及每个主题对应的关键词列表。
具体地,将第一浏览数据中的多个文档输入至文档主题生成模型中以获得多个文档对应的多个第一主题和每个第一主题对应的第一关键词列表,其中,该第一关键词列表包括每个第一主题对应的多个主题关键词以及每个主题关键词对应的权重值。同理,可以获得第二浏览数据中多个文档对应的多个第二主题和每个第二主题对应的第二关键词列表,其中,该第二关键词列表包括每个第二主题对应的多个主题关键词以及每个主题关键词对应的权重值。
需要说明的是,该主题关键词为相应主题对应的多个词汇中权重值按从大到小排列的前预设数量的词汇。譬如,该主题关键词为相应主题对应的多个词汇中权重值较大的前10个词汇。
S1022、将所述第一浏览数据中的多个主题关键词和所述第二浏览数据中的多个主题关键词进行并集运算以获得多个用户关键词。
由于第一浏览数据和第二浏览数据是用户在不同时间段内浏览网页时的用户行为数据,因此第一浏览数据和第二浏览数据是可以体现出用户在不同时间段内的兴趣偏好的。随着时间的变化,用户在第一预设时间段内和第二预设时间段内所偏好的文档类型、文档内容等可能是一样的,也可能存在差异,因此,第一浏览数据中多个第一主题与第二浏览数据中多个第二主题可能存在相同的主题和不相同的主题,相应的多个第一主题中的主题关键词与多个第二主题中的主题关键词也可能存在相同的关键词和不同的关键词。为了可以根据用户在不同时间段内的偏好向用户推荐更为准确的信息,在该实施例中,需要将第一浏览数据中的多个主题关键词和第二浏览数据中的多个主题关键词进行并集运算以获得多个用户关键词。譬如,第一浏览数据中多个主题关键词包括“科比”和“张柏芝”,第二浏览数据中多个主题关键词包括“科比”、“血压”和“投资理财”,这样通过进行并集运算得到的多个用户关键词包括“科比”、“张柏芝”、“血压”和“投资理财”。
S1023、基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度。
在分别获得第一浏览数据和第二浏览数据中的多个主题关键词后,需要分别计算每个用户对第一浏览数据中的每个主题关键词的兴趣程度和对第二浏览数据中的每个主题关键词的兴趣程度。
具体地,在一实施例中,如图3所示,图3是本申请实施例提供的一种信息推荐方法的具体示意流程图。该步骤S1023包括步骤S10231至S10238。
S10231、根据每个所述用户的浏览行为参数、每篇文档的字数以及当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度以及对所述第二浏览数据中的每篇文档的兴趣程度。
其中,当前浏览时间可以理解为用户终端中的应用程序当前需要从服务器中获取用户感兴趣的文档的时间。譬如,当前浏览时间可以为用户点击终端中某应用程序的图标时,应用程序向对应的服务器发送请求以获取用户感兴趣的文档的时间,也可以理解为用户在浏览应用程序的页面的过程当中,应用程序向对应的服务器发送请求以获取用户感兴趣的文档的时间,等等。
具体地,在一实施例中,如图4所示,图4是本申请实施例提供的一种信息推荐方法的具体示意流程图。在该实施例中,该浏览行为参数包括每个用户对第一浏览数据或第二浏览数据中的每篇文档的点击参数I ij、每个用户在浏览每篇文档时的起始时间T 0ij和终止时间T ij。该步骤S10231包括步骤S10231a至S10231i。
S10231a、获取每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,以及获取每个所述用户在所述第二预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间。
在该实施例中,用户对每篇文档的点击参数I ij用于表示用户是否对文档进行了点击阅读,若用户点击了谋篇文档,则该篇文档的点击参数I ij的取值为1,若用户未点击谋篇文档,则该篇文档的点击参数I ij的取值为0。
由于第一浏览数据中的多篇文档是由多个用户在第一预设时间段内所浏览的全部文档的集合,因此,对于某个用户来说,其可能只阅读了第一浏览数据中的部分文档,而其他文档是其他用户所阅读的文档,因此,在计算每个用户的浏览速度时,需要获取每个用户在第一预设时间段内所浏览的所有文档,即从第一浏览数据中筛选出每个用户所浏览过的所有文档。
具体地,可以通过判断点击参数I ij是否为1来筛选出每个用户所浏览过的所 有文档。当然,也可以通过每篇文档的起始时间和终止时间是否为非空值来筛选出每个用户所浏览过的所有文档。在筛选出每个用户在第一预设时间段内所浏览的所有文档之后,还需要获取这些文档对应的起始时间和终止时间。同理,可以获得每个用户在第二预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间。
S10231b、根据每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数以及所耗的总时间。
在该实施例中,在统计每个用户在第一预设时间段内所浏览的所有文档所耗的总时间时,先计算用户所浏览的每篇文档的时间。具体地,可以用每篇文档的终止时间与起始时间作差值计算以得到用户浏览每篇文档所耗的时间。然后,再将用户所浏览的所有文档的所耗的时间求和以得到用户浏览所有文档所耗的总时间。同理,在统计每个用户所浏览的所有文档的总字数时,可以先统计用户所浏览的每篇文档的字数,然后对用户所浏览的所有文档的字数求和以得到用户浏览所有文档的总字数。
在一实施例中,在一些情况下,用户浏览文档的所耗的时间有时会出现异常,比如,用户点击进入文档页面后,就立刻退出来了,这样浏览文档所耗的时间是异常时间,又比如,用户点击进入文档页面后,去做其他事情,长时间停留在该文档页面上,这样浏览该文档所耗的时间也是异常时间。为了可以准确地计算出用户的第一浏览速度和第二浏览速度,在步骤S10231b之前,需对用户浏览每篇文档的所耗时间进行筛选。
具体地,在步骤S10231b之前还包括:根据所述用户浏览每篇文章的起始时间和终止时间,计算每个所述用户对所述第一预设时间段内浏览的每篇文档的时长,以及计算每个所述用户对所述第二预设时间段内浏览的每篇文档的时长;通过正态分布分别提取出所述第一预设时间段和第二预设时间段内每个所述用户的有效时长以及有效时长对应的文档。也就是说,先计算每个用户对第一预设时间段内所浏览的每篇文档的时长,以及计算每个用户对第二预设时间段内所浏览的每篇文档的时长,然后通过正态分布分别提取第一预设时间段内和第二预设时间段内的处于[-3σ,+3σ]之间的时长分别作为第一预设时间段内和第二预设时间段内的有效时长,这样可以将异常时间去掉。最后获取第一预 设时间段和第二预设时间段内每个用户的有效时长以及有效时长对应的文档。
这样,步骤S10231b具体为:根据每个所述用户在所述第一预设时间段内浏览的所有的有效时长对应的文档以及对应的有效时长,统计每个所述用户在所述第一预设时间段内所有的有效时长对应的文档的总字数以及所有有效时长对应的总时间。这样后续就可以根据有效时长对应的文档的总字数和有效时长对应的总时间计算第一浏览速度。
S10231c、根据每个所述用户在所述第二预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第二预设时间段内所浏览的所有文档的总字数以及所耗的总时间。
根据步骤S10231b的统计方法同理可以统计得到每个用户在第二预设时间段内所浏览的所有文档的总字数以及所耗的总时间。
在一实施例中,当在步骤S10231b之前对用户浏览第二预设时间段内的每篇文档的所耗时间进行筛选后,步骤S10231b具体为:根据每个所述用户在所述第二预设时间段内浏览的所有的有效时长对应的文档以及对应的有效时长,统计每个所述用户在所述第二预设时间段内所有的有效时长对应的文档的总字数以及所有有效时长对应的总时间。
S10231d、根据每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数和总时间,计算每个所述用户的第一浏览速度。
具体地,采用每个用户在第一预设时间段内所浏览的所有文档的总字数除以所耗的总时间得到每个用户的第一浏览速度。
S10231e、根据每个所述用户在所述第二预设时间段内所浏览的所有文档的总字数和所耗总时间,计算每个所述用户的第二浏览速度。
具体地,采用每个用户在第二预设时间段内所浏览的所有文档的总字数除以所耗的总时间得到每个用户的第二浏览速度。
S10231f、根据每个所述用户的第一浏览速度、在所述第一预设时间段内浏览每篇文档的起始时间和终止时间以及每篇文档的字数,计算每个所述用户对所述第一预设时间段内所浏览的每篇文档的关注程度。
具体地,可以采用关注度计算公式计算每个用户对第一预设时间段内所浏览的每篇文档的关注程度。该关注度计算公式如下公式(1)所示:
Figure PCTCN2018125327-appb-000001
其中,C ij表示第i个用户对第一预设时间段内所浏览的第j篇文档的关注程度,Speed i表示第i个用户的第一浏览速度,T 0ij和T ij分别表示第i个用户在浏览第j篇文档时的起始时间和终止时间,Size j表示第j篇文档的字数。
S10231g、根据每个所述用户的第二浏览速度、在所述第二预设时间段内浏览每篇文档的起始时间和终止时间、以及每篇文档的字数,计算每个所述用户对所述第二预设时间段内浏览的每篇文档的关注程度。
根据上述关注度计算公式,将Speed i替换成第i个用户的第二浏览速度,就可以计算出每个用户对第二预设时间段内浏览的每篇文档的关注程度。
S10231h、根据每个所述用户对所述第一预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第一浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度。
具体地,可以采用兴趣程度计算公式计算每个用户对第一浏览数据中每篇文档的兴趣程度R。兴趣程度计算公式如下公式(2)所示:
Figure PCTCN2018125327-appb-000002
其中,R ij表示第i个用户对第j篇文档的兴趣程度,C ij表示第i个用户对第j篇文档的关注程度,I ij表示第i个用户对第j篇文档的点击参数,λ为时间衰减常数,
Figure PCTCN2018125327-appb-000003
表示时间衰减因子,T表示当前浏览时间,T 0ij表示第i个用户浏览第j篇文档的起始时间。
S10231i、根据每个所述用户对所述第二预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第二浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,计算每个所述用户对所述第二浏览数据中的每篇文档的兴趣程度。
基于上述的兴趣程度计算公式,同理可以计算出每个用户对第二浏览数据中的每篇文档的兴趣程度。
S10232、基于所述预设关键词信息技术分别获取所述第一浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值,以及获取所述第二浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值。
该预设关键词信息技术可以例如为TF-IDF(英文全称:Term Frequency-Inverse Document Frequency,中文名称:词频-逆向文件频率)。基于TF-IDF获取第一浏览数据中每篇文档的浏览关键词和每个浏览关键词对应的权重值。同理,可以基于TF-IDF获取第二浏览数据中每篇文档的浏览关键词和每个浏览关键词对应的权重值。
譬如,基于TF-IDF获取第一浏览数据中每篇文档的权重值较大的前10个浏览关键词和每个浏览关键词对应的权重值,以及获取第二浏览数据中每篇文档的权重值较大的前10个浏览关键词和每个浏览关键词对应的权重值。
S10233、根据所述第一浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值、以及所述第一浏览数据中的多个所述第一主题以及每个所述第一主题对应的第一关键词列表,计算所述第一浏览数据中的每篇文档在每个所述第一主题上的概率。
譬如,第一浏览数据中的A文档对应有两个浏览关键词和对应的权重值,这两个浏览关键词以及对应的权重值分别表示为(中国,0.4)和(国旗,0.6)。假设第一主题的个数为两个,其中一个第一主题包括主题关键词以及对应的权重值表示为(中国,0.6),另外一个第一主题包括主题关键词以及对应的权重值分别表示为(中国,0.7)和(国旗,0.3)。那么计算该A文档在两个第一主题上的概率具体为:计算“中国”这个浏览关键词在两个第一主题上的概率分别为0.4*0.6=0.24和0.4*0.7=0.28。再计算“国旗”这个浏览关键词在两个第一主题上的概率分别为0.6*0=0和0.6*0.3=0.18。然后计算A文档在第一个第一主题上的概率为0.24+0=0.24,在第二个第一主题上的概率为0.28+0.18=0.46。根据上述计算方法可以计算出每篇文档在不同第一主题上的概率。
S10234、根据所述第二浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值、以及所述第二浏览数据中的多个所述第二主题以及每个所述第二主题对应的第二关键词列表,计算所述第二浏览数据中的每篇文档在每个所述第二主题上的概率。
根据步骤S10233中的计算方法同理可以计算第二浏览数据中每篇文档在每个第二主题上的概率。
S10235、根据每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度以及所述第一浏览数据中的每篇文档在每个所述第一主题上的概率,获得每个 所述用户对每个所述第一主题的兴趣程度。
在该实施例中,假设第一浏览数据中包括n篇文档,第一浏览数据中包括m个第一主题。第i个用户对第j篇文档的兴趣程度表示为R ij,其中,j取值为1至n的整数。第j篇文档在第k个第一主题上的概率表示为P jk,其中,k取值为1至m的整数。这样,第i个用户对第k个第一主题上的兴趣程度Q ik表达式如公式(3)所示:
Figure PCTCN2018125327-appb-000004
通过上述公式(3)可以依次计算出每个用户对每个第一主题的兴趣程度。
S10236、根据每个所述用户对所述第二浏览数据中的每篇文档的兴趣程度以及所述第二浏览数据中的每篇文档在每个所述第二主题上的概率,获得每个所述用户对每个所述第二主题的兴趣程度。
根据上述公式(3),同理可以计算出每个用户对每个第二主题的兴趣程度。
S10237、根据每个所述用户对每个所述第一主题的兴趣程度以及每个所述第一主题的第一关键词列表中多个主题关键词以及每个主题关键词对应的权重值,计算出每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度。
由于每个第一主题都有对应的主题关键词以及主题关键词对应的权重值,首先可以计算出每个用户对不同主题关键词的兴趣程度。具体地,将每个用户对每个第一主题的兴趣程度乘以第一主题的主题关键词的权重值,以得到用户对每个第一主题中每个主题关键词的兴趣程度,然后对多个第一主题中相同的主题关键词的兴趣程度进行求和,得到每个用户对第一浏览数据中每个主题关键词的兴趣程度,采用
Figure PCTCN2018125327-appb-000005
表示第i个用户对第一浏览数据中第j个主题关键词的兴趣程度。
S10238、根据每个所述用户对每个所述第二主题的兴趣程度以及每个所述第二主题的第二关键词列表中多个主题关键词以及每个主题关键词对应的权重值,计算出每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度。
根据步骤S10237中的计算方式同理可以计算出每个用户对第二浏览数据中的每个主题关键词的兴趣程度,采用
Figure PCTCN2018125327-appb-000006
表示第i个用户对第二浏览数据中第j个主题关键词的兴趣程度。
S1024、获取预设的所述第一预设时间段对应的第一权重值以及所述第二预设时间段对应的第二权重值。
其中,该第一权重值和第二权重值是预先设置的分别用于表征第一预设时间段内的第一浏览数据和第二预设时间段内的第二浏览数据对最后推荐的信息的重要程度。该第一权重值和第二权重值可以根据实际需求进行设置,譬如,可以设置第一权重值和第二权重值均为0.5,或者设置第一权重值为0.6,第二权重值为0.4。
S1025、将所述第一权重值作为所述第一浏览数据中的每个主题关键词的兴趣程度的权重以及将所述第二权重值作为所述第二浏览数据中的每个主题关键词的兴趣程度的权重,并根据预设计算公式计算每个所述用户对每个所述用户关键词的兴趣程度。其中,该预设计算公式为如下公式(4):
Figure PCTCN2018125327-appb-000007
其中,F ij表示第i个用户对第j个用户关键词的兴趣程度,x为第一权重值,y为第二权重值,
Figure PCTCN2018125327-appb-000008
表示在第一浏览数据中第i个用户对第j个用户关键词的兴趣程度,
Figure PCTCN2018125327-appb-000009
表示在第二浏览数据中第i个用户对第j个用户关键词的兴趣程度。
譬如,第一浏览数据中多个主题关键词包括“科比”和“张柏芝”,步骤S1023计算出A用户对“科比”的兴趣程度为0.2,对“张柏芝”的兴趣程度为0.8。第二浏览数据中多个主题关键词包括“科比”、“血压”和“投资理财”,步骤S1023计算出A用户对“科比”的兴趣程度为0.4,对“血压”的兴趣程度为0.5,对“投资理财”的兴趣程度为0.1。假设第一权重值x为0.4,第二权重值y为0.6。这样在多个用户关键词中,A用户对“科比”的兴趣程度为:F=0.4*0.2+0.6*0.4=0.32,同理,A用户对“张柏芝”的兴趣程度为:F=0.4*0.8+0.6*0=0.32,以此类推,可以根据上述预设计算公式依次得到“血压”和“投资理财”的兴趣程度。
在步骤S102根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度之后,再将多个用户关键词以及每个用户对每个用户关键词的兴趣程度输入至词向量模型中以生成每个用户对应的预设维数的兴趣向量。譬如,该兴趣向量可以为256维的向量。
S103、获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值。
当需要向用户推荐文档时,获取多个待推荐文档,其中,多个待推荐文档可以是最新更新的文档。然后基于预设关键词信息技术,譬如,基于TF-IDF技 术对获取到的每个待推荐文档进行关键词提取,从而获得每个待推荐文档对应的多个文档关键词,同时,获得每个文档关键词对应的权重值,即每个文档关键词对应的TF-IDF值。
S104、根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量。
在获得每个待推荐文档对应的文档关键词以及每个文档关键词对应的权重值后,将根据文档关键词和对应的权重值生成每个待推荐文档对应的推荐向量。
具体地,在一实施例中,可以将每个待推荐文档对应的多个文档关键词和每个文档关键词对应的权重值输入至词向量模型中以生成预设维数的推荐向量。譬如,该推荐向量可以为256维的向量。
S105、计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
在通过步骤S102获得每个用户的兴趣向量和通过步骤S104获得每个待推荐文档对应的推荐向量后,将计算用户的兴趣向量与每个待推荐文档的推荐向量之间的距离值。
具体地,在一实施例中,可以通过预设余弦相似度计算公式计算用户的兴趣向量与每个待推荐文档的推荐向量之间的距离值。其中,该预设余弦相似度计算公式可例如为如下公式(5):
Figure PCTCN2018125327-appb-000010
在公式(5)所示的预设余弦相似度计算公式中,该
Figure PCTCN2018125327-appb-000011
表示用户的兴趣向量,该
Figure PCTCN2018125327-appb-000012
表示待推荐文档的推荐向量,cosθ表示用户的兴趣向量与待推荐文档的推荐向量之间的距离值。
在计算完用户的兴趣向量与每个待推荐文档的推荐向量之间的距离值之后,将会获得多个距离值,然后根据每个距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
具体地,在一实施例中,可以将多个距离值中预设个数的最小的距离值对应的推荐向量的待推荐文档作为推荐信息推荐给所述用户。将多个距离值按从小到大的顺序进行排列,并将其中前预设个数的距离值对应的推荐向量的待推 荐文档作为推荐信息推荐给用户。其中,该预设个数可以根据实际需求进行设置,譬如,该预设个数可以设置为5个,那么就从多个距离值中获取最小的5个距离值对应的推荐向量的待推荐文档作为推荐信息,并将5个推荐信息推荐给相应的用户,从而完成信息推荐。
本实施例中的信息推荐方法,可以结合用户在第一预设时间段和第二预设时间段内的浏览数据向用户进行推荐,提高信息推荐的准确性和合理性。
本申请实施例还提供一种信息推荐装置,该信息推荐装置用于执行前述任一项信息推荐方法。具体地,请参阅图5,图5是本申请实施例提供的一种信息推荐装置的示意性框图。信息推荐装置300包括浏览数据获取单元301、兴趣向量生成单元302、关键词获取单元303、推荐向量生成单元304和推荐单元305。
浏览数据获取单元301,用于获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据。
兴趣向量生成单元302,用于根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量。
关键词获取单元303,用于获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值。
推荐向量生成单元304,用于根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量。
推荐单元305,用于计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的信息推荐装置300和各单元的具体工作过程,可以参考前述信息推荐方法实施例中的对应过程,在此不再赘述。
本实施例中的信息推荐装置300,可以结合用户在第一预设时间段和第二预 设时间段内的浏览数据向用户进行推荐,提高信息推荐的准确性和合理性。
上述信息推荐装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种信息推荐方法。该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种信息推荐方法。该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述各信息推荐方法的实施例。
应当理解,在本申请实施例中,处理器502可以是中央处理单元,该处理器502还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述信息推荐方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一计算机可读存储介质中。该计算机程序被该计算机系统中的至少一个处理器执行,以实现包括如上述各信息推荐方法的实施例的流程步骤。
该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。该集成 的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种信息推荐方法,其包括:
    获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;
    根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;
    获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;
    根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及
    计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
  2. 根据权利要求1所述的信息推荐方法,其中,所述第一浏览数据包括多个所述用户在所述第一预设时间段内浏览的文档和多个所述用户对所述第一预设时间段内的每个文档的浏览行为参数;所述第二浏览数据包括多个所述用户在所述第二预设时间段内浏览的文档和多个所述用户对所述第二预设时间段内的每个文档的浏览行为参数;
    所述根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,包括:
    基于文档主题生成模型,获取所述第一浏览数据中的多个文档对应的多个第一主题以及每个所述第一主题对应的第一关键词列表,以及获取所述第二浏览数据中的多个文档对应的多个第二主题以及每个所述第二主题对应的第二关键词列表,其中,所述第一关键词列表和第二关键词列表均包括相应的主题对应的多个主题关键词以及每个所述主题关键词对应的权重值;
    将所述第一浏览数据中的多个主题关键词和所述第二浏览数据中的多个主 题关键词进行并集运算以获得多个用户关键词;
    基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度;
    获取预设的所述第一预设时间段对应的第一权重值以及所述第二预设时间段对应的第二权重值;以及
    将所述第一权重值作为所述第一浏览数据中的每个主题关键词的兴趣程度的权重以及将所述第二权重值作为所述第二浏览数据中的每个主题关键词的兴趣程度的权重,并根据预设计算公式计算每个所述用户对每个所述用户关键词的兴趣程度。
  3. 根据权利要求2所述的信息推荐方法,其中,所述基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度,包括:
    根据每个所述用户的浏览行为参数、每篇文档的字数以及当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度以及对所述第二浏览数据中的每篇文档的兴趣程度;
    基于所述预设关键词信息技术分别获取所述第一浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值,以及获取所述第二浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值;
    根据所述第一浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值、以及所述第一浏览数据中的多个所述第一主题以及每个所述第一主题对应的第一关键词列表,计算所述第一浏览数据中的每篇文档在每个所述第一主题上的概率;
    根据所述第二浏览数据中的每篇文档的浏览关键词和每个所述浏览关键词对应的权重值、以及所述第二浏览数据中的多个所述第二主题以及每个所述第二主题对应的第二关键词列表,计算所述第二浏览数据中的每篇文档在每个所述第二主题上的概率;
    根据每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度以及所述第一浏览数据中的每篇文档在每个所述第一主题上的概率,获得每个所述用户对每个所述第一主题的兴趣程度;
    根据每个所述用户对所述第二浏览数据中的每篇文档的兴趣程度以及所述第二浏览数据中的每篇文档在每个所述第二主题上的概率,获得每个所述用户对每个所述第二主题的兴趣程度;
    根据每个所述用户对每个所述第一主题的兴趣程度以及每个所述第一主题的第一关键词列表中多个主题关键词以及每个主题关键词对应的权重值,计算出每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度;以及
    根据每个所述用户对每个所述第二主题的兴趣程度以及每个所述第二主题的第二关键词列表中多个主题关键词以及每个主题关键词对应的权重值,计算出每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度。
  4. 根据权利要求3所述的信息推荐方法,其中,所述浏览行为参数包括每个所述用户对所述第一浏览数据或第二浏览数据中的每篇文档的点击参数、每个所述用户在浏览每篇文档时的起始时间和终止时间;
    所述根据每个所述用户的浏览行为参数、每篇文档的字数以及当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度以及对所述第二浏览数据中的每篇文档的兴趣程度,包括:
    获取每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,以及获取每个所述用户在所述第二预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间;
    根据每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数以及所耗的总时间;
    根据每个所述用户在所述第二预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第二预设时间段内所浏览的所有文档的总字数以及所耗的总时间;
    根据每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数和总时间,计算每个所述用户的第一浏览速度;
    根据每个所述用户在所述第二预设时间段内所浏览的所有文档的总字数和 所耗总时间,计算每个所述用户的第二浏览速度;
    根据每个所述用户的第一浏览速度、在所述第一预设时间段内浏览每篇文档的起始时间和终止时间以及每篇文档的字数,计算每个所述用户对所述第一预设时间段内所浏览的每篇文档的关注程度;
    根据每个所述用户的第二浏览速度、在所述第二预设时间段内浏览每篇文档的起始时间和终止时间以及每篇文档的字数,计算每个所述用户对所述第二预设时间段内浏览的每篇文档的关注程度;
    根据每个所述用户对所述第一预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第一浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度;以及
    根据每个所述用户对所述第二预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第二浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,计算每个所述用户对所述第二浏览数据中的每篇文档的兴趣程度。
  5. 根据权利要求4所述的信息推荐方法,其中,在所述根据每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数以及所耗的总时间之前,还包括:根据所述用户浏览每篇文章的起始时间和终止时间,计算每个所述用户对所述第一预设时间段内浏览的每篇文档的时长,以及计算每个所述用户对所述第二预设时间段内浏览的每篇文档的时长;通过正态分布分别提取出所述第一预设时间段和第二预设时间段内每个所述用户的有效时长以及有效时长对应的文档;
    所述根据每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数以及所耗的总时间,包括:根据每个所述用户在所述第一预设时间段内浏览的所有的有效时长对应的文档以及对应的有效时长,统计每个所述用户在所述第一预设时间段内所有的有效时长对应的文档的总字数以及所有有效时长对应的总时间;
    所述根据每个所述用户在所述第二预设时间段内浏览的所有文档以及浏览 每篇文档的起始时间和终止时间,统计每个所述用户在所述第二预设时间段内所浏览的所有文档的总字数以及所耗的总时间,包括:根据每个所述用户在所述第二预设时间段内浏览的所有的有效时长对应的文档以及对应的有效时长,统计每个所述用户在所述第二预设时间段内所有的有效时长对应的文档的总字数以及所有有效时长对应的总时间。
  6. 根据权利要求1所述的信息推荐方法,其中,所述根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户,包括:将多个距离值中预设个数的最小的距离值对应的推荐向量的待推荐文档作为推荐信息推荐给所述用户。
  7. 根据权利要求4所述的信息推荐方法,其中,所述获取每个所述用户在所述第一预设时间段内浏览的所有文档,包括:通过判断所述点击参数是否为1来筛选出每个所述用户在所述第一预设时间段内浏览的所有文档。
  8. 根据权利要求4所述的信息推荐方法,其中,所述获取每个所述用户在所述第一预设时间段内浏览的所有文档,包括:通过判断每篇文档的起始时间和终止时间是否为非空值来筛选出每个所述用户在所述第一预设时间段内浏览的所有文档。
  9. 根据权利要求4所述的信息推荐方法,其中,所述根据每个所述用户在所述第一预设时间段内浏览的所有文档以及浏览每篇文档的起始时间和终止时间,统计每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数以及所耗的总时间,包括:计算每个所述用户在所述第一预设时间段内浏览的每篇文档的终止时间与起始时间之差以获得每篇文档的所耗时间;计算每个所述用户在所述第一预设时间段内浏览的所有文档的所耗时间之和以获得所耗的总时间;统计每个所述用户在所述第一预设时间段内浏览的每篇文档的字数;计算每个所述用户在所述第一预设时间段内浏览的所有文档的字数之和以获得总字数。
  10. 根据权利要求4所述的信息推荐方法,其中,所述根据每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数和总时间,计算每个所述用户的第一浏览速度,包括:计算每个所述用户在所述第一预设时间段内所浏览的所有文档的总字数与总时间之商作为每个所述用户的第一浏览速度。
  11. 根据权利要求4所述的信息推荐方法,其中,所述根据每个所述用户的 第一浏览速度、在所述第一预设时间段内浏览每篇文档的起始时间和终止时间以及每篇文档的字数,计算每个所述用户对所述第一预设时间段内所浏览的每篇文档的关注程度,包括:根据每个所述用户的第一浏览速度、在所述第一预设时间段内浏览每篇文档的起始时间和终止时间以及每篇文档的字数,按照关注度计算公式计算每个所述用户对所述第一预设时间段内所浏览的每篇文档的关注程度;所述关注度计算公式为:
    Figure PCTCN2018125327-appb-100001
    其中,C ij表示第i个用户对所述第一预设时间段内所浏览的第j篇文档的关注程度,Speed i表示第i个用户的第一浏览速度,T 0ij和T ij分别表示第i个用户在浏览第j篇文档时的起始时间和终止时间,Size j表示第j篇文档的字数。
  12. 根据权利要求4所述的信息推荐方法,其中,所述根据每个所述用户对所述第一预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第一浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度,包括:根据每个所述用户对所述第一预设时间段内浏览的每篇文档的关注程度、每个所述用户对所述第一浏览数据中每篇文档的点击参数、浏览每篇文档的起始时间和当前浏览时间,按照兴趣程度计算公式计算每个所述用户对所述第一浏览数据中的每篇文档的兴趣程度;所述兴趣程度计算公式为:
    Figure PCTCN2018125327-appb-100002
    其中,R ij表示第i个用户对第j篇文档的兴趣程度,C ij表示第i个用户对第j篇文档的关注程度,I ij表示第i个用户对第j篇文档的点击参数,λ为时间衰减常数,
    Figure PCTCN2018125327-appb-100003
    表示时间衰减因子,T表示当前浏览时间,T 0ij表示第i个用户浏览第j篇文档的起始时间。
  13. 根据权利要求1所述的信息推荐方法,其中,所述预设关键词信息技术为词频-逆向文件频率。
  14. 根据权利要求1所述的信息推荐方法,其中,所述根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量,包括:将每个所述待推荐文档对应的多个文档关键词和每个所述文档关键词对应的权重值输入至词向量模型中以生成每个所述待推荐 文档对应的预设维数的推荐向量。
  15. 一种信息推荐装置,其包括:
    浏览数据获取单元,用于获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;
    兴趣向量生成单元,用于根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;
    关键词获取单元,用于获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;
    推荐向量生成单元,用于根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及
    推荐单元,用于计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
  16. 根据权利要求15所述的信息推荐装置,其中,所述第一浏览数据包括多个所述用户在所述第一预设时间段内浏览的文档和多个所述用户对所述第一预设时间段内的每个文档的浏览行为参数;所述第二浏览数据包括多个所述用户在所述第二预设时间段内浏览的文档和多个所述用户对所述第二预设时间段内的每个文档的浏览行为参数;
    所述兴趣向量生成单元,具体用于基于文档主题生成模型,获取所述第一浏览数据中的多个文档对应的多个第一主题以及每个所述第一主题对应的第一关键词列表,以及获取所述第二浏览数据中的多个文档对应的多个第二主题以及每个所述第二主题对应的第二关键词列表,其中,所述第一关键词列表和第二关键词列表均包括相应的主题对应的多个主题关键词以及每个所述主题关键词对应的权重值;将所述第一浏览数据中的多个主题关键词和所述第二浏览数据中的多个主题关键词进行并集运算以获得多个用户关键词;基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对 所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度;获取预设的所述第一预设时间段对应的第一权重值以及所述第二预设时间段对应的第二权重值;以及将所述第一权重值作为所述第一浏览数据中的每个主题关键词的兴趣程度的权重以及将所述第二权重值作为所述第二浏览数据中的每个主题关键词的兴趣程度的权重,并根据预设计算公式计算每个所述用户对每个所述用户关键词的兴趣程度。
  17. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
  18. 根据权利要求17所述的计算机设备,其中,所述第一浏览数据包括多个所述用户在所述第一预设时间段内浏览的文档和多个所述用户对所述第一预设时间段内的每个文档的浏览行为参数;所述第二浏览数据包括多个所述用户在所述第二预设时间段内浏览的文档和多个所述用户对所述第二预设时间段内的每个文档的浏览行为参数;
    所述处理器执行根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度时,具体实现如下步骤:基于文档主题生成模型,获取所述第一浏览数据中的多个文档对应的多个第一主题以及每个所述第一主题对应的第一关键词列表,以及获取所述第二浏览数据中的多个文档对应的多个第二主题以及每个所述第二主题对应的第二关键词 列表,其中,所述第一关键词列表和第二关键词列表均包括相应的主题对应的多个主题关键词以及每个所述主题关键词对应的权重值;将所述第一浏览数据中的多个主题关键词和所述第二浏览数据中的多个主题关键词进行并集运算以获得多个用户关键词;基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度;获取预设的所述第一预设时间段对应的第一权重值以及所述第二预设时间段对应的第二权重值;以及将所述第一权重值作为所述第一浏览数据中的每个主题关键词的兴趣程度的权重以及将所述第二权重值作为所述第二浏览数据中的每个主题关键词的兴趣程度的权重,并根据预设计算公式计算每个所述用户对每个所述用户关键词的兴趣程度。
  19. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如下步骤:获取多个用户在第一预设时间段内的第一浏览数据以及在第二预设时间段内的第二浏览数据,其中,所述第一浏览数据和第二浏览数据为多个所述用户浏览网页时的用户行为数据;根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度,并根据多个所述用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度生成每个所述用户对应的兴趣向量;获取多个待推荐文档,并基于预设关键词信息技术获取每个所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值;根据所述待推荐文档对应的文档关键词以及每个所述文档关键词对应的权重值生成每个所述待推荐文档对应的推荐向量;以及计算所述用户的兴趣向量与每个所述待推荐文档的推荐向量之间的距离值,并根据每个所述距离值将满足预设条件的待推荐文档作为推送信息推送给所述用户。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述第一浏览数据包括多个所述用户在所述第一预设时间段内浏览的文档和多个所述用户对所述第一预设时间段内的每个文档的浏览行为参数;所述第二浏览数据包括多个所述用户在所述第二预设时间段内浏览的文档和多个所述用户对所述第二预设时间段内的每个文档的浏览行为参数;
    所述计算机程序当被所述处理器执行根据所述第一浏览数据和第二浏览数据确定多个用户关键词以及每个所述用户对每个所述用户关键词的兴趣程度时,使所述处理器执行如下步骤:基于文档主题生成模型,获取所述第一浏览数据中的多个文档对应的多个第一主题以及每个所述第一主题对应的第一关键词列表,以及获取所述第二浏览数据中的多个文档对应的多个第二主题以及每个所述第二主题对应的第二关键词列表,其中,所述第一关键词列表和第二关键词列表均包括相应的主题对应的多个主题关键词以及每个所述主题关键词对应的权重值;将所述第一浏览数据中的多个主题关键词和所述第二浏览数据中的多个主题关键词进行并集运算以获得多个用户关键词;基于预设计算规则,分别根据所述第一浏览数据中的文档和浏览行为参数计算每个所述用户对所述第一浏览数据中的每个主题关键词的兴趣程度,以及根据所述第二浏览数据中的文档和浏览行为参数计算每个所述用户对所述第二浏览数据中的每个主题关键词的兴趣程度;获取预设的所述第一预设时间段对应的第一权重值以及所述第二预设时间段对应的第二权重值;以及将所述第一权重值作为所述第一浏览数据中的每个主题关键词的兴趣程度的权重以及将所述第二权重值作为所述第二浏览数据中的每个主题关键词的兴趣程度的权重,并根据预设计算公式计算每个所述用户对每个所述用户关键词的兴趣程度。
PCT/CN2018/125327 2018-08-20 2018-12-29 信息推荐方法、装置、计算机设备及存储介质 WO2020037930A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810948488.9A CN109190024B (zh) 2018-08-20 2018-08-20 信息推荐方法、装置、计算机设备及存储介质
CN201810948488.9 2018-08-20

Publications (1)

Publication Number Publication Date
WO2020037930A1 true WO2020037930A1 (zh) 2020-02-27

Family

ID=64918962

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/125327 WO2020037930A1 (zh) 2018-08-20 2018-12-29 信息推荐方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109190024B (zh)
WO (1) WO2020037930A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN113553509A (zh) * 2021-07-29 2021-10-26 北京达佳互联信息技术有限公司 一种内容推荐方法、装置、电子设备及存储介质
CN113676505A (zh) * 2020-05-15 2021-11-19 财付通支付科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN113689019A (zh) * 2020-05-18 2021-11-23 佛山市顺德区美的电热电器制造有限公司 一种数据处理方法、装置及系统
CN113780415A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 基于小程序游戏的用户画像生成方法、装置、设备及介质
CN116089624A (zh) * 2022-11-17 2023-05-09 昆仑数智科技有限责任公司 基于知识图谱的数据推荐方法、装置和系统
CN117575745A (zh) * 2024-01-17 2024-02-20 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法
CN117648462A (zh) * 2024-01-29 2024-03-05 深圳感臻智能股份有限公司 一种视频的推荐方法及系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008403B (zh) * 2019-03-05 2021-05-28 百度在线网络技术(北京)有限公司 目标信息的排序方法、排序系统、推荐方法及推荐系统
CN111046222B (zh) * 2019-04-29 2023-06-27 广东小天才科技有限公司 一种听写列表的生成方法及电子设备
CN110347900B (zh) * 2019-07-10 2022-12-27 腾讯科技(深圳)有限公司 一种关键词的重要度计算方法、装置、服务器及介质
CN112995248B (zh) * 2019-12-12 2023-04-07 阿里巴巴集团控股有限公司 信息推送方法、装置及设备
CN111143689A (zh) * 2019-12-31 2020-05-12 青梧桐有限责任公司 根据用户需求和用户画像构建推荐引擎的方法
US20210357983A1 (en) * 2020-05-14 2021-11-18 Nanning Fugui Precision Industrial Co., Ltd. System for presenting advertisements online and method thereof
CN112328881B (zh) * 2020-11-05 2024-04-02 中国平安人寿保险股份有限公司 文章推荐方法、装置、终端设备及存储介质
CN112364155B (zh) * 2020-11-20 2024-05-31 北京五八信息技术有限公司 一种信息处理方法及装置
CN113051480A (zh) * 2021-04-22 2021-06-29 深圳壹账通智能科技有限公司 资源推送方法、装置、电子设备及存储介质
CN112992154A (zh) * 2021-05-08 2021-06-18 北京远鉴信息技术有限公司 一种基于增强型声纹库的语音身份确定方法及系统
CN112989824A (zh) * 2021-05-12 2021-06-18 武汉卓尔数字传媒科技有限公司 信息推送方法及装置、电子设备及存储介质
CN113360753A (zh) * 2021-05-26 2021-09-07 平安国际智慧城市科技股份有限公司 基于用户历史行为的信息推荐方法、装置、设备及介质
CN114398547B (zh) * 2022-01-06 2022-09-30 北京博瑞彤芸科技股份有限公司 一种智能推送文章的处理方法和装置
CN115577167B (zh) * 2022-08-29 2023-11-21 建信金融科技有限责任公司 基于Webassembly的内容推荐方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统
CN104199874A (zh) * 2014-08-20 2014-12-10 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN106055661A (zh) * 2016-06-02 2016-10-26 福州大学 基于多Markov链模型的多兴趣资源推荐方法
CN106407418A (zh) * 2016-09-23 2017-02-15 Tcl集团股份有限公司 一种基于人脸识别的个性化视频推荐方法及推荐系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714084B (zh) * 2012-10-08 2018-04-03 腾讯科技(深圳)有限公司 推荐信息的方法和装置
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统
US20150262069A1 (en) * 2014-03-11 2015-09-17 Delvv, Inc. Automatic topic and interest based content recommendation system for mobile devices
CN108280114B (zh) * 2017-07-28 2022-01-28 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统
CN104199874A (zh) * 2014-08-20 2014-12-10 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN106055661A (zh) * 2016-06-02 2016-10-26 福州大学 基于多Markov链模型的多兴趣资源推荐方法
CN106407418A (zh) * 2016-09-23 2017-02-15 Tcl集团股份有限公司 一种基于人脸识别的个性化视频推荐方法及推荐系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676505A (zh) * 2020-05-15 2021-11-19 财付通支付科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN113676505B (zh) * 2020-05-15 2023-11-28 财付通支付科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN113689019A (zh) * 2020-05-18 2021-11-23 佛山市顺德区美的电热电器制造有限公司 一种数据处理方法、装置及系统
CN112749331B (zh) * 2020-06-28 2023-09-19 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN112749331A (zh) * 2020-06-28 2021-05-04 腾讯科技(深圳)有限公司 一种数据推荐方法、装置以及计算机可读存储介质
CN113553509A (zh) * 2021-07-29 2021-10-26 北京达佳互联信息技术有限公司 一种内容推荐方法、装置、电子设备及存储介质
CN113553509B (zh) * 2021-07-29 2024-03-01 北京达佳互联信息技术有限公司 一种内容推荐方法、装置、电子设备及存储介质
CN113780415B (zh) * 2021-09-10 2023-08-15 平安科技(深圳)有限公司 基于小程序游戏的用户画像生成方法、装置、设备及介质
CN113780415A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 基于小程序游戏的用户画像生成方法、装置、设备及介质
CN116089624A (zh) * 2022-11-17 2023-05-09 昆仑数智科技有限责任公司 基于知识图谱的数据推荐方法、装置和系统
CN116089624B (zh) * 2022-11-17 2024-02-27 昆仑数智科技有限责任公司 基于知识图谱的数据推荐方法、装置和系统
CN117575745A (zh) * 2024-01-17 2024-02-20 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法
CN117575745B (zh) * 2024-01-17 2024-04-30 山东正禾大教育科技有限公司 基于ai大数据的课程教学资源个性推荐方法
CN117648462A (zh) * 2024-01-29 2024-03-05 深圳感臻智能股份有限公司 一种视频的推荐方法及系统

Also Published As

Publication number Publication date
CN109190024A (zh) 2019-01-11
CN109190024B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
WO2020037930A1 (zh) 信息推荐方法、装置、计算机设备及存储介质
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
TWI582619B (zh) Method and apparatus for providing referral words
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
JP5717858B2 (ja) テキストセットの照合
TWI512506B (zh) Sorting method and device for search results
JP5736469B2 (ja) ユーザ意図の有無に基づく検索キーワードの推薦
WO2020037931A1 (zh) 项目推荐方法、装置、计算机设备及存储介质
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US8280879B2 (en) System and method for quantifying visibility within search engines
WO2015188699A1 (zh) 推荐项目的方法和装置
WO2022142519A1 (zh) 信息推荐方法、装置、电子设备和存储介质
US20140279751A1 (en) Aggregation and analysis of media content information
CN106649681B (zh) 一种数据处理方法、装置及设备
US10346496B2 (en) Information category obtaining method and apparatus
CN109753601A (zh) 推荐信息点击率确定方法、装置及电子设备
US9043397B1 (en) Suggestions from a messaging platform
CN104111925A (zh) 项目推荐方法和装置
WO2022198756A1 (zh) 基于热点事件的信息推送方法、装置、计算机设备及存储介质
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
US9582586B2 (en) Massive rule-based classification engine
WO2020073526A1 (zh) 基于信任网络的推送方法、装置、计算机设备及存储介质
CN110750707A (zh) 关键词推荐方法、装置和电子设备
WO2019062013A1 (zh) 电子装置、用户分群的方法、系统及计算机可读存储介质
CN108021713B (zh) 一种文档聚类的方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18930544

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18930544

Country of ref document: EP

Kind code of ref document: A1