WO2015196377A1 - 一种用户身份类别确定方法以及装置 - Google Patents
一种用户身份类别确定方法以及装置 Download PDFInfo
- Publication number
- WO2015196377A1 WO2015196377A1 PCT/CN2014/080676 CN2014080676W WO2015196377A1 WO 2015196377 A1 WO2015196377 A1 WO 2015196377A1 CN 2014080676 W CN2014080676 W CN 2014080676W WO 2015196377 A1 WO2015196377 A1 WO 2015196377A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- identity
- user
- probability set
- identity attribute
- attribute probability
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Definitions
- the present invention relates to the field of computer network technologies, and in particular, to a user identity category determining method and apparatus. Background technique
- the embodiment of the invention provides a method and device for determining a user identity category, which can determine a user identity category according to a record of a user's online behavior.
- a first aspect of the embodiments of the present invention provides a user identity category determining method, including: acquiring location information records, webpage information records, and search information records of multiple user equipments on the Internet;
- the identity class of the user to which the user equipment belongs is determined by comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity attribute probability set corresponding to the user to which the user equipment belongs.
- the acquiring the location information record, the webpage information record, and the search information record of the plurality of user equipments on the Internet includes:
- the calculating, according to the location information record, a first identity attribute probability set of the user to which the user equipment belongs and the information according to the webpage Recording a second identity attribute probability set of the user to which the user equipment belongs including:
- the feature information includes statistics of multiple online behaviors of the user equipment in a plurality of preset time periods, the statistics Including the number of times or duration;
- the first identity attribute probability set and the second identity attribute probability set are separately calculated by introducing the normalized value into a preset probability algorithm.
- the method further includes:
- a fourth possible implementation manner if the same type of the user equipment of the different user equipments in the same preset time period is The statistics of the behavior are similar, and the similar statistics are removed from the feature information, including: - removing the similar statistic from the feature information by using a preset dimensionality reduction algorithm, where the preset dimensionality reduction algorithm includes an LR (Logistic Regression) algorithm and a Linear SVC function.
- the preset dimensionality reduction algorithm includes an LR (Logistic Regression) algorithm and a Linear SVC function.
- the preset probability algorithm includes any one of the following methods:
- the calculating, by the searching information record, the third identity attribute probability set of the user to which the user equipment belongs includes: extracting the search information Feature information in the record, where the feature information includes a search frequency of each of the user equipments for a plurality of preset keywords;
- the third identity attribute probability set is calculated by introducing the search frequency into a preset algorithm, where the preset algorithm includes a naive Bayes algorithm.
- a first identity attribute probability set corresponding to a user to which each user equipment belongs, the second identity attribute probability set, and the third set of probability of identity attribute, the user equipment belongs is determined for each user identity other class 1 J, comprising:
- the identity class of the third identity attribute probability set is greater than the preset class of the third identity attribute probability set as the identity class of the user to which the user equipment belongs.
- the first identity attribute probability corresponding to the user to which the user equipment belongs is comprehensively analyzed
- the set, the second identity attribute probability set, and the third identity attribute probability set, after determining the identity category of each user device, further includes: - - Pushing information to each of the user devices according to the identity category of the user to which the user equipment belongs.
- a second aspect of the embodiments of the present invention provides a computer storage medium, where the computer storage medium stores a program, and the program includes some or all of the steps of the user identity category determining method provided by the first aspect.
- a third aspect of the embodiments of the present invention provides a user identity category determining apparatus, including: an information acquiring module, configured to acquire location information records, webpage information records, and search information records of multiple user equipments on the Internet;
- a probability calculation module configured to calculate, according to the location information record, a first identity attribute probability set of a user to which the user equipment belongs, where the first identity attribute probability set includes a probability of at least one identity class;
- An identity class determining module configured to determine each user equipment by comprehensively analyzing a first identity attribute probability set, a second identity attribute probability set, and the third identity attribute probability set corresponding to a user to which each user equipment belongs The identity category of the user.
- the information acquiring module includes:
- a first obtaining unit configured to obtain a location information record of the plurality of user equipments from the log information of the AP (Access Point, network access point) controller or the user information of the mobile gateway; Obtaining webpage information of the plurality of user equipments from the webpage information of the HTTP (Hyper Text Transfer Protocol) log information of the network sniffer or the detection information of the DPI (Deep Packet Inspection) device Record and search for information records.
- AP Access Point, network access point
- DPI Deep Packet Inspection
- the probability calculation module includes:
- a feature information extracting unit configured to separately extract the feature information in the location information record and the webpage information record, where the feature information includes the user equipment in a plurality of preset time periods respectively -
- a numerical conversion unit configured to convert the statistic into a normalized value
- a probability calculation unit configured to calculate the first identity attribute probability set and the second identity attribute probability set respectively by introducing the normalized value into a preset probability algorithm.
- the probability calculation module further includes:
- a dimension reduction unit configured to remove a similar statistic from the feature information if the statistics of the same online behavior of different user equipments in the same preset time period are similar.
- the dimension reduction unit is specifically configured to remove a similarity from the feature information by using a preset dimension reduction algorithm.
- the statistic wherein the preset dimensionality reduction algorithm comprises an LR (Logistic Regression) algorithm and a Linear SVC function.
- the preset probability algorithm includes any one of the following methods:
- the feature information extraction unit is further configured to extract feature information in the search information record, where the feature information includes each user equipment Search frequency for a plurality of preset keywords;
- the probability calculation unit is further configured to calculate the third identity attribute probability set by introducing the search frequency into a preset algorithm, where the preset algorithm includes a naive Bayes algorithm.
- the identity class determining module is configured to use a probability that the first identity attribute probability set is greater than a pre-correspondence of the first identity attribute probability set. Setting the identity category of the threshold as the identity category of the user to which the user equipment belongs; or
- the device further includes:
- the information pushing module is configured to push information to each user equipment according to an identity category of the user to which the user equipment belongs.
- a fourth aspect of the embodiments of the present invention provides a user identity category determining apparatus, including a memory and a processor, wherein the memory stores a set of user identity category determining programs, and the processor is configured to invoke a program in the memory, and is configured to execute the following: Operation:
- the identity category of the user to which the user equipment belongs is determined by comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity attribute probability set corresponding to the user to which the user equipment belongs.
- the embodiment of the present invention calculates the first identity attribute probability set of the users to which the user equipment belongs in three aspects according to the obtained location information record, the webpage information record, and the search information record of the plurality of user equipments.
- the embodiment of the present invention performs the above three aspects on the online behavior of the user, and then constructs a preset algorithm to mine the information record. Performing calculations, and comprehensively calculating the result to determine the identity category of the user to which the user equipment belongs, and further determining The user identity category that is available can be used for personalized and differentiated user services to enhance the user experience.
- FIG. 1 is a schematic flowchart of a method for determining a user identity category according to an embodiment of the present invention
- FIG. 2 is a schematic flowchart of another method for determining a user identity category according to an embodiment of the present invention
- FIG. 4 is a schematic structural diagram of an information acquiring module according to an embodiment of the present invention
- FIG. 5 is a schematic structural diagram of a probability calculation module according to an embodiment of the present invention.
- FIG. 6 is a schematic structural diagram of another user identity category determining apparatus according to an embodiment of the present invention. detailed description
- the user identity category determining apparatus (hereinafter referred to as the apparatus of the present invention) in the embodiment of the present invention is implemented on the network side, and obtains the location information record, the webpage information record, and the search information record of the user equipment accessing the Internet from the network, and thus is not used in the user equipment.
- Any software or hardware installed or implanted has the advantages of large information base, wide information and low cost.
- the user equipment (UE, User Equipment) in the embodiment of the present invention may include an electronic terminal such as a smart phone, a tablet computer, a personal computer, an e-reader, and an in-vehicle terminal, and the user equipment can access the Internet to implement data interaction.
- FIG. 1 is a schematic flowchart of a method for determining a user identity category in an embodiment of the present invention. As shown - The flow of the user identity category determining method in this embodiment may include:
- the location information record is a record of the geographic location in which the user device is connected to the Internet, such as a cafe, dormitory, or library.
- the web page information record is a record of a web page opened by a user device through a browser or an application, such as a car network, a home network, or a movie network.
- the search information record is a keyword or keyword used by the user device to use the search engine or retrieve the software.
- the device of the present invention can obtain the location information record of the plurality of user equipments from the log information of the AP (Access Point, Network Access Point) controller or the user information of the mobile gateway.
- the AP controller is the core of the wireless network and is used to centrally control the access hotspot. It is widely used in WiFi (Wireless Fidelity) networks to obtain the geographic location during user login and roaming, and generate log information.
- the mobile gateway may include a GGSN (Gateway GPRS Support Node) or a PGW (Packet Data Network Gateway), and the GGSN may be in a GSM (Global System for Mobile communication) network.
- GSM Global System for Mobile communication
- the packet data packet of the GPRS (General Packet Radio Service) is subjected to protocol conversion, and in the conversion process, the geographical location of the mobile user can be acquired, and user information is generated.
- the inventing device can obtain the location information record including the geographical location of the user from the log information or the user information in the device on the network side.
- the device of the present invention is available from the network sniffer HTTP (Hyper Text Transfer
- the network sniffer is a tool for obtaining traffic information of the network application layer by using packet parsing, and can obtain HTTP information of the user accessing the Internet traffic information, and the HTTP information is usually saved as log information, including the domain name and the URL (Uniform) Resource Locator, and refer to fields, all of which carry the user's Internet trace, from which you can directly read the web pages visited by the user device and search for keywords or keywords; DPI devices are a kind of work
- the network layer of the transport layer to the application layer in the OSI (Open System Interconnection) model has the functions of service data flow identification and service data flow control, and is widely used in the metropolitan area network.
- the inventing device can respectively obtain the webpage information record and the search information record from the log information and the detection information in the device on the network side.
- the device of the present invention obtains records of multiple user equipments accessing the Internet, and therefore needs to identify each user equipment.
- the IP address of the user equipment is dynamically assigned.
- the IP address cannot be the identifier of the same user equipment, and the MAC (Media Access Control) address uniquely identifies the user equipment. Therefore, optional.
- the embodiment of the present invention can be associated with a specific user identified by the MAC address by using an IP address.
- the specific implementation process refer to an example of recording the user equipment shown in Table 1, and the user equipment passes the IP address (168.192. 1.158)
- the IP address is associated with the MAC address of the user equipment (1F4AE2368C2), and finally the MAC address (1F4AE2368C2) is used as the standard table 1 of the user equipment.
- the device of the present invention separately extracts feature information in the location information record and the webpage information record, wherein the feature information includes multiple online behaviors of the user equipment in a plurality of preset time periods respectively.
- Statistics, statistics include the number of times or duration.
- the feature information is a description of the user's online behavior.
- the user equipment is recorded for the location information record and the network in each preset time period.
- the statistics of the various online behaviors recorded by the page information wherein the statistics may include the number of times or the duration, which is not limited herein.
- the feature information in the location information record can be as shown in Table 2.
- the apparatus of the present invention will also extract feature information in the search information record, wherein the feature information includes the search frequency of each user equipment for a plurality of preset keywords.
- the feature information includes the search frequency of each user equipment for a plurality of preset keywords.
- the search frequency of the user equipment is counted for each keyword.
- the feature information in the search information record can be as shown in Table 4. - -
- the normalized values are required to form a feature matrix, and the form of the feature matrix is as shown in (1):
- Xi, j represents the statistic of the jth online behavior of the i-th user equipment
- each row of the feature matrix represents all online behavior of a certain user equipment
- each column of the feature matrix represents A certain online behavior corresponding to all users.
- the feature matrix of the location information record of the simplified user equipment is as shown in (2).
- a certain row of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as user equipment in a certain period of time.
- the length of the Internet in digital libraries, dormitories, classrooms, restaurants, and cafes, assuming 5 user devices, can form a 5X5 matrix.
- the characteristic matrix of the simplified web page information record of the user equipment is as shown in (3).
- a certain row of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as a certain period of time.
- the number of times the user equipment logs in to the web pages &, b, c, d, and e, assuming 5 user devices, can form a 5 X 5 matrix.
- the characteristic matrix of the search information record of the simplified user equipment is as shown in (4), and a certain row of a row corresponds to a certain online behavior of a user equipment, and it is assumed that there are five kinds of online behaviors, such as input when the user equipment searches.
- the frequencies of the keywords a, b, c, d, and e, assuming 5 user equipments, can form a matrix of 5 X 5 .
- the apparatus of the present invention converts the statistics of the extracted location information records and the feature information in the web page information records into normalized values.
- the normalized value is a value ranging between [0, 1], and the statistic is a specific data.
- X represents the normalized value of the statistics of the i-th online behavior of a user equipment during the time period t
- t includes time periods A, B, (or 0, i may include a digital library, dormitory or coffee
- i may include a digital library, dormitory or coffee
- the position of the hall, etc. indicates its statistic
- x min indicates the minimum duration
- x max indicates the maximum duration.
- Equation (5) is only an alternative formula of the embodiment of the present invention, and other formulas are no longer - enumerated.
- the feature matrix is shown in (6).
- the apparatus of the present invention removes the similar statistics from the feature information.
- the device of the present invention may remove similar statistics from the feature information by using a preset dimensionality reduction algorithm, where the preset dimensionality reduction algorithm may include an LR (Logistic Regression) algorithm and a Linear SVC function. , but not limited to these two dimensionality reduction algorithms.
- H does not have a problem of 2 classification
- the categories are yl and y2
- the eigenvector corresponding to the i-th user is [xi0, xil, xi2...xim]
- the fitting coefficient vector is [k0, kl, K2...km]
- the plane ⁇ [ xi0*k0, xil*kl, xi2*k2...xim*km] divides the feature space into two parts, so the statistics of the feature information of the user equipment, Predictions and classifications can be made by judging the space in which they are located.
- the fitting coefficient is selected such that the predicted value is located as far as possible in the feature space corresponding to the correct category. If a fitting coefficient in the fitting coefficient vector approaches zero, the statistical pair corresponding to the fitting coefficient is indicated. The results of prediction and classification have little effect, so they can be discarded, thus implementing the removal of similar statistics from the feature information. In particular, since the LR algorithm and the Linear SVC function are commonly used algorithms, they will not be described in depth here.
- the matrix (6) Please refer to the matrix (6). Since the statistics of the feature information of the third column and the fifth column are similar, the reference value for distinguishing the user equipment is not large, and can be removed from the feature matrix (6). Therefore, the dimension of the feature matrix (6) is reduced from 5 to 3, and the dimensionality-reduced feature matrix is as shown in (7). - -
- the device of the present invention calculates the first identity attribute probability set, the second identity attribute probability set, and the third by introducing the feature matrix into the preset probability algorithm.
- Identity attribute probability set The first identity attribute probability set, the second identity probability set, and the third identity probability set each include a probability of at least one identity class, and the identity class may be a user's age range, gender, address, occupation, and the like.
- the calculated probability set for each identity attribute can be as shown in Table 5.
- the identity attribute probability set of the location information record and the webpage information record can be calculated by any of the following methods:
- NB Naive Bayes, Na ⁇ ve Bayes
- the above algorithms are all classifier algorithms, and the identity categories of users belonging to each user equipment can be classified according to the feature matrix, and the probability corresponding to the identity categories is calculated.
- the set of identity attribute probabilities for the search information record can be calculated by the naive Bayes algorithm.
- the probability P ( y!lx ) * P( y 2 lx ) * ... * P ( y n lx ) can be obtained by statistics. Then, according to the Bayesian theorem, P ( yi lx ) can be calculated. Detailed calculation process can refer to the detailed Bayesian algorithm for detailed explanation, and will not be described here.
- S103 Determine, by comprehensively analyzing, a first identity attribute probability set, a second identity attribute probability set, and the third identity attribute probability set corresponding to users of the user equipment, to determine an identity category of each user device. .
- the device of the present invention sets the identity category of the first identity attribute probability set to be greater than the preset value of the first identity attribute probability set as the identity class of the user to which the user equipment belongs; or concentrates the second identity attribute probability The probability that the probability is greater than the preset threshold of the second identity attribute probability set is the identity class of the user to which the user equipment belongs; or the probability that the third identity attribute probability set is greater than the preset threshold corresponding to the third identity attribute probability set
- the identity category is the identity category of the user to which the user device belongs. For example, please refer to Table 5, assuming that the first identity attribute set corresponds to a preset threshold of 85%, and the probability that user A is a teenager (90%) is greater than 85%, then it is determined that user A's identity category is a teenager.
- a preset threshold may be correspondingly set for each identity attribute probability set, if an identity attribute probability set is used. If the accuracy is high, the corresponding preset threshold can be set lower. For example, assuming accuracy rate: third identity attribute probability> first identity attribute probability> second identity attribute probability, the corresponding preset thresholds can be set to 60%, 80%, and 90%, respectively. It should be noted that the accuracy of each attribute attribute probability set can be tested by a training sample.
- the output identity category is j
- the output identity category is j and optional.
- the device of the present invention pushes information to each user device according to the identity category of the user to which the user equipment belongs, for example, pushing a fashion webpage resource for a teenager user, and pushing the property for a middle-aged user.
- the web resource of the class is j and optional.
- the first embodiment of the present invention calculates the first identity attribute probability set and the second identity attribute of the users to which the user equipment belongs in three aspects. a probability set and a third identity attribute probability set, wherein the three sets of identity attribute probability sets each include a probability of at least one identity class, and then comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity
- the attribute probability set is used to determine the identity category of the user to which the user equipment belongs, and the embodiment of the present invention performs the above three aspects on the online behavior of the user, and then constructs a preset algorithm to calculate the mined information record, and The comprehensive calculation result determines the identity category of the user to which the user equipment belongs, and further determines the obtained user identity class.
- - - Don't use personalized and differentiated user services to enhance the user experience.
- the location information record is a record of the geographic location in which the user device is connected to the Internet, such as a cafe, dormitory, or library.
- the web page information record is a record of a web page opened by a user device through a browser or an application, such as a car network, a home network, or a movie network.
- the search information record is a keyword or keyword used by the user device to use the search engine or retrieve the software.
- the device of the present invention can obtain the location information record of the plurality of user equipments from the log information of the AP (Access Point, Network Access Point) controller or the user information of the mobile gateway.
- the AP controller is the core of the wireless network and is used to centrally control the access hotspot. It is widely used in WiFi (Wireless Fidelity) networks to obtain the geographic location during user login and roaming, and generate log information.
- the mobile gateway may include a GGSN (Gateway GPRS Support Node) or a PGW (Packet Data Network Gateway), and the GGSN may be in a GSM (Global System for Mobile communication) network.
- GSM Global System for Mobile communication
- the packet data packet of the GPRS (General Packet Radio Service) is subjected to protocol conversion, and in the conversion process, the geographical location of the mobile user can be acquired, and user information is generated.
- the inventing device can obtain the location information record including the geographical location of the user from the log information or the user information in the device on the network side.
- the device of the present invention can obtain the above information from the HTTP (Hyper Text Transfer Protocol) log information of the network sniffer or the detection information of the DPI (Deep Packet Inspection) device. Web page information record and search information record of user equipment accessing the Internet.
- HTTP Hyper Text Transfer Protocol
- DPI Deep Packet Inspection
- the network sniffer is a tool for obtaining traffic information of the network application layer by using packet parsing, and can obtain HTTP information of the user accessing the Internet traffic information, and the HTTP information is usually saved as log information, including the domain name and the URL (Uniform) Resource Locator, Uniform Locator, and refer to fields, all of which have user's Internet traces, from which they can be read directly - - Take the webpages visited by the user equipment and the searched keywords or keywords; DPI equipment is a network equipment working in the OSI (Open System Interconnection) model from the transport layer to the application layer, with business data
- the flow identification and service data flow control functions are widely applied to the metropolitan area network and the enterprise network, and can identify the webpages and search keywords or keywords that the user equipment has visited, and store them in the detection information.
- the inventing device can respectively obtain the webpage information record and the search information record from the log information and the detection information in the device on the network side.
- the device of the present invention obtains records of multiple user equipments accessing the Internet, and therefore needs to identify each user equipment.
- the IP address of the user equipment is dynamically assigned.
- the IP address cannot be the identifier of the same user equipment, and the MAC (Media Access Control) address uniquely identifies the user equipment. Therefore, optional.
- the embodiment of the present invention can be associated with a specific user identified by the MAC address by using an IP address. In the specific implementation process, refer to an example of recording the user equipment shown in Table 1, and the user equipment passes the IP address (168.192. 1.158) When accessing the Internet, the IP address is associated with the MAC address of the user equipment (1F4AE2368C2), and finally the MAC address (1F4AE2368C2) is used as the identifier of the user equipment.
- the location information record and the feature information in the webpage information record are respectively extracted, where the feature information includes statistics of multiple online behaviors of the user equipment in a plurality of preset time periods, Statistics include the number of times or duration.
- the feature information is a description of the user's online behavior.
- the statistics of the plurality of online behaviors of the user equipment for the location information record and the web page information record are counted in the preset time period.
- the statistics may include the number of times or the duration, which is not limited herein.
- the normalized values are required to form a feature matrix, and the form of the feature matrix is as shown in (1):
- the feature matrix of the location information record of the simplified user equipment is as shown in (2).
- a certain column of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as within a certain period of time.
- the user equipment is connected to the digital library, the dormitory, the classroom, the restaurant, and the coffee shop for a long time. Assuming that there are five user devices, a matrix of 5 X 5 can be formed.
- the feature matrix of the simplified user equipment web page information record is as shown in (3), a certain row of a row corresponds to a certain online behavior of a user equipment, and it is assumed that there are five kinds of online behaviors, such as users within a certain period of time.
- the number of times the device logs in to web pages &, b, c, d, and e, assuming 5 user devices, can form a 5 X 5 matrix.
- the normalized value is a value ranging between [0, 1], and the statistic is a specific data.
- X represents the normalized value of the statistics of the i-th online behavior of a user equipment during the time period t
- t includes time periods A, B, (or 0, i may include a digital library, dormitory or coffee
- Xi represents its statistic
- x min represents the minimum duration
- x max represents the maximum duration.
- equation (5) is only an optional formula of the embodiment of the present invention, and other formulas are no longer- enumerate.
- - - For example: After converting the statistic in the feature matrix (1) to a normalized value, the feature matrix is shown as (6).
- the device of the present invention may remove similar statistics from the feature information by using a preset dimensionality reduction algorithm, where the preset dimensionality reduction algorithm may include an LR (Logistic Regression) algorithm and a Linear SVC function. , but not limited to these two dimensionality reduction algorithms.
- the preset dimensionality reduction algorithm may include an LR (Logistic Regression) algorithm and a Linear SVC function. , but not limited to these two dimensionality reduction algorithms.
- H does not have a problem of 2 classification
- the categories are yl and y2
- the eigenvector corresponding to the i-th user is [xi0, xil, xi2...xim]
- the fitting coefficient vector is [k0, kl, K2...km]
- the plane ⁇ [ xi0*k0, xil*kl, xi2*k2...xim*km] divides the feature space into two parts, so the statistics of the feature information of the user equipment, Predictions and classifications can be made by judging the space in which they are located.
- the fitting coefficient is selected such that the predicted value is located as far as possible in the feature space corresponding to the correct category. If a fitting coefficient in the fitting coefficient vector approaches zero, the statistical pair corresponding to the fitting coefficient is indicated. The results of prediction and classification have little effect, so they can be discarded, thus implementing the removal of similar statistics from the feature information. In particular, since the LR algorithm and the Linear SVC function are commonly used algorithms, they will not be described in depth here.
- the matrix (6) Please refer to the matrix (6). Since the statistics of the feature information of the third column and the fifth column are similar, the reference value for distinguishing the user equipment is not large, and can be removed from the feature matrix (6). Therefore, the dimension of the feature matrix (6) is reduced from 5 to 3, and the dimensionality-reduced feature matrix is as shown in (7). - -
- the device of the present invention calculates the first identity attribute probability set and the second identity attribute probability set by introducing the feature matrix into the preset probability algorithm.
- the first identity attribute probability set and the second identity probability set each include a probability of at least one identity class, and the identity class may be a user's age range, gender, address, occupation, and the like.
- the calculated probability set for each identity attribute can be as shown in Table 5.
- the identity attribute probability set of the location information record and the webpage information record can be calculated by any of the following methods:
- the above algorithms are all classifier algorithms, and the identity categories of users belonging to each user equipment can be classified according to the feature matrix, and the probability corresponding to the identity categories is calculated.
- the feature information in the search information record is extracted, where the feature information includes a search frequency of each of the user equipments for a preset plurality of keywords.
- the search frequency of the user equipment is counted for each keyword.
- the feature information in the search information record can be as shown in Table 4. - -
- the normalized values are required to form a feature matrix, for example: a simplified feature matrix of the search information record of the user equipment, such as (4) As shown, a certain row of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as the frequency of inputting keywords a, b, c, d, and e when the user equipment searches, There are 5 user devices, which can form a 5X5 matrix.
- the third identity attribute probability set is calculated by introducing the search frequency into a preset algorithm, where the preset algorithm includes a naive Bayes algorithm.
- the calculated third-person attribute probability set can be as shown in Table 5.
- the identity attribute probability set of the search information record can be calculated by the naive Bayes algorithm.
- P ( yi lx) *P (y 2 lx) *...*P (y n lx) can be obtained by statistics. Then, P( yi lx) can be calculated according to the Bayesian theorem. Detailed calculation process can refer to the detailed Bayesian algorithm for detailed explanation. - - I won't go into details here.
- the identity category of the first identity attribute probability set is greater than the preset identity value corresponding to the first identity attribute probability set, and the second identity attribute is used.
- the probability that the probability set is greater than the preset threshold of the second identity attribute probability set is the identity class of the user to which the user equipment belongs; or the probability that the third identity attribute probability is concentrated is greater than the third
- the identity category of the preset threshold corresponding to the identity attribute probability set is used as the identity category of the user to which the user equipment belongs.
- the first identity attribute set corresponds to a preset threshold of 85%, and the probability that user A is a teenager (90%) is greater than 85%, then it is determined that user A's identity category is a teenager.
- a preset threshold may be correspondingly set for each identity attribute probability set, if an identity attribute probability set is used. If the accuracy is high, the corresponding preset threshold can be set lower. For example, assuming accuracy rate: third identity attribute probability> first identity attribute probability> second identity attribute probability, the corresponding preset thresholds can be set to 60%, 80%, and 90%, respectively. It should be noted that the accuracy of each attribute attribute probability set can be tested by a training sample.
- the probability of an identity class is not higher than the corresponding preset threshold, the sum of the probabilities of the identity class is used.
- the probability of the n identity classes predicted by the i-th classification model is...P jn ,
- the output identity category is j
- the output identity class is j S209, and information is pushed to each of the user devices according to the identity category of the user to which the user equipment belongs.
- the first embodiment of the present invention calculates the first identity attribute probability set and the second identity attribute of the users to which the user equipment belongs in three aspects. a probability set and a third identity attribute probability set, wherein the three sets of identity attribute probability sets each include a probability of at least one identity class, and then comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity
- the attribute probability set is used to determine the identity category of the user to which the user equipment belongs, and the embodiment of the present invention performs the above three aspects on the online behavior of the user, and then constructs a preset algorithm to calculate the mined information record, and The comprehensive calculation result determines the identity category of the user to which the user equipment belongs.
- FIG. 3 is a schematic structural diagram of a user identity category determining apparatus according to an embodiment of the present invention.
- the user identity category determining apparatus in the embodiment of the present invention may include at least an information acquiring module 310, a probability calculating module 320, and an identity class determining module 330, where:
- the information obtaining module 310 is configured to acquire location information records, webpage information records, and search information records of multiple user equipments on the Internet.
- the information acquiring module 310 may further include: a first obtaining unit 311 and a second acquiring unit 312, as shown in FIG. 4, where:
- the first obtaining unit 311 is configured to obtain, from the log information of the AP (Access Point, Network Access Point) controller or the user information of the mobile gateway, the location information record of the plurality of user equipments to access the Internet.
- AP Access Point, Network Access Point
- the AP controller is a core of a wireless network, and is used to centrally control access hotspots, and is widely used in a WiFi (Wireless Fidelity) network to obtain user login and roaming processes.
- Mobile gateways can include GGSN (Gateway GPRS Support Node) or PGW (Packet Data Network Gateway), GGSN can GSM (Global System For Mobile communication, the packet data packet of GPRS (General Packet Radio Service) in the network is protocol-converted.
- GSM Global System For Mobile communication
- the packet data packet of GPRS General Packet Radio Service
- the geographic location of the mobile user can be obtained and user information can be generated.
- the first obtaining unit 311 can obtain the location information record including the geographic location of the user from the log information or the user information in the device on the network side.
- the second obtaining unit 312 is configured to obtain the foregoing information from the HTTP (Hyper Text Transfer Protocol) log information of the network sniffer or the detection information of the DPI (Deep Packet Inspection) device. Web page information record and search information record of user equipment accessing the Internet.
- HTTP Hyper Text Transfer Protocol
- DPI Deep Packet Inspection
- the network sniffer is a tool for obtaining traffic information of a network application layer through packet parsing, and can obtain HTTP information of a user accessing Internet traffic information.
- the HTTP information is usually saved as log information, including a domain name and a URL (Uniform Resource Locator). Fields such as the Uniform Resource Locator and refer, all of which carry the user's Internet traces, from which you can directly read the web pages visited by the user device and search for keywords or keywords; DPI devices are a type of work at OSI ( Open System Interconnection, the network device from the transport layer to the application layer in the model, with service data flow identification and service data flow control functions, widely used in metropolitan area networks and enterprise networks, and able to identify user equipment accesses. Webpages and searched keywords or keywords, and saved in the detection information.
- the second obtaining unit 312 can respectively obtain the webpage information record and the search information record from the log information and the detection information in the device on the network side.
- the probability calculation module 320 is configured to calculate, according to the location information record, a first identity attribute probability set of each user of the user equipment, where the first identity attribute probability set includes a probability of at least one identity category;
- the webpage information record calculates a second identity attribute probability set of each user of the user equipment, the second identity attribute probability set includes a probability of at least one identity category, and calculates each user equipment according to the search information record.
- the probability calculation module 320 may further include: a feature information extraction unit 321 and a numerical value conversion as shown in FIG. 5 - a unit 322 and a probability calculation unit 323, wherein:
- the feature information extracting unit 321 is configured to separately extract the feature information in the location information record and the webpage information record, where the feature information includes multiple online behaviors of the user equipment in multiple preset time periods respectively. Statistics, the statistics include the number of times or duration.
- the feature information is a description of the user's online behavior.
- the statistics of the plurality of online behaviors of the user equipment for the location information record and the web page information record are counted in the preset time period.
- the statistics may include the number of times or the duration, which is not limited herein.
- the feature information in the location information record can be as shown in Table 2.
- Table 2 If the day is divided into 4 periods of A, B, C, and D, the feature information in the location information record can be as shown in Table 2.
- the normalized values are required to form a feature matrix, and the form of the feature matrix is as shown in (1):
- Xi, j represents the statistics of the jth online behavior of the i-th user equipment, and each row of the feature matrix represents all online behaviors of a certain user equipment, and each column of the feature matrix represents an online behavior corresponding to all users. .
- the feature matrix of the location information record of the simplified user equipment is as shown in (2).
- a certain row of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as user equipment in a certain period of time.
- the characteristic matrix of the web page information record of the simplified user equipment is as shown in (3).
- a certain column of a certain row corresponds to a certain online behavior of a user equipment, and it is assumed that there are five kinds of online behaviors, such as The number of times the user equipment logs in to web pages &, b, c, d, and e within a certain period of time, assuming 5 user equipments, can form a 5X5 matrix.
- the feature information extracting unit 321 is further configured to extract feature information in the search information record, wherein the feature information includes a search frequency of each user equipment for a plurality of preset keywords.
- the search frequency of the user equipment is counted for each keyword.
- the feature information in the search information record can be as shown in Table 4.
- the normalized values are required to form a feature matrix, for example: a simplified feature matrix of the search information record of the user equipment, such as (4)
- a certain row of a row corresponds to a certain online behavior of a user equipment. It is assumed that there are five kinds of online behaviors, such as the frequency of inputting keywords a, b, c, d, and e when the user equipment searches, There are 5 user devices, then a matrix of 5 X 5 can be constructed. - -
- a numerical conversion unit 322 is configured to convert the statistic into a normalized value.
- the normalized value is a value ranging between [0, 1], and the statistic is a specific data.
- X represents the normalized value of the statistics of the i-th online behavior of a user equipment during the time period t
- t includes time periods A, B, (or 0, i may include a digital library, dormitory or coffee
- i may include a digital library, dormitory or coffee
- x min indicates the minimum duration
- x max indicates the maximum duration.
- formula (5) is only an optional formula of the embodiment of the present invention, and other formulas are no longer - Lift.
- the feature matrix is shown in (6).
- the probability calculation module 320 may further include a dimension reduction module 324, configured to use the same one of the different user equipments in the same preset time period.
- the similar statistics are removed from the feature information.
- the dimension reduction module 324 can remove similar statistics from the feature information by using a preset dimension reduction algorithm, where the preset dimension reduction algorithm can include an LR (Logistic Regression) algorithm and a Linear SVC. Functions, but not limited to these two dimensionality reduction algorithms.
- LR Logistic Regression
- the fitting coefficient is selected such that the predicted value is located as far as possible in the feature space corresponding to the correct category. If a fitting coefficient in the fitting coefficient vector approaches zero, the statistical pair corresponding to the fitting coefficient is indicated. The results of prediction and classification have little effect, so they can be discarded, thus implementing the removal of similar statistics from the feature information. In particular, since the LR algorithm and the Linear SVC function are existing commonly used algorithms, they will not be described in depth here.
- the matrix (6) Please refer to the matrix (6). Since the statistics of the feature information of the third column and the fifth column are similar, the reference value for distinguishing the user equipment is not large and can be removed from the feature matrix (6). Therefore, the dimension of the feature matrix (6) is reduced from 5 to 3, and the dimensionality-reduced feature matrix is as shown in (7).
- the probability calculation unit 323 is configured to separately calculate the first identity attribute probability set and the second identity attribute probability set by introducing the normalized value into a preset probability algorithm.
- the probability calculation unit 323 calculates the first identity attribute probability set and the second identity attribute probability set by introducing the feature matrix into the preset probability algorithm.
- the first identity attribute probability set and the second identity probability set each include a probability of at least one identity category, and the identity category may be a user's age range, gender, address, and occupation.
- the identity type is an age group. (including adolescents and middle-aged and older people), the calculated probability set of each identity attribute can be as shown in Table 5.
- the identity attribute probability set of the location information record and the webpage information record can pass - - Any of the following methods to calculate:
- the above algorithms are all classifier algorithms, and the identity categories of users belonging to each user equipment can be classified according to the feature matrix, and the probability corresponding to the identity categories is calculated.
- the probability calculation unit 323 is further configured to calculate the third identity attribute probability set by introducing the search frequency into a preset algorithm, where the preset algorithm includes a naive Bayes algorithm.
- the calculated third-person attribute probability set can be as shown in Table 5.
- the identity attribute probability set of the search information record can be calculated by the naive Bayes algorithm.
- the item to be classified belongs to category x, if P( yi lx)*P(y 2 lx)*...*P(ynlx) ⁇ o where, the probability P ( yi lx) *P (y 2 lx) *...*P (y can be obtained by statistics n lx). Then, P( yi lx) can be calculated according to the Bayesian theorem. Detailed calculation process can refer to the detailed Bayesian algorithm for detailed explanation, and will not be described here.
- the identity class determining module 330 is configured to determine each user by comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity attribute probability set corresponding to the user to which each user equipment belongs.
- the identity class determining module 330 uses the identity class whose probability of the first identity attribute probability set is greater than the preset threshold value corresponding to the first identity attribute probability set as the identity class of the user to which the user equipment belongs; or the second identity attribute The probability that the probability set is greater than the preset threshold of the second identity attribute probability set is the identity class of the user to which the user equipment belongs; or the probability that the third identity attribute probability set is greater than the preset corresponding to the third identity attribute probability set
- the wide-valued identity class is the identity class of the user to which the user device belongs.
- the first identity attribute set corresponds to a preset threshold of 85%, and the probability that user A is a teenager (90%) is greater than 85%, then it is determined that user A's identity category is a teenager.
- a preset threshold may be set correspondingly for each identity attribute probability set, if an identity attribute probability If the accuracy of the set is high, the corresponding preset threshold can be set lower. For example, assuming accuracy rate: third identity attribute probability>first identity attribute probability>second identity attribute probability, the corresponding preset thresholds may be set to 60%, 80%, and 90%, respectively. It should be noted that the accuracy of each identity attribute probability set can be tested by a training sample.
- the probability of an identity class is not higher than the corresponding preset threshold, the sum of the probabilities of the identity class is used.
- the output identity category is j
- the output identity category is j
- the user identity category determining apparatus further includes an information pushing module 340, configured to push information to each user equipment according to an identity category of the user to which the user equipment belongs.
- the user identity class determining apparatus may include: at least one processor 401, such as a CPU, at least one memory 403, At least one communication bus 402. Among them, the communication bus 402 is used to implement connection communication between these components.
- the memory 403 may be a high speed RAM memory or a non-volatile memory such as at least one disk memory.
- the memory 403 may also be at least one storage device located away from the foregoing processor 401.
- a set of program codes is stored in the memory 404, and the processor 401 is configured to call program code stored in the memory for performing the following operations:
- the identity class of the user to which the user equipment belongs is determined by comprehensively analyzing the first identity attribute probability set, the second identity attribute probability set, and the third identity attribute probability set corresponding to the user to which the user equipment belongs.
- the specific operations of the processor 401 to obtain the location information record, the webpage information record, and the search information record of the plurality of user equipments on the Internet are:
- the processor 401 calculates, according to the location information record, each user equipment belongs to - a specific operation of the first identity attribute probability set of the user and the calculating the second identity attribute probability set of the user to which the user equipment belongs according to the webpage information record is:
- the feature information includes statistics of multiple online behaviors of the user equipment in a plurality of preset time periods, the statistics Including the number of times or duration;
- the first identity attribute probability set and the second identity attribute probability set are separately calculated by introducing the normalized value into a preset probability algorithm.
- the processor 401 further performs:
- the processor 401 calculates, according to the search information record, a specific operation of the third identity attribute probability set of the user to which the user equipment belongs:
- Extracting feature information in the search information record where the feature information includes a search frequency of each of the user equipments for a plurality of preset keywords
- the third identity attribute probability set is calculated by introducing the search frequency into a preset algorithm, where the preset algorithm includes a naive Bayes algorithm.
- the specific operation of the processor 401 to determine the identity category of the user to which each user equipment belongs may be:
- the identity class of the third identity attribute probability set is greater than the preset class of the third identity attribute probability set as the identity class of the user to which the user equipment belongs.
- the processor 401 further performs after determining the identity category of each user of the user equipment:
- the embodiment of the present invention further provides a computer storage medium, where the computer storage medium stores a program, and the program execution includes a part of the user identity category determining method described in the embodiment of the present invention in conjunction with FIG. 1 to FIG. All the steps.
- the first embodiment of the present invention calculates the first identity attribute probability set and the second identity attribute of the users to which the user equipment belongs in three aspects.
- the attribute probability set is used to determine the identity category of the user to which the user equipment belongs, and the embodiment of the present invention performs the above three aspects on the online behavior of the user, and then constructs a preset algorithm to calculate the mined information record, and The comprehensive calculation result determines the identity category of the user to which the user equipment belongs. Further, determining the obtained user identity category can be used for personalized and differentiated user services, and enhancing the user experience.
- first and second are used for descriptive purposes only and are not to be construed as indicating or implying a relative importance or implicitly indicating the number of technical features indicated.
- first is defined.
- second feature may include at least one such feature, either explicitly or implicitly.
- multiple means at least two, for example two, three, etc., unless specifically defined otherwise.
- a "computer-readable medium” can be any apparatus that can contain, store, communicate, propagate, or transport a program for use in an instruction execution system, apparatus, or device, or in conjunction with such an instruction execution system, apparatus, or device.
- a more specific example (non-exhaustive list) of computer readable media includes the following: electrical connections (electronic devices) having one or more wires, portable computer disk cartridges (magnetic devices), random access memory (RAM) , read only memory (ROM), erasable editable read only memory (EPROM or flash memory), fiber optic device, and portable compact disk read only memory (CDROM).
- the computer readable medium may even be Printing the paper or other suitable medium of the program, as the program can be obtained electronically, for example by optical scanning of paper or other medium, followed by editing, interpretation or, if necessary, processing in other suitable manner, and then Store it in computer memory.
- portions of the invention may be implemented in hardware, software, firmware or a combination thereof.
- a plurality of steps or methods may be implemented by software or firmware stored in a memory and executed by a suitable instruction execution system.
- a suitable instruction execution system For example, if implemented in hardware, as in another embodiment, it can be implemented with any one or combination of the following techniques well known in the art: having logic gates for implementing logic functions on data signals Discrete logic circuits, application specific integrated circuits with suitable combinational logic gates, programmable gate arrays (PGAs), field programmable gate arrays (FPGAs), etc.
- each functional unit in each embodiment of the present invention may be integrated into one processing module, or each unit may exist physically separately, or two or more units may be integrated into one module.
- the above integrated modules can be implemented in the form of hardware or in the form of software functional modules.
- the integrated modules, if implemented in the form of software functional modules and sold or used as separate products, may also be stored in a computer readable storage medium.
- the above mentioned storage medium may be a read only memory, a magnetic disk or an optical disk or the like.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种用户身份类别确定方法,包括:获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录;根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集;并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集;并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集;通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属用户的身份类别。相应地,本发明实施例还公开了一种用户身份类别确定装置。采用本发明,可以实现根据用户的上网行的记录为确定用户身份类别。
Description
一 一 一种用户身份类别确定方法以及装置
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种用户身份类别确定方法以 及装置。 背景技术
随着互联网技术的不断发展,基于互联网提供的用户服务也越来越多, 例 如: 通过互联网向用户推送业务信息或资讯信息。 在提供用户服务的方式中, 一概而论的撒网式服务已不再适合,个性化和差异化的服务才能更加博得用户 的青睐, 例如: 针对青少年用户推送时装类的网页资源, 而针对中年用户推送 房产类的网页资源。 进一步地, 为了实现个性化和差异化的服务, 需要获取用 户的基本信息, 如年龄、 性别、 职业以及住址等, 从而确定用户身份类别。 然 而, 由于以上基本信息涉及用户的个人隐私, 并不能轻易获取。 解决该问题的 现有技术方案是, 在用户创建网络账号时, 获取用户填写的基本信息, 从而根 据基本信息确定用户身份类别。
但是, 上述获取用户的基本信息的方式需要用户进行积极配合, 即需用户 同意将基本信息提供出来, 导致能够收集得到基本信息的数量有限。
发明内容
本发明实施例提供了一种用户身份类别确定方法以及装置,可以实现根据 用户的上网行为的记录确定用户身份类别。 本发明实施例第一方面提供了一种用户身份类别确定方法, 包括: 获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信息记 录;
根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性 概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
- - 根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述 第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属 用户的身份类别。
在第一方面的第一种可能实现方式中,所述获取多个用户设备上网的位置 信息记录、 网页信息记录以及搜索信息记录, 包括:
从 AP ( Access Point, 网络接入点)控制器的日志信息或者移动网关的用 户信息中, 获取所述多个用户设备上网的位置信息记录; 和
从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议 ) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息 中, 获取所述多个用户设备上网的网页信息记录和搜索信息记录。
结合第一方面的可能实现方式,在第二种可能实现方式中, 所述根据所述 位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述 根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率 集, 包括:
分别提取所述位置信息记录和所述网页信息记录中的特征信息, 其中,特 征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计 量, 所述统计量包括次数或时长;
将所述统计量转化为归一化的数值;
通过将所述归一化的数值引入预设的概率算法,分别计算出所述第一身份 属性概率集和所述第二身份属性概率集。
结合第一方面以及第一方面的第二种可能实现方式,在第三种可能实现方 式中, 所述分别提取所述位置信息记录和所述网页信息记录中的特征信息之 后, 还包括:
若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行 为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
结合第一方面以及第一方面的第三种可能实现方式,在第四种可能实现方 式中,所述若在同一所述预设时间段内的不同的所述用户设备的同一种所述上 网行为的统计量相似, 则从所述特征信息中去除相似的所述统计量, 包括:
- - 通过预设的降维算法, 从所述特征信息中去除相似的所述统计量, 其中, 所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归) 算法和 Linear SVC函数。
结合第一方面以及第一方面的第二种可能实现方式,在第五种可能实现方 式中, 所述预设的概率算法包括以下方法的任一种:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
结合第一方面的可能实现方式,在第六种可能实现方式中, 所述根据所述 搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集, 包括: 提取所述搜索信息记录中的特征信息, 其中, 所述特征信息包括各所述用 户设备对预设的多个关键词的搜索频率;
通过将所述搜索频率引入预设的算法, 计算出所述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
结合第一方面的可能实现方式,在第七种可能实现方式中, 所述通过综合 分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性 概率集以及所述第三身份属性概率集,确定各所述用户设备所属用户的身份类 另1 J, 包括:
将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别。
结合第一方面以及第一方面的第一至第七任一种的可能实现方式,在第八 种可能实现方式中,所述通过综合分析各所述用户设备所属用户对应的第一身 份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集,确定 各所述用户设备所属用户的身份类别之后, 还包括:
- - 根据各所述用户设备所属用户的身份类别, 向各所述用户设备推送信息。 本发明实施例第二方面提供了一种计算机存储介质,所述计算机存储介质 存储有程序,该程序执行时包括第一方面提供的一种用户身份类别确定方法的 部分或全部步骤。 本发明实施例第三方面提供了一种用户身份类别确定装置, 包括: 信息获取模块, 用于获取多个用户设备上网的位置信息记录、 网页信息记 录以及搜索信息记录;
概率计算模块,用于根据所述位置信息记录计算出各所述用户设备所属用 户的第一身份属性概率集,所述第一身份属性概率集包括至少一个身份类别的 概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
身份类别确定模块,用于通过综合分析各所述用户设备所属用户对应的第 一身份属性概率集、 所述第二身份属性概率集以及所述第三身份属性概率集, 确定各所述用户设备所属用户的身份类别。
在第三方面的第一种可能实现方式中, 所述信息获取模块包括:
第一获取单元, 用于从 AP ( Access Point, 网络接入点 )控制器的日志信 息或者移动网关的用户信息中, 获取所述多个用户设备上网的位置信息记录; 第二获取单元, 用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测) 设备的检测信息中,获取所述多个用户设备上网的网页信息记录和搜索信息记 录。
结合第三方面的可能实现方式,在第二种可能实现方式中, 所述概率计算 模块包括:
特征信息提取单元,用于分别提取所述位置信息记录和所述网页信息记录 中的特征信息, 其中,特征信息包括分别在多个预设时间段内的所述用户设备
- - 的多种上网行为的统计量, 所述统计量包括次数或时长;
数值转化单元, 用于将所述统计量转化为归一化的数值;
概率计算单元, 用于通过将所述归一化的数值引入预设的概率算法, 分别 计算出所述第一身份属性概率集和所述第二身份属性概率集。
结合第三方面以及第三方面的第二种可能实现方式,所述概率计算模块还 包括:
降维单元,用于若在同一所述预设时间段内的不同的所述用户设备的同一 种所述上网行为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
结合第三方面以及第三方面的第三种可能实现方式,在第四种可能实现方 式中, 所述降维单元具体用于通过预设的降维算法,从所述特征信息中去除相 似的所述统计量, 其中, 所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归) 算法和 Linear SVC函数。
结合第三方面以及第三方面的第二种可能实现方式,在第五种可能实现方 式中, 所述预设的概率算法包括以下方法的任一种:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
结合第三方面的可能实现方式,在第六种可能实现方式中, 所述特征信息 提取单元还用于提取所述搜索信息记录中的特征信息,其中, 所述特征信息包 括各所述用户设备对预设的多个关键词的搜索频率;
所述概率计算单元还用于通过将所述搜索频率引入预设的算法,计算出所 述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
结合第三方面的可能实现方式,在第七种可能实现方式中, 所述身份类别 确定模块具体用于将所述第一身份属性概率集中的概率大于所述第一身份属 性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
- - 将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别。
结合第三方面以及第三方面的第一至第七任一种的可能实现方式,在第八 种可能实现方式中, 所述装置还包括:
信息推送模块, 用于根据各所述用户设备所属用户的身份类别, 向各所述 用户设备推送信息。 本发明实施例第四方面提供了一种用户身份类别确定装置,包括存储器以 及处理器, 其中, 存储器中存储一组用户身份类别确定程序, 且处理器用于调 用存储器中的程序, 用于执行以下操作:
获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信息记 录;
根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性 概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述 第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属 用户的身份类别。 由上可见, 本发明实施例根据获取到的多个用户设备上网的位置信息记 录、 网页信息记录以及搜索信息记录, 分别计算出三个方面的各用户设备所属 用户的第一身份属性概率集、 第二身份属性概率集以及第三身份属性概率集, 其中, 三个方面的身份属性概率集均包括至少一个身份类别的概率, 进而通过 综合分析第一身份属性概率集、 第二身份属性概率集以及第三身份属性概率 集,确定各所述用户设备所属用户的身份类别, 本发明实施例对用户的上网行 为进行上述三个方面的深入挖掘,再构建预设的算法对挖掘出的信息记录进行 计算, 并综合计算结果确定用户设备所属用户的身份类别, 进一步地, 确定得
到的用户身份类别可用于个性化和差异化的用户服务, 增强用户的体验。 附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图作 简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对 于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
图 1是本发明实施例提供的一种用户身份类别确定方法的流程示意图; 图 2是本发明实施例提供的另一种用户身份类别确定方法的流程示意图; 图 3是本发明实施例提供的一种用户身份类别确定装置的结构示意图; 图 4是本发明实施例提供的一种信息获取模块的结构示意图;
图 5是本发明实施例提供的一种概率计算模块的结构示意图;
图 6是本发明实施例提供的另一种用户身份类别确定装置的结构示意图。 具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。 本发明实施例中的用户身份类别确定装置(以下简称为本发明装置)实现 于网络侧,从网络中获取用户设备上网的位置信息记录、 网页信息记录以及搜 索信息记录, 因此并不用在用户设备上安装或植入任何软或硬件, 具有信息基 数大、 信息面广和成本低的优点。
本发明实施例中的用户设备(UE, User Equipment )可以包括智能手机、 平板电脑、 个人电脑、 电子阅读器以及车载终端等电子终端, 所述用户设备可 接入互联网, 实现数据交互的功能。 图 1是本发明实施例中一种用户身份类别确定方法的流程示意图。如图所
- - 示本实施例中的用户身份类别确定方法的流程可以包括:
S101 ,获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信 息记录。
所述位置信息记录是用户设备接入互联网时所处的地理位置的记录,例如 咖啡馆、宿舍或图书馆。 所述网页信息记录是用户设备通过浏览器或应用程序 所打开的网页的记录, 例如汽车网、 购房网或电影网。 所述搜索信息记录是用 户设备使用搜索引擎或检索软件时所用的关键字或关键词。
可选的一个实施方式, 一方面, 本发明装置可从 AP ( Access Point, 网络 接入点)控制器的日志信息或者移动网关的用户信息中, 获取所述多个用户设 备上网的位置信息记录。 其中, AP控制器是无线网络的核心, 用来集中化控 制接入热点, 广泛应用于 WiFi ( Wireless Fidelity, 无线保真)网络, 能够获取 用户登录和漫游过程中的地理位置, 并生成日志信息; 移动网关可以包括 GGSN ( Gateway GPRS Support Node, 网关 GPRS支持节点)或 PGW ( Packet Data Network Gateway,分组数据网网关 )等设备, GGSN可以把 GSM ( Global System for Mobile communication,全球移动中心)网中的 GPRS( General Packet Radio Service, 通用分组无线服务技术) 的分组数据包进行协议转换, 在转换 过程中, 能够获取移动用户的地理位置, 并生成用户信息。 简而言之, 具体实 现过程中,发明装置可从网络侧的设备中的日志信息或用户信息中获取包含有 用户地理位置的位置信息记录。
另一方面, 本发明装置可从网络嗅探器的 HTTP ( Hyper Text Transfer
Protocol, 超文本传输协议) 日志信息或者 DPI ( Deep Packet Inspection, 深度 报文检测 )设备的检测信息中, 获取所述多个用户设备上网的网页信息记录和 搜索信息记录。其中, 所述网络嗅探器是一种通过包解析获取在网络应用层流 量信息的工具, 能够获取用户访问互联网流量信息中 HTTP的信息, HTTP信 息通常保存为日志信息, 包含域名、 URL ( Uniform Resource Locator, 统一资 源定位器) 以及 refer等字段, 该字段均带有用户的上网痕迹, 从中可直接读 取用户设备访问过的网页和搜索的关键字或关键词; DPI设备是一种工作在 OSI ( Open System Interconnection, 开放式系统互联)模型中传输层到应用层 的网络设备, 具备业务数据流识别和业务数据流控制功能, 广泛应用于城域网
- - 和企业网, 能够识别出用户设备访问过的网页和搜索的关键字或关键词, 并保 存在检测信息中。 简而言之, 具体实现过程中, 发明装置可从网络侧的设备中 的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。
需要指出的是, 本发明装置获取的是多个用户设备上网的记录, 因此需要 标识各个用户设备。 用户设备的 IP ( Internet Protocol, 互联网协议 )地址是动 态分配的, IP地址不能作为同一用户设备的标识, 而 MAC ( Media Access Control, 硬件位)地址可唯一标识用户设备, 因此, 可选的, 本发明实施例可 通过 IP地址关联到由 MAC地址标识的某个具体用户, 具体实现过程中, 请 参阅表 1 所示的一种统计用户设备的记录的示例, 用户设备通过 IP地址 ( 168.192.1.158 )接入互联网时, 将该 IP地址关联到该用户设备的 MAC地址 ( 1F4AE2368C2 ), 并最终以 MAC地址 ( 1F4AE2368C2 )作为用户设备的标 表 1
S102,根据所述位置信息记录计算出各所述用户设备所属用户的第一身份 属性概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并根据 所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集,所 述第二身份属性概率集包括至少一个身份类别的概率;并根据所述搜索信息记 录计算出各所述用户设备所属用户的第三身份属性概率集,所述第三身份属性 概率集包括至少一个身份类别的概率。
可选的一个实施方式, 一方面, 本发明装置分别提取位置信息记录和网页 信息记录中的特征信息, 其中,特征信息包括分别在多个预设时间段内的用户 设备的多种上网行为的统计量, 统计量包括次数或时长。
所述特征信息为用户上网行为的一种描述。 为了准确描述上网行为, 首先 需构造多个预设时间段, 例如工作日 (Weekday ) 和周末(Weekends ), 又如 将一天分为 A、 B、 C、 D的 4个时长, 即 00: 00-06: 00 ( A ); 06: 00-12:
00 ( B ); 12: 00-18: 00 ( C ); 18: 00-24: 00 ( D ), 再如将一天按小时分为
24 个时长。 接着, 在每个预设时间段内统计用户设备对于位置信息记录和网
— — 页信息记录的多种上网行为的统计量, 其中, 统计量可包括次数或时长, 这里 不作限定。
例如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么位置信息记录中特 征信息可如表 2所示。
表 2
又如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么网页信息记录中特 征信息可如表 3所示。
表 3
另一方面, 本发明装置还将提取搜索信息记录中的特征信息, 其中, 其特 征信息包括各用户设备对多个预设的关键词的搜索频率。 同理, 首先需构造多 个预设的关键词, 也可以是关键字, 可根据经验设置出最具代表性的关键词, 例如汽车、 美容、 租房或参考书。 接着, 对每个关键词统计用户设备的搜索频 率。
例如: 若关键词为汽车、 美容、 租房或参考书, 那么搜索信息记录中特征 信息可如表 4所示。
- -
表 4
(1)
X m,l X m,n 其中, Xi, j表示第 i个用户设备的第 j个上网行为的统计量,特征矩阵的每 一行表示某个用户设备的全部上网行为,特征矩阵的每一列表示所有用户对应 的某个上网行为。
例如: 简化的用户设备的位置信息记录的特征矩阵如(2)所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备分别在数字图书馆、 宿舍、 教室、 餐厅和咖啡馆的上网时长, 假 设有 5个用户设备, 那么可构成 5X5的矩阵。
20 20 20 0 2
20 14 10 4 0
18 14 0 4 0
(2)
2 0 20 40 0
0 5 0 36 2
- - 又如: 简化的用户设备的网页信息记录的特征矩阵如(3 )所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备登录网页 &、 b、 c、 d和 e的次数, 假设有 5个用户设备, 那么 可构成 5 X 5的矩阵。
2 2 2 0 2
2 1 1 4 0
1 1 0 4 0
( 3 )
2 0 2 4 0
0 5 0 3 2
再如: 简化的用户设备的搜索信息记录的特征矩阵如(4 )所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如用户设 备搜索时输入关键词 a、 b、 c、 d和 e的频率, 假设有 5个用户设备, 那么可 构成 5 X 5的矩阵。
0.2 0.2 0.2 0 0.2
0.2 0.14 0.1 0.4 0
0.1 0.14 0 0.4 0
( 4 )
0.2 0 0.2 0.4 0
0 0.5 0 0.36 0.2
进一步可选的,本发明装置将提取的位置信息记录和网页信息记录中的特 征信息的统计量转化为归一化的数值。 所述归一化的数值即取值范围在 [0, 1] 之间的数值, 统计量为一具体数据,将具体数据转化为归一化的数值的方法很 多, 其中, 以位置信息记录的特征信息的统计量为例, 本发明实施例釆用如下 公式(5 ) 实现转化:
其中, X;表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化 的数值, t包括时间段 A、 B、 ( 或0, i可以包括数字图书馆、 宿舍或咖啡馆 等位置, 表示其统计量, xmin表示最小时长, xmax表示最大时长。 需要指出
- - 的是, 公式(5 )仅为本发明实施例的一种可选公式, 其它公式不再——枚举。
例如: 将特征矩阵(1 ) 中的统计量转化为归一化的数值后, 特征矩阵如 ( 6 ) 所示。
1.0 1.0 1.0 0.0 1.0
1.0 0.7 0.5 0.1 0.0
0.9 0.7 0.0 0.1 0.0
( 6 )
0.1 0.0 1.0 1.0 0.0
0.0 0.2 0.0 0.0 0.0
更进一步可选的,若在同一预设时间段内的不同的用户设备的同一种上网 行为的统计量相似, 则本发明装置从特征信息中去除相似的所述统计量。具体 实现过程中, 本发明装置可通过预设的降维算法,从特征信息中去除相似的统 计量, 其中, 预设的降维算法可包括 LR ( Logistic Regression, 逻辑回归)算 法和 Linear SVC函数, 但不仅限于这两种降维算法。
需要指出的是, LR算法和 Linear SVC函数的基本思想相似, 均是釆用线 性拟合的方法对特征和类别进行拟合。 具体实现过程中, H没有一个 2分类的 问题, 类别为 yl和 y2, 第 i个用户对应的特征向量为 [xi0, xil , xi2...xim] , 拟合系数向量为 [k0, kl, k2...km], 那么平面 α =[ xi0*k0, xil*kl, xi2*k2...xim*km]将特征空间划分成 2个部分, 因此对于用户设备的特征信息 的统计量, 可通过判断出其所处的空间而做出预测和分类。 其中, 拟合系数的 选择应使得预测值尽可能位于正确的类别对应的特征空间,如果拟合系数向量 中的某个拟合系数趋近于零,则说明该拟合系数对应的统计量对预测和分类的 结果影响不大,即可将其舍去,因此实现从特征信息中去除相似的所述统计量。 特别地, 由于 LR算法和 Linear SVC函数为现有常用的算法,这里就不再深入 描述了。
例如: 请参阅矩阵(6 ), 由于第 3列和第 5列的特征信息的统计量相近, 对于区分用户设备参考价值不大, 可以从特征矩阵(6 ) 中去掉。 因此, 特征 矩阵(6 ) 的维度从 5降到了 3, 降维后的特征矩阵如(7 )所示。
- -
1.0 1.0 0.0
1.0 0.7 0.1
0.9 0.7 0.1
( 7 )
0.1 0.0 1.0
0.0 0.2 0.9
具体的,在得到归一化和降维后的特征矩阵后,本发明装置通过将特征矩 阵引入预设的概率算法, 分别计算出第一身份属性概率集、第二身份属性概率 集以及第三身份属性概率集。 其中, 所述第一身份属性概率集、 第二身份概率 集和第三身份概率集均包括了至少一个身份类别的概率,所述身份类别可以是 用户的年龄段、 性别、 住址以及职业等。
例如, 假设身份类别为年龄段(包括青少年和中老年人), 算出的各身份 属性概率集可如表 5所示。
表 5
具体实现过程中,一方面,位置信息记录和网页信息记录的身份属性概率 集可通过以下任一种方法来计算:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
- - 需要,指出的是上述算法均为分类器算法, 可根据特征矩阵分类出各用户 设备所属用户的身份类别, 并计算出身份类别对应的概率。
另一方面, 搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计 算。
由于朴素贝叶斯算法均可应用于位置信息记录、网页信息记录和搜索信息 记录, 本发明实施例将简单介绍下朴素贝叶斯算法的原理: 假设 x=[al 7 a2, a3...am] 为一个待分类项, 为 X的一个特征信息的统计量,类别集合为 C=[yi, y2, y3- .ym], 那么待分类项属于类别 x, 如果 P ( y ) = { P ( yilx ) * P ( y2lx ) * ... * P ( yjx ) }。其中,通过统计可以得到概率 P ( y!lx ) * P( y2lx ) * ... * P ( ynlx )。 接着, 根据贝叶斯定理即可计算得到 P ( yilx )。 详细计算过程可参考朴素贝叶 斯算法详解, 这里不再赘述。
S103 , 通过综合分析各所述用户设备所属用户对应的第一身份属性概率 集、所述第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户 设备所属用户的身份类别。
具体实现过程中,本发明装置将第一身份属性概率集中的概率大于第一身 份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别; 或将第二身份属性概率集中的概率大于第二身份属性概率集对应的预设阔值 的身份类别作为用户设备所属用户的身份类别;或将第三身份属性概率集中的 概率大于第三身份属性概率集对应的预设阔值的身份类别作为用户设备所属 用户的身份类别。 例如, 请参阅表 5, 假设第一身份属性集对应的预设阔值为 85%, 而用户 A是青少年的概率(90% ) 大于 85%, 则确定用户 A的身份类 别是青少年。
其中, 由于根据位置信息记录、 网页信息记录以及搜索信息计算出的身份 类别概率的准确率各不相同,因此可针对各身份属性概率集对应地设置预设阔 值, 若某身份属性概率集的准确率较高, 则可将对应的预设阔值设置得较低。 例如, 假设准确率: 第三身份属性概率〉第一身份属性概率〉第二身份属性概 率, 则对应的预设阔值可分别设置为 60%、 80%和 90%。 需要指出的是, 各身 份属性概率集的准确率可由一个训练样本来测试。
进一步可选的,如果某个身份类别的概率均不高于对应的预设阔值, 则釆
- - 用该身份类别的概率的和。
综合上述情况,实现确定各用户设备所属用户的身份类别的算法的伪代码 可 口下所示: Sort m //m取值 1、 2、 3 , 分别对应于位置信息记录、 网页信息记 录以及搜索信息记录的分类模型
i<-0
Do
〃第 i个分类模型预测得到的 n个身份类别的概率为 ...Pjn, 〃第 i个分类模型的预设阔值为 Si
输出的身份类别为 j
else: i++
if i ==m 〃即身份类别的概率均不高于对应的预设阔值
输出的身份类别为 j 又可选的, 本发明装置根据各用户设备所属用户的身份类别, 向各用户设 备推送信息, 例如: 针对青少年用户推送时装类的网页资源, 而针对中年用户 推送房产类的网页资源。
本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息 记录以及搜索信息记录,分别计算出三个方面的各用户设备所属用户的第一身 份属性概率集、 第二身份属性概率集以及第三身份属性概率集, 其中, 三个方 面的身份属性概率集均包括至少一个身份类别的概率,进而通过综合分析第一 身份属性概率集、第二身份属性概率集以及第三身份属性概率集,确定各所述 用户设备所属用户的身份类别,本发明实施例对用户的上网行为进行上述三个 方面的深入挖掘,再构建预设的算法对挖掘出的信息记录进行计算, 并综合计 算结果确定用户设备所属用户的身份类别, 进一步地,确定得到的用户身份类
- - 别可用于个性化和差异化的用户服务, 增强用户的体验。 图 2是本发明实施例中另一种用户身份类别确定方法的流程示意图,可以 包括:
S201 ,获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信 息记录。
所述位置信息记录是用户设备接入互联网时所处的地理位置的记录,例如 咖啡馆、宿舍或图书馆。 所述网页信息记录是用户设备通过浏览器或应用程序 所打开的网页的记录, 例如汽车网、 购房网或电影网。 所述搜索信息记录是用 户设备使用搜索引擎或检索软件时所用的关键字或关键词。
可选的一个实施方式, 一方面, 本发明装置可从 AP ( Access Point, 网络 接入点)控制器的日志信息或者移动网关的用户信息中, 获取所述多个用户设 备上网的位置信息记录。 其中, AP控制器是无线网络的核心, 用来集中化控 制接入热点, 广泛应用于 WiFi ( Wireless Fidelity, 无线保真)网络, 能够获取 用户登录和漫游过程中的地理位置, 并生成日志信息; 移动网关可以包括 GGSN ( Gateway GPRS Support Node, 网关 GPRS支持节点)或 PGW ( Packet Data Network Gateway,分组数据网网关 )等设备, GGSN可以把 GSM ( Global System for Mobile communication,全球移动中心)网中的 GPRS( General Packet Radio Service, 通用分组无线服务技术) 的分组数据包进行协议转换, 在转换 过程中, 能够获取移动用户的地理位置, 并生成用户信息。 简而言之, 具体实 现过程中,发明装置可从网络侧的设备中的日志信息或用户信息中获取包含有 用户地理位置的位置信息记录。
另一方面, 本发明装置可从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议) 日志信息或者 DPI ( Deep Packet Inspection, 深度 报文检测 )设备的检测信息中, 获取所述多个用户设备上网的网页信息记录和 搜索信息记录。其中, 所述网络嗅探器是一种通过包解析获取在网络应用层流 量信息的工具, 能够获取用户访问互联网流量信息中 HTTP的信息, HTTP信 息通常保存为日志信息, 包含域名、 URL ( Uniform Resource Locator, 统一资 源定位器) 以及 refer等字段, 该字段均带有用户的上网痕迹, 从中可直接读
- - 取用户设备访问过的网页和搜索的关键字或关键词; DPI设备是一种工作在 OSI ( Open System Interconnection, 开放式系统互联)模型中传输层到应用层 的网络设备, 具备业务数据流识别和业务数据流控制功能, 广泛应用于城域网 和企业网, 能够识别出用户设备访问过的网页和搜索的关键字或关键词, 并保 存在检测信息中。 简而言之, 具体实现过程中, 发明装置可从网络侧的设备中 的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。
需要指出的是, 本发明装置获取的是多个用户设备上网的记录, 因此需要 标识各个用户设备。 用户设备的 IP ( Internet Protocol, 互联网协议 )地址是动 态分配的, IP地址不能作为同一用户设备的标识, 而 MAC ( Media Access Control, 硬件位)地址可唯一标识用户设备, 因此, 可选的, 本发明实施例可 通过 IP地址关联到由 MAC地址标识的某个具体用户, 具体实现过程中, 请 参阅表 1 所示的一种统计用户设备的记录的示例, 用户设备通过 IP地址 ( 168.192.1.158 )接入互联网时, 将该 IP地址关联到该用户设备的 MAC地址 ( 1F4AE2368C2 ), 并最终以 MAC地址( 1F4AE2368C2 )作为用户设备的标 识。
S202,分别提取所述位置信息记录和所述网页信息记录中的特征信息,其 中,特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的 统计量, 所述统计量包括次数或时长。
所述特征信息为用户上网行为的一种描述。 为了准确描述上网行为, 首先 需构造多个预设时间段, 例如工作日 (Weekday ) 和周末(Weekends ), 又如 将一天分为 A、 B、 C、 D的 4个时长, 即 00: 00-06: 00 ( A ); 06: 00-12: 00 ( B ); 12: 00-18: 00 ( C ); 18: 00-24: 00 ( D ), 再如将一天按小时分为 24 个时长。 接着, 在每个预设时间段内统计用户设备对于位置信息记录和网 页信息记录的多种上网行为的统计量, 其中, 统计量可包括次数或时长, 这里 不作限定。
例如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么位置信息记录中特
- - 征信息可如表 2所示。 表 2
又如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么网页信息记录中特 征信息可如表 3所示。
表 3
( 1 )
X m,l X m,n 其中, Xi, j表示第 i个用户设备的第 j个上网行为的统计量,特征矩阵的每 一行表示某个用户设备的全部上网行为,特征矩阵的每一列表示所有用户对应 的某个上网行为。
- - 例如: 简化的用户设备的位置信息记录的特征矩阵如(2 )所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备分别在数字图书馆、 宿舍、 教室、 餐厅和咖啡馆的上网时长, 假 设有 5个用户设备, 那么可构成 5 X 5的矩阵。
20 20 20 0 2
20 14 10 4 0
18 14 0 4 0
( 2 )
2 0 20 40 0
0 5 0 36 2
又如: 简化的用户设备的网页信息记录的特征矩阵如(3 )所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备登录网页 &、 b、 c、 d和 e的次数, 假设有 5个用户设备, 那么 可构成 5 X 5的矩阵。
S203, 将所述统计量转化为归一化的数值。
所述归一化的数值即取值范围在 [0, 1]之间的数值,统计量为一具体数据, 将具体数据转化为归一化的数值的方法很多,其中, 以位置信息记录的特征信 息的统计量为例, 本发明实施例釆用如下公式(5 ) 实现转化:
其中, X;表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化 的数值, t包括时间段 A、 B、 ( 或0, i可以包括数字图书馆、 宿舍或咖啡馆 等位置, Xi表示其统计量, xmin表示最小时长, xmax表示最大时长。 需要指出 的是, 公式(5 )仅为本发明实施例的一种可选公式, 其它公式不再——枚举。
- - 例如: 将特征矩阵(1 ) 中的统计量转化为归一化的数值后, 特征矩阵如 ( 6 ) 所示。
1.0 1.0 1.0 0.0 1.0
1.0 0.7 0.5 0.1 0.0
0.9 0.7 0.0 0.1 0.0
( 6 )
0.1 0.0 1.0 1.0 0.0
0.0 0.2 0.0 0.0 0.0
S204,若在同一预设时间段内的不同的用户设备的同一种上网行为的归一 化数值相近, 则从所述特征信息中去除相近的所述归一化数值。
具体实现过程中, 本发明装置可通过预设的降维算法,从特征信息中去除 相似的统计量, 其中, 预设的降维算法可包括 LR ( Logistic Regression, 逻辑 回归)算法和 Linear SVC函数, 但不仅限于这两种降维算法。
需要指出的是, LR算法和 Linear SVC函数的基本思想相似, 均是釆用线 性拟合的方法对特征和类别进行拟合。具体实现过程中, H没有一个 2分类的 问题, 类别为 yl和 y2, 第 i个用户对应的特征向量为 [xi0, xil , xi2...xim] , 拟合系数向量为 [k0, kl , k2...km] , 那么平面 α =[ xi0*k0, xil*kl, xi2*k2...xim*km]将特征空间划分成 2个部分, 因此对于用户设备的特征信息 的统计量, 可通过判断出其所处的空间而做出预测和分类。 其中, 拟合系数的 选择应使得预测值尽可能位于正确的类别对应的特征空间,如果拟合系数向量 中的某个拟合系数趋近于零,则说明该拟合系数对应的统计量对预测和分类的 结果影响不大,即可将其舍去,因此实现从特征信息中去除相似的所述统计量。 特别地, 由于 LR算法和 Linear SVC函数为现有常用的算法,这里就不再深入 描述了。
例如: 请参阅矩阵(6 ), 由于第 3列和第 5列的特征信息的统计量相近, 对于区分用户设备参考价值不大, 可以从特征矩阵(6 ) 中去掉。 因此, 特征 矩阵(6 ) 的维度从 5降到了 3, 降维后的特征矩阵如(7 )所示。
- -
1.0 1.0 0.0
1.0 0.7 0.1
0.9 0.7 0.1
( 7 )
0.1 0.0 1.0
0.0 0.2 0.9
5205 ,通过将所述归一化的数值引入预设的概率算法,分别计算出所述第 一身份属性概率集和所述第二身份属性概率集。
具体的,在得到归一化和降维后的特征矩阵后,本发明装置通过将特征矩 阵引入预设的概率算法,分别计算出第一身份属性概率集和第二身份属性概率 集。其中, 所述第一身份属性概率集和第二身份概率集均包括了至少一个身份 类别的概率, 所述身份类别可以是用户的年龄段、 性别、 住址以及职业等。
例如, 假设身份类别为年龄段(包括青少年和中老年人), 算出的各身份 属性概率集可如表 5所示。
具体实现过程中,位置信息记录和网页信息记录的身份属性概率集可通过 以下任一种方法来计算:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
需要,指出的是上述算法均为分类器算法, 可根据特征矩阵分类出各用户 设备所属用户的身份类别, 并计算出身份类别对应的概率。
5206, 提取所述搜索信息记录中的特征信息, 其中, 所述特征信息包括各 所述用户设备对预设的多个关键词的搜索频率。
具体的, 首先需构造多个预设的关键词或关键字, 可根据经验设置出最具 代表性的关键词, 例如汽车、 美容、 租房或参考书。 接着, 对每个关键词统计 用户设备的搜索频率。
例如: 若关键词为汽车、 美容、 租房或参考书, 那么搜索信息记录中特征 信息可如表 4所示。
- -
表 4
同理,为了方便后续把获取到的特征信息的统计量带入预设的算法进行计 算, 需将归一化后的数值组成特征矩阵, 例如: 简化的用户设备的搜索信息记 录的特征矩阵如(4) 所示, 某一行的某一列对应某个用户设备的某个上网行 为, 假设有 5种上网行为, 如用户设备搜索时输入关键词 a、 b、 c、 d和 e的 频率, 假设有 5个用户设备, 那么可构成 5X5的矩阵。
0.2 0.2 0.2 0 0.2
0.2 0.14 0.1 0.4 0
0.1 0.14 0 0.4 0
(4)
0.2 0 0.2 0.4 0
0 0.5 0 0.36 0.2 S207,通过将所述搜索频率引入预设的算法,计算出所述第三身份属性概 率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
例如, 假设身份类别为年龄段(包括青少年和中老年人), 算出的第三身 份属性概率集可如表 5所示。
具体的, 搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。 本发明实施例将简单介绍下朴素贝叶斯算法的原理:假设 x=[al7 a2, a3...am] 为 一个待分类项, 为 X的一个特征信息的统计量,类别集合为 C=[yi, y2, y3... ym], 那么待分类项属于类别 χ,如果 Ρ( Ιχ)= { P(yilx)*P(y2lx)*...*P(ynlx)}0 其中, 通过统计可以得到概率 P (yilx) *P (y2lx) *...*P (ynlx)。 接着, 根据 贝叶斯定理即可计算得到 P(yilx)。详细计算过程可参考朴素贝叶斯算法详解,
- - 这里不再赘述。
S208,将所述第一身份属性概率集中的概率大于所述第一身份属性概率集 对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别;或将所述 第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阔值 的身份类别作为所述用户设备所属用户的身份类别;或将所述第三身份属性概 率集中的概率大于所述第三身份属性概率集对应的预设阔值的身份类别作为 所述用户设备所属用户的身份类别。
例如, 请参阅表 5, 假设第一身份属性集对应的预设阔值为 85%, 而用户 A是青少年的概率(90% ) 大于 85%, 则确定用户 A的身份类别是青少年。
其中, 由于根据位置信息记录、 网页信息记录以及搜索信息计算出的身份 类别概率的准确率各不相同,因此可针对各身份属性概率集对应地设置预设阔 值, 若某身份属性概率集的准确率较高, 则可将对应的预设阔值设置得较低。 例如, 假设准确率: 第三身份属性概率〉第一身份属性概率〉第二身份属性概 率, 则对应的预设阔值可分别设置为 60%、 80%和 90%。 需要指出的是, 各身 份属性概率集的准确率可由一个训练样本来测试。
进一步可选的,如果某个身份类别的概率均不高于对应的预设阔值, 则釆 用该身份类别的概率的和。
综合上述情况,实现确定各用户设备所属用户的身份类别的算法的伪代码 可 口下所示:
Sort m //m取值 1、 2、 3 , 分别对应于位置信息记录、 网页信息记 录以及搜索信息记录的分类模型
i<-0
Do
〃第 i个分类模型预测得到的 n个身份类别的概率为 ...Pjn,
〃第 i个分类模型的预设阔值为
输出的身份类别为 j
else: i++
if i ==m 〃即身份类别的概率均不高于对应的预设阔值
- -
∑m
i=l P 'J
输出的身份类别为 j S209,根据各所述用户设备所属用户的身份类别, 向各所述用户设备推送 信息。
例如: 针对青少年用户推送时装类的网页资源, 而针对中年用户推送房产 类的网页资源。
本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息 记录以及搜索信息记录,分别计算出三个方面的各用户设备所属用户的第一身 份属性概率集、 第二身份属性概率集以及第三身份属性概率集, 其中, 三个方 面的身份属性概率集均包括至少一个身份类别的概率,进而通过综合分析第一 身份属性概率集、第二身份属性概率集以及第三身份属性概率集,确定各所述 用户设备所属用户的身份类别,本发明实施例对用户的上网行为进行上述三个 方面的深入挖掘,再构建预设的算法对挖掘出的信息记录进行计算, 并综合计 算结果确定用户设备所属用户的身份类别, 进一步地,确定得到的用户身份类 别可用于个性化和差异化的用户服务, 增强用户的体验。 图 3是本发明实施例中一种用户身份类别确定装置的结构示意图。如图所 示本发明实施例中的用户身份类别确定装置至少可以包括信息获取模块 310、 概率计算模块 320以及身份类别确定模块 330, 其中:
信息获取模块 310, 用于获取多个用户设备上网的位置信息记录、 网页信 息记录以及搜索信息记录。 具体实现中, 所述信息获取模块 310 可以如图 4 所示进一步包括: 第一获取单元 311和第二获取单元 312, 其中:
第一获取单元 311, 用于从 AP ( Access Point, 网络接入点 )控制器的日 志信息或者移动网关的用户信息中,获取所述多个用户设备上网的位置信息记 录。
所述 AP控制器是无线网络的核心, 用来集中化控制接入热点, 广泛应用 于 WiFi ( Wireless Fidelity, 无线保真)网络, 能够获取用户登录和漫游过程中
- - 的地理位置, 并生成日志信息; 移动网关可以包括 GGSN ( Gateway GPRS Support Node, 网关 GPRS支持节点)或 PGW ( Packet Data Network Gateway, 分组数据网网关)等设备, GGSN 可以把 GSM ( Global System for Mobile communication, 全球移动中心) 网中的 GPRS ( General Packet Radio Service, 通用分组无线服务技术)的分组数据包进行协议转换, 在转换过程中, 能够获 取移动用户的地理位置, 并生成用户信息。 简而言之, 具体实现过程中, 第一 获取单元 311 可从网络侧的设备中的日志信息或用户信息中获取包含有用户 地理位置的位置信息记录。
第二获取单元 312, 用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议) 日志信息或者 DPI ( Deep Packet Inspection, 深度 报文检测 )设备的检测信息中, 获取所述多个用户设备上网的网页信息记录和 搜索信息记录。
所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具,能 够获取用户访问互联网流量信息中 HTTP的信息, HTTP信息通常保存为日志 信息, 包含域名、 URL ( Uniform Resource Locator,统一资源定位器)以及 refer 等字段, 该字段均带有用户的上网痕迹,从中可直接读取用户设备访问过的网 页和搜索的关键字或关键词; DPI 设备是一种工作在 OSI ( Open System Interconnection, 开放式系统互联)模型中传输层到应用层的网络设备, 具备 业务数据流识别和业务数据流控制功能, 广泛应用于城域网和企业网, 能够识 别出用户设备访问过的网页和搜索的关键字或关键词, 并保存在检测信息中。 简而言之, 具体实现过程中, 第二获取单元 312可从网络侧的设备中的日志信 息和检测信息中分别获取网页信息记录和搜索信息记录。
概率计算模块 320, 用于根据所述位置信息记录计算出各所述用户设备所 属用户的第一身份属性概率集,所述第一身份属性概率集包括至少一个身份类 别的概率;并根据所述网页信息记录计算出各所述用户设备所属用户的第二身 份属性概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并根 据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集, 所述第三身份属性概率集包括至少一个身份类别的概率。 具体实现中, 所述概 率计算模块 320可以如图 5所示进一步包括: 特征信息提取单元 321、 数值转
- - 化单元 322以及概率计算单元 323, 其中:
特征信息提取单元 321, 用于分别提取所述位置信息记录和所述网页信息 记录中的特征信息, 其中,特征信息包括分别在多个预设时间段内的所述用户 设备的多种上网行为的统计量, 所述统计量包括次数或时长。
所述特征信息为用户上网行为的一种描述。 为了准确描述上网行为, 首先 需构造多个预设时间段, 例如工作日 (Weekday) 和周末(Weekends), 又如 将一天分为 A、 B、 C、 D的 4个时长, 即 00: 00-06: 00 (A); 06: 00-12: 00 (B); 12: 00-18: 00 (C); 18: 00-24: 00 (D), 再如将一天按小时分为 24 个时长。 接着, 在每个预设时间段内统计用户设备对于位置信息记录和网 页信息记录的多种上网行为的统计量, 其中, 统计量可包括次数或时长, 这里 不作限定。
例如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么位置信息记录中特 征信息可如表 2所示。 表 2
又如: 若将一天分为 A、 B、 C、 D的 4个时长, 那么网页信息记录中特 征信息可如表 3所示。
表 3
用户设备 A登录网页 a
总次数 频率
时段 A 0 0
( 1)
X m,l X m,n
其中, Xi, j表示第 i个用户设备的第 j个上网行为的统计量,特征矩阵的每 一行表示某个用户设备的全部上网行为,特征矩阵的每一列表示所有用户对应 的某个上网行为。
例如: 简化的用户设备的位置信息记录的特征矩阵如(2)所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备分别在数字图书馆、 宿舍、 教室、 餐厅和咖啡馆的上网时长, ^ :又 设有 5个用户设备, 那么可构成 5X5的矩阵。
20 20 20 0 2
20 14 10 4 0
18 14 0 4 0
(2)
2 0 20 40 0
0 5 0 36 2 又如: 简化的用户设备的网页信息记录的特征矩阵如(3)所示, 某一行 的某一列对应某个用户设备的某个上网行为,假设有 5种上网行为,如某时间 段内用户设备登录网页 &、 b、 c、 d和 e的次数, 假设有 5个用户设备, 那么 可构成 5X5的矩阵。
- -
另夕卜,特征信息提取单元 321还用于提取搜索信息记录中的特征信息, 其 中, 其特征信息包括各用户设备对多个预设的关键词的搜索频率。
具体的, 首先需构造多个预设的关键词或关键字, 可根据经验设置出最具 代表性的关键词, 例如汽车、 美容、 租房或参考书。 接着, 对每个关键词统计 用户设备的搜索频率。
例如: 若关键词为汽车、 美容、 租房或参考书, 那么搜索信息记录中特征 信息可如表 4所示。 表 4
同理,为了方便后续把获取到的特征信息的统计量带入预设的算法进行计 算, 需将归一化后的数值组成特征矩阵, 例如: 简化的用户设备的搜索信息记 录的特征矩阵如(4 ) 所示, 某一行的某一列对应某个用户设备的某个上网行 为, 假设有 5种上网行为, 如用户设备搜索时输入关键词 a、 b、 c、 d和 e的 频率, 假设有 5个用户设备, 那么可构成 5 X 5的矩阵。
- -
0.2 0.2 0.2 0 0.2
0.2 0.14 0.1 0.4 0
0.1 0.14 0 0.4 0
( 4 )
0.2 0 0.2 0.4 0
0 0.5 0 0.36 0.2
数值转化单元 322, 用于将所述统计量转化为归一化的数值。
所述归一化的数值即取值范围在 [0, 1]之间的数值,统计量为一具体数据, 将具体数据转化为归一化的数值的方法很多,其中, 以位置信息记录的特征信 息的统计量为例, 本发明实施例釆用如下公式(5 ) 实现转化:
其中, X;表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化 的数值, t包括时间段 A、 B、 ( 或0, i可以包括数字图书馆、 宿舍或咖啡馆 等位置, 表示其统计量, xmin表示最小时长, xmax表示最大时长。 需要指出 的是, 公式(5 )仅为本发明实施例的一种可选公式, 其它公式不再——枚举。
例如: 将特征矩阵(1 ) 中的统计量转化为归一化的数值后, 特征矩阵如 ( 6 ) 所示。
1.0 1.0 1.0 0.0 1.0
1.0 0.7 0.5 0.1 0.0
0.9 0.7 0.0 0.1 0.0
( 6 )
0.1 0.0 1.0 1.0 0.0
0.0 0.2 0.0 0.0 0.0
可选的, 请参阅图 5, 如图所示的概率计算模块 320还可以进一步包括降 维模块 324, 用于若在同一所述预设时间段内的不同的所述用户设备的同一种 所述上网行为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
具体实现过程中, 降维模块 324可通过预设的降维算法,从特征信息中去 除相似的统计量, 其中, 预设的降维算法可包括 LR ( Logistic Regression, 逻 辑回归)算法和 Linear SVC函数, 但不仅限于这两种降维算法。
需要指出的是, LR算法和 Linear SVC函数的基本思想相似, 均是釆用线
- - 性拟合的方法对特征和类别进行拟合。具体实现过程中, 殳有一个 2分类的 问题, 类别为 yl和 y2, 第 i个用户对应的特征向量为 [xi0, xil , xi2...xim] , 拟合系数向量为 [k0, kl , k2...km] , 那么平面 α =[ xi0*k0, xil*kl, xi2*k2...xim*km]将特征空间划分成 2个部分, 因此对于用户设备的特征信息 的统计量, 可通过判断出其所处的空间而做出预测和分类。 其中, 拟合系数的 选择应使得预测值尽可能位于正确的类别对应的特征空间,如果拟合系数向量 中的某个拟合系数趋近于零,则说明该拟合系数对应的统计量对预测和分类的 结果影响不大,即可将其舍去,因此实现从特征信息中去除相似的所述统计量。 特别地, 由于 LR算法和 Linear SVC函数为现有常用的算法,这里就不再深入 描述了。
例如: 请参阅矩阵(6 ), 由于第 3列和第 5列的特征信息的统计量相近, 对于区分用户设备参考价值不大, 可以从特征矩阵(6 ) 中去掉。 因此, 特征 矩阵(6 ) 的维度从 5降到了 3, 降维后的特征矩阵如(7 )所示。
1.0 1.0 0.0
1.0 0.7 0.1
0.9 0.7 0.1
( 7 )
0.1 0.0 1.0
0.0 0.2 0.9
概率计算单元 323, 用于通过将所述归一化的数值引入预设的概率算法, 分别计算出所述第一身份属性概率集和所述第二身份属性概率集。
具体的,在得到归一化和降维后的特征矩阵后,概率计算单元 323通过将 特征矩阵引入预设的概率算法,分别计算出第一身份属性概率集和第二身份属 性概率集。其中, 所述第一身份属性概率集和第二身份概率集均包括了至少一 个身份类别的概率, 所述身份类别可以是用户的年龄段、 性别、住址以及职业 例如, 假设身份类别为年龄段(包括青少年和中老年人), 算出的各身份 属性概率集可如表 5所示。
具体实现过程中,位置信息记录和网页信息记录的身份属性概率集可通过
- - 以下任一种方法来计算:
DT ( Decision Tree, 决策树)算法;
RF (Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT (Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
需要,指出的是上述算法均为分类器算法, 可根据特征矩阵分类出各用户 设备所属用户的身份类别, 并计算出身份类别对应的概率。
另外,概率计算单元 323还用于通过将所述搜索频率引入预设的算法,计 算出所述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
例如, 假设身份类别为年龄段(包括青少年和中老年人), 算出的第三身 份属性概率集可如表 5所示。
具体的, 搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。 本发明实施例将简单介绍下朴素贝叶斯算法的原理:假设 x=[al7 a2, a3...am] 为 —个待分类项, 为 X的一个特征信息的统计量,类别集合为 C=[yi, y2, y3... ym], 那么待分类项属于类别 x,如果
P(yilx)*P(y2lx)*...*P(ynlx)}o 其中, 通过统计可以得到概率 P (yilx) *P (y2lx) *...*P (ynlx)。 接着, 根据 贝叶斯定理即可计算得到 P(yilx)。详细计算过程可参考朴素贝叶斯算法详解, 这里不再赘述。
身份类别确定模块 330, 用于通过综合分析各所述用户设备所属用户对应 的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率 集, 确定各所述用户设备所属用户的身份类别。
具体实现过程中,身份类别确定模块 330将第一身份属性概率集中的概率 大于第一身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户 的身份类别;或将第二身份属性概率集中的概率大于第二身份属性概率集对应 的预设阔值的身份类别作为用户设备所属用户的身份类别;或将第三身份属性 概率集中的概率大于第三身份属性概率集对应的预设阔值的身份类别作为用 户设备所属用户的身份类别。 例如, 请参阅表 5, 假设第一身份属性集对应的 预设阔值为 85%, 而用户 A是青少年的概率(90%)大于 85%, 则确定用户 A 的身份类别是青少年。
- - 其中, 由于根据位置信息记录、 网页信息记录以及搜索信息计算出的身份 类别概率的准确率各不相同,因此可针对各身份属性概率集对应地设置预设阔 值, 若某身份属性概率集的准确率较高, 则可将对应的预设阔值设置得较低。 例如, 假设准确率: 第三身份属性概率〉第一身份属性概率〉第二身份属性概 率, 则对应的预设阔值可分别设置为 60%、 80%和 90%。 需要指出的是, 各身 份属性概率集的准确率可由一个训练样本来测试。
进一步可选的,如果某个身份类别的概率均不高于对应的预设阔值, 则釆 用该身份类别的概率的和。
综合上述情况,实现确定各用户设备所属用户的身份类别的算法的伪代码 可 口下所示:
Sort m //m取值 1、 2、 3 , 分别对应于位置信息记录、 网页信息记 录以及搜索信息记录的分类模型
i<-0
Do
〃第 i个分类模型预测得到的 n个身份类别的概率为 ...Pjn, 〃第 i个分类模型的预设阔值为 Si
输出的身份类别为 j
else: i++
if i ==m 〃即身份类别的概率均不高于对应的预设阔值
输出的身份类别为 j
可选的, 请参阅图 3, 如图所示的用户身份类别确定装置还包括信息推送 模块 340, 用于根据各所述用户设备所属用户的身份类别, 向各所述用户设备 推送信息。
例如: 针对青少年用户推送时装类的网页资源, 而针对中年用户推送房产
- - 类的网页资源。 图 4是本发明实施例中的另一种用户身份类别确定装置的结构示意图, 如 图 4所示,该用户身份类别确定装置可以包括: 至少一个处理器 401,例如 CPU, 至少一个存储器 403, 至少一个通信总线 402。 其中, 通信总线 402用于实现这 些组件之间的连接通信。 存储器 403可以是高速 RAM存储器, 也可以是非易失 的存储器( non- volatile memory ) , 例如至少一个磁盘存储器。 可选的, 存储 器 403还可以是至少一个位于远离前述处理器 401的存储装置。 存储器 404中存 储一组程序代码, 且处理器 401用于调用存储器中存储的程序代码, 用于执行 以下操作:
获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信息记 录;
根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性 概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述 第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属 用户的身份类别。
可选的, 处理器 401获取多个用户设备上网的位置信息记录、 网页信息记 录以及搜索信息记录的具体操作为:
从 AP ( Access Point, 网络接入点)控制器的日志信息或者移动网关的用 户信息中, 获取所述多个用户设备上网的位置信息记录; 和
从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议 ) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息 中, 获取所述多个用户设备上网的网页信息记录和搜索信息记录。
相应地,处理器 401根据所述位置信息记录计算出各所述用户设备所属用
- - 户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设 备所属用户的第二身份属性概率集的具体操作为:
分别提取所述位置信息记录和所述网页信息记录中的特征信息, 其中,特 征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计 量, 所述统计量包括次数或时长;
将所述统计量转化为归一化的数值;
通过将所述归一化的数值引入预设的概率算法,分别计算出所述第一身份 属性概率集和所述第二身份属性概率集。
进一步的,处理器 401分别提取所述位置信息记录和所述网页信息记录中 的特征信息之后, 还执行:
若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行 为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
可选的,处理器 401根据所述搜索信息记录计算出各所述用户设备所属用 户的第三身份属性概率集的具体操作为:
提取所述搜索信息记录中的特征信息, 其中, 所述特征信息包括各所述用 户设备对多个预设的关键词的搜索频率;
通过将所述搜索频率引入预设的算法, 计算出所述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
进一步的,处理器 401确定各所述用户设备所属用户的身份类别的具体操 作可以为:
将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别。
更进一步的, 处理器 401 在确定各所述用户设备所属用户的身份类别之 后 还执行:
根据各所述用户设备所属用户的身份类别, 向各所述用户设备推送信息。
- -
本发明实施例还提出了一种计算机存储介质,所述计算机存储介质存储有 程序, 所述程序执行时包括本发明实施例结合图 1~图 2所描述的用户身份类 别确定方法中的部分或全部的步骤。 本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息 记录以及搜索信息记录,分别计算出三个方面的各用户设备所属用户的第一身 份属性概率集、 第二身份属性概率集以及第三身份属性概率集, 其中, 三个方 面的身份属性概率集均包括至少一个身份类别的概率,进而通过综合分析第一 身份属性概率集、第二身份属性概率集以及第三身份属性概率集,确定各所述 用户设备所属用户的身份类别,本发明实施例对用户的上网行为进行上述三个 方面的深入挖掘,再构建预设的算法对挖掘出的信息记录进行计算, 并综合计 算结果确定用户设备所属用户的身份类别, 进一步地,确定得到的用户身份类 别可用于个性化和差异化的用户服务, 增强用户的体验。
在本说明书的描述中, 参考术语"一个实施例"、 "一些实施例"、 "示例"、
"具体示例"、 或"一些示例"等的描述意指结合该实施例或示例描述的具体特 征、 结构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明 书中, 对上述术语的示意性表述不必须针对的是相同的实施例或示例。 而且, 描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以 合适的方式结合。 此外, 在不相互矛盾的情况下, 本领域的技术人员可以将本 说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和 组合。
此外, 术语"第一"、 "第二,,仅用于描述目的, 而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一"、 "第 二,,的特征可以明示或者隐含地包括至少一个该特征。 在本发明的描述中, "多 个"的含义是至少两个, 例如两个, 三个等, 除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表 示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代 码的模块、 片段或部分, 并且本发明的优选实施方式的范围包括另外的实现,
- - 其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式 或按相反的顺序, 来执行功能, 这应被本发明的实施例所属技术领域的技术人 员所理解。
在流程图中表示或在此以其他方式描述的逻辑和 /或步骤, 例如, 可以被 认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算 机可读介质中, 以供指令执行系统、 装置或设备(如基于计算机的系统、 包括 处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系 统)使用, 或结合这些指令执行系统、 装置或设备而使用。 就本说明书而言, "计算机可读介质' '可以是任何可以包含、 存储、 通信、 传播或传输程序以供指 令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。 计算机可读介质的更具体的示例(非穷尽性列表)包括以下: 具有一个或多个 布线的电连接部(电子装置), 便携式计算机盘盒(磁装置), 随机存取存储器 ( RAM ), 只读存储器(ROM ), 可擦除可编辑只读存储器 (EPROM或闪速 存储器), 光纤装置, 以及便携式光盘只读存储器(CDROM )。 另外, 计算机 可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以 例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他 合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器 中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行系统执行的软件或固件来实现。 例如, 如果用硬件来实现, 和在另一实施方 式中一样, 可用本领域公知的下列技术中的任一项或他们的组合来实现: 具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列( PGA ),现场可编程门阵列( FPGA ) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或 部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种 计算机可读存储介质中, 该程序在执行时, 包括方法实施例的步骤之一或其组 合。
- - 此外, 在本发明各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块 中。上述集成的模块既可以釆用硬件的形式实现,也可以釆用软件功能模块的 形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品 销售或使用时, 也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和 描述了本发明的实施例, 可以理解的是, 上述实施例是示例性的, 不能理解为 对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例 进行变化、 修改、 替换和变型。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之 权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims
1、 一种用户身份类别确定方法, 其特征在于, 所述方法包括:
获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信息记 录;
根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性 概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述 第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属 用户的身份类别。
2、 如权利要求 1所述的方法, 其特征在于, 所述获取多个用户设备上网 的位置信息记录、 网页信息记录以及搜索信息记录, 包括:
从 AP ( Access Point, 网络接入点)控制器的日志信息或者移动网关的用 户信息中, 获取所述多个用户设备上网的位置信息记录; 和
从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议 ) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息 中, 获取所述多个用户设备上网的网页信息记录和搜索信息记录。
3、 如权利要求 1所述的方法, 其特征在于, 所述根据所述位置信息记录 计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页 信息记录计算出各所述用户设备所属用户的第二身份属性概率集, 包括: 分别提取所述位置信息记录和所述网页信息记录中的特征信息, 其中,特 征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计 量, 所述统计量包括次数或时长;
将所述统计量转化为归一化的数值;
通过将所述归一化的数值引入预设的概率算法,分别计算出所述第一身份 属性概率集和所述第二身份属性概率集。
4、 如权利要求 3所述的方法, 其特征在于, 所述分别提取所述位置信息 记录和所述网页信息记录中的特征信息之后, 还包括:
若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行 为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
5、 如权利要求 4所述的方法, 其特征在于, 所述若在同一所述预设时间 段内的不同的所述用户设备的同一种所述上网行为的统计量相似,则从所述特 征信息中去除相似的所述统计量, 包括:
通过预设的降维算法, 从所述特征信息中去除相似的所述统计量, 其中, 所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归) 算法和 Linear SVC函数。
6、 如权利要求 3所述的方法, 其特征在于, 所述预设的概率算法包括以 下方法的任一种:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
7、 如权利要求 1所述的方法, 其特征在于, 所述根据所述搜索信息记录 计算出各所述用户设备所属用户的第三身份属性概率集, 包括:
提取所述搜索信息记录中的特征信息, 其中, 所述特征信息包括各所述用 户设备对多个预设的关键词的搜索频率;
通过将所述搜索频率引入预设的算法, 计算出所述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
8、 如权利要求 1所述的方法, 其特征在于, 所述通过综合分析各所述用 户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所 述第三身份属性概率集, 确定各所述用户设备所属用户的身份类别, 包括: 将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别。
9、 如权利要求 1-8任一项所述的方法, 其特征在于, 所述通过综合分析 各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率 集以及所述第三身份属性概率集,确定各所述用户设备所属用户的身份类别之 后, 还包括:
根据各所述用户设备所属用户的身份类别, 向各所述用户设备推送信息。
10、一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序, 所述程序执行时包括权利要求 1~9任一项所述的步骤。
11、 一种用户身份类别确定装置, 其特征在于, 所述装置包括:
信息获取模块, 用于获取多个用户设备上网的位置信息记录、 网页信息记 录以及搜索信息记录;
概率计算模块,用于根据所述位置信息记录计算出各所述用户设备所属用 户的第一身份属性概率集,所述第一身份属性概率集包括至少一个身份类别的 概率; 并
根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
身份类别确定模块,用于通过综合分析各所述用户设备所属用户对应的第
一身份属性概率集、 所述第二身份属性概率集以及所述第三身份属性概率集, 确定各所述用户设备所属用户的身份类别。
12、 如权利要求 11所述的装置, 其特征在于, 所述信息获取模块包括: 第一获取单元, 用于从 AP ( Access Point, 网络接入点 )控制器的日志信 息或者移动网关的用户信息中, 获取所述多个用户设备上网的位置信息记录; 第二获取单元, 用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测) 设备的检测信息中,获取所述多个用户设备上网的网页信息记录和搜索信息记 录。
13、 如权利要求 11所述的装置, 其特征在于, 所述概率计算模块包括: 特征信息提取单元,用于分别提取所述位置信息记录和所述网页信息记录 中的特征信息, 其中,特征信息包括分别在多个预设时间段内的所述用户设备 的多种上网行为的统计量, 所述统计量包括次数或时长;
数值转化单元, 用于将所述统计量转化为归一化的数值;
概率计算单元, 用于通过将所述归一化的数值引入预设的概率算法, 分别 计算出所述第一身份属性概率集和所述第二身份属性概率集。
14、 如权利要求 13所述的装置, 其特征在于, 所述概率计算模块还包括: 降维单元,用于若在同一所述预设时间段内的不同的所述用户设备的同一 种所述上网行为的统计量相似, 则从所述特征信息中去除相似的所述统计量。
15、 如权利要求 14所述的装置, 其特征在于, 所述降维单元具体用于通 过预设的降维算法, 从所述特征信息中去除相似的所述统计量, 其中, 所述预 设的降维算法包括 LR ( Logistic Regression, 逻辑回归)算法和 Linear SVC函 数。
16、 如权利要求 13所述的装置, 其特征在于, 所述预设的概率算法包括 以下方法的任一种:
DT ( Decision Tree, 决策树)算法;
RF ( Random Forest, 随机森林) 算法;
SVM ( Support Vector Machine, 支持向量机)算法;
GT ( Gradient Tree, 梯度提升树)算法;
NB ( Naive Bayes, 朴素贝叶斯)算法。
17、 如权利要求 11所述的装置, 其特征在于, 所述特征信息提取单元还 用于提取所述搜索信息记录中的特征信息, 其中, 所述特征信息包括各所述用 户设备对多个预设的关键词的搜索频率;
所述概率计算单元还用于通过将所述搜索频率引入预设的算法,计算出所 述第三身份属性概率集, 其中, 所述预设的算法包括朴素贝叶斯算法。
18、 如权利要求 11所述的装置, 其特征在于, 所述身份类别确定模块具 体用于将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对 应的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别; 或
将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应 的预设阔值的身份类别作为所述用户设备所属用户的身份类别。
19、如权利要求 11-18任一项所述的装置,其特征在于,所述装置还包括: 信息推送模块, 用于根据各所述用户设备所属用户的身份类别, 向各所述 用户设备推送信息。
20、 一种用户身份类别确定装置, 其特征在于, 所述用户身份类别确定装 置包括存储器以及处理器, 其中, 存储器中存储一组用户身份类别确定程序, 且处理器用于调用存储器中的程序, 用于执行以下操作:
获取多个用户设备上网的位置信息记录、 网页信息记录以及搜索信息记 录;
根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性
概率集, 所述第一身份属性概率集包括至少一个身份类别的概率; 并 根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性 概率集, 所述第二身份属性概率集包括至少一个身份类别的概率; 并
根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性 概率集, 所述第三身份属性概率集包括至少一个身份类别的概率;
通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述 第二身份属性概率集以及所述第三身份属性概率集,确定各所述用户设备所属 用户的身份类别。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/080676 WO2015196377A1 (zh) | 2014-06-25 | 2014-06-25 | 一种用户身份类别确定方法以及装置 |
CN201480009004.4A CN105408894B (zh) | 2014-06-25 | 2014-06-25 | 一种用户身份类别确定方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2014/080676 WO2015196377A1 (zh) | 2014-06-25 | 2014-06-25 | 一种用户身份类别确定方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015196377A1 true WO2015196377A1 (zh) | 2015-12-30 |
Family
ID=54936448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2014/080676 WO2015196377A1 (zh) | 2014-06-25 | 2014-06-25 | 一种用户身份类别确定方法以及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105408894B (zh) |
WO (1) | WO2015196377A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878242A (zh) * | 2016-06-02 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种确定用户身份类别的方法及装置 |
CN107330445A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 用户属性的预测方法和装置 |
CN110765435A (zh) * | 2019-10-23 | 2020-02-07 | 北京旷视科技有限公司 | 确定人员身份属性的方法、装置和电子设备 |
CN111585851A (zh) * | 2020-04-13 | 2020-08-25 | 中国联合网络通信集团有限公司 | 一种专线用户的识别方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682686A (zh) * | 2016-12-09 | 2017-05-17 | 北京拓明科技有限公司 | 一种基于手机上网行为的用户性别预测方法 |
CN108268624B (zh) * | 2018-01-10 | 2020-04-24 | 华控清交信息科技(北京)有限公司 | 用户数据可视化方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329647A (zh) * | 2007-06-20 | 2008-12-24 | 上海华虹集成电路有限责任公司 | 一种仿真片内flash的仿真器 |
CN102970289A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 基于Web用户行为模式的身份认证方法 |
CN103534998A (zh) * | 2011-05-14 | 2014-01-22 | 国际商业机器公司 | 分布式结构协议(dfp)交换网络架构 |
CN103679753A (zh) * | 2013-12-16 | 2014-03-26 | 深圳大学 | 一种概率假设密度滤波器的轨迹标识方法及轨迹标识系统 |
CN103838885A (zh) * | 2014-03-31 | 2014-06-04 | 苏州大学 | 一种面向广告投放的潜在用户检索及用户模型排序方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329674A (zh) * | 2007-06-18 | 2008-12-24 | 北京搜狗科技发展有限公司 | 一种提供个性化搜索的系统和方法 |
US9003025B2 (en) * | 2012-07-05 | 2015-04-07 | International Business Machines Corporation | User identification using multifaceted footprints |
-
2014
- 2014-06-25 CN CN201480009004.4A patent/CN105408894B/zh active Active
- 2014-06-25 WO PCT/CN2014/080676 patent/WO2015196377A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329647A (zh) * | 2007-06-20 | 2008-12-24 | 上海华虹集成电路有限责任公司 | 一种仿真片内flash的仿真器 |
CN103534998A (zh) * | 2011-05-14 | 2014-01-22 | 国际商业机器公司 | 分布式结构协议(dfp)交换网络架构 |
CN102970289A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 基于Web用户行为模式的身份认证方法 |
CN103679753A (zh) * | 2013-12-16 | 2014-03-26 | 深圳大学 | 一种概率假设密度滤波器的轨迹标识方法及轨迹标识系统 |
CN103838885A (zh) * | 2014-03-31 | 2014-06-04 | 苏州大学 | 一种面向广告投放的潜在用户检索及用户模型排序方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878242A (zh) * | 2016-06-02 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种确定用户身份类别的方法及装置 |
CN106878242B (zh) * | 2016-06-02 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 一种确定用户身份类别的方法及装置 |
CN107330445A (zh) * | 2017-05-31 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 用户属性的预测方法和装置 |
CN107330445B (zh) * | 2017-05-31 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 用户属性的预测方法和装置 |
CN110765435A (zh) * | 2019-10-23 | 2020-02-07 | 北京旷视科技有限公司 | 确定人员身份属性的方法、装置和电子设备 |
CN110765435B (zh) * | 2019-10-23 | 2022-05-17 | 北京旷视科技有限公司 | 确定人员身份属性的方法、装置和电子设备 |
CN111585851A (zh) * | 2020-04-13 | 2020-08-25 | 中国联合网络通信集团有限公司 | 一种专线用户的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105408894B (zh) | 2019-03-01 |
CN105408894A (zh) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015196377A1 (zh) | 一种用户身份类别确定方法以及装置 | |
US8844005B2 (en) | Authentication based on user behavior | |
CN103546446B (zh) | 一种钓鱼网站的检测方法、装置和终端 | |
EP3451194A1 (en) | Method and system for recommending text content, and storage medium | |
US10078743B1 (en) | Cross identification of users in cyber space and physical world | |
CN107944025A (zh) | 信息推送方法和装置 | |
US10984452B2 (en) | User/group servicing based on deep network analysis | |
EP3707606B1 (en) | Distributed identification in networked system | |
EP3358506A1 (en) | Method and apparatus for recognizing user behaviour object based on flow analysis | |
US20130066814A1 (en) | System and Method for Automated Classification of Web pages and Domains | |
WO2013159512A1 (zh) | 用户行为分析方法及相关设备和系统 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
CN109905873B (zh) | 一种基于特征标识信息的网络账号关联方法 | |
WO2017052953A1 (en) | Client-side web usage data collection | |
US20160299971A1 (en) | Identifying Search Engine Crawlers | |
WO2014161387A1 (zh) | 一种基于浏览器搜索的定向消息推送方法及系统 | |
CN113412608A (zh) | 内容推送方法、装置、服务端及存储介质 | |
Li et al. | Dissecting foursquare venue popularity via random region sampling | |
CN110929129B (zh) | 一种信息检测方法、设备及机器可读存储介质 | |
CN105740453B (zh) | 信息推送方法和装置 | |
CN103383697A (zh) | 确定对象标题的对象表征信息的方法与设备 | |
CN113127767B (zh) | 手机号码提取方法、装置、电子设备及存储介质 | |
KR20070051227A (ko) | 정보제공 방법 및 시스템과 이를 위한 정보제공 장치와,기록매체 | |
Yan et al. | Mining individual mobile user behavior on location and interests | |
EP3523942B1 (en) | Restrict transmission of manipulated content in a networked environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 201480009004.4 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14895985 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14895985 Country of ref document: EP Kind code of ref document: A1 |