WO2021027595A1 - 用户画像生成方法、装置、计算机设备和计算机可读存储介质 - Google Patents

用户画像生成方法、装置、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
WO2021027595A1
WO2021027595A1 PCT/CN2020/106222 CN2020106222W WO2021027595A1 WO 2021027595 A1 WO2021027595 A1 WO 2021027595A1 CN 2020106222 W CN2020106222 W CN 2020106222W WO 2021027595 A1 WO2021027595 A1 WO 2021027595A1
Authority
WO
WIPO (PCT)
Prior art keywords
app
data
information
user
label
Prior art date
Application number
PCT/CN2020/106222
Other languages
English (en)
French (fr)
Inventor
郭凌峰
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021027595A1 publication Critical patent/WO2021027595A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Definitions

  • This application relates to the technical field of big data, in particular to a user portrait generation method, device, computer equipment and computer-readable storage medium.
  • user portrait analysis technology is a tool and method for objectively and accurately describing target users.
  • user information is flooded in the network, and each specific user information is abstracted into tags, and these tags are used to concretize the user's image, so as to provide users with targeted services.
  • the user's attributes, behaviors and expectations are often connected with the most simple and life-like words.
  • the user roles formed by user portraits are not constructed out of the product and market.
  • the user roles formed are representative.
  • User portraits are virtual representatives of real users, based on the behavioral viewpoint of the target. The differences are divided into different types, quickly organized together, and then the newly obtained types are refined to form a type of user portrait.
  • the inventor realizes that most of the user portrait generation methods use keyword extraction methods to generate user tags.
  • keyword extraction methods In the case of only a small amount of user data, especially through the user's APP (Application, application) data
  • the keyword extraction method is used to analyze user portraits, which has the problem of low accuracy in generating user portraits.
  • a user portrait generation method, device, computer equipment, and computer-readable storage medium are provided.
  • a method for generating a user portrait includes:
  • deduplication processing is performed on each update tag, and based on the deduplication processed tags, a user portrait of the user to be analyzed is generated.
  • a user portrait generation device includes:
  • the data reading module is used to obtain the APP data information of the user to be analyzed carried in the portrait analysis request, and read the characteristic data of each APP in the APP data information and the use frequency data of each APP;
  • the co-occurrence data acquisition module is used to construct an APP feature data set including each feature data, traverse the APP feature data set, and obtain the co-occurrence data of the feature data of each APP in the APP feature data set;
  • the label update module is used to obtain the associated database of the APP and the label information, find the label information corresponding to each APP in the APP data information from the associated database, and add the APP co-occurrence data and use frequency data to the APP corresponding label information , Get the updated label;
  • the user portrait generation module is used to perform deduplication processing on each update tag according to the co-occurrence data and use frequency data in each update tag, and generate a user portrait of the user to be analyzed based on the deduplication processed tag.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer readable instructions.
  • the one or more processors execute the following steps:
  • deduplication processing is performed on each update tag, and based on the deduplication processed tags, a user portrait of the user to be analyzed is generated.
  • One or more computer-readable storage media storing computer-readable instructions.
  • the one or more processors execute the following steps:
  • each update tag is deduplicated, and based on the deduplicated tags, a user portrait of the user to be analyzed is generated.
  • the above-mentioned user portrait generation method, device, computer equipment and computer-readable storage medium are based on the APP data information of the user to be analyzed carried in the portrait analysis request, and read the characteristic data of each APP in the APP data information and the use frequency data of each APP, Construct an APP feature data set including each feature data, traverse the APP feature data set, obtain the co-occurrence data of each APP feature data in the APP feature data set, obtain the associated database of APP and label information, and search for APP data from the associated database
  • the label information corresponding to each APP in the information can better characterize the user’s preference for using the application through the label.
  • the number of apps of the user to be analyzed is small, it can be obtained according to the APP data information of the user to be analyzed To the corresponding label information, and through co-occurrence data analysis, and add the co-occurrence data and usage frequency data of each APP to the label information, get the updated label, more accurately characterize the user’s characteristic information, and obtain the user’s information to be analyzed
  • the user portrait improves the accuracy of the generated user portrait.
  • Fig. 1 is an application scenario diagram of a user portrait generation method according to one or more embodiments
  • FIG. 2 is a schematic flowchart of a method for generating a user portrait according to one or more embodiments
  • FIG. 3 is a schematic flowchart of a method for generating a user portrait in another embodiment
  • FIG. 4 is a schematic flowchart of a method for generating a user portrait in another embodiment
  • FIG. 5 is a schematic flowchart of a method for generating a user portrait in another embodiment
  • FIG. 6 is a schematic flowchart of a method for generating a user portrait in another embodiment
  • Fig. 7 is a block diagram of an apparatus for generating a user portrait according to one or more embodiments.
  • Figure 8 is a block diagram of a computer device according to one or more embodiments.
  • the user portrait generation method provided in this application can be applied to the application environment as shown in FIG. 1.
  • the terminal 102 and the server 104 communicate through the network.
  • the server 104 obtains the APP data information of the user to be analyzed carried in the portrait analysis request sent by the terminal 102, and reads the characteristic data of each APP in the APP data information and the usage frequency data of each APP, and constructs APP characteristic data including each characteristic data Set, traverse the APP feature data set, obtain the co-occurrence data of the feature data of each APP in the APP feature data set, obtain the associated database of APP and tag information, and find the tag information corresponding to each APP in the APP data information from the associated database , And add the co-occurrence data and usage frequency data of each APP to the corresponding tag information of the APP to obtain the updated tags.
  • de-duplication processing is performed on each updated tag.
  • a user portrait of the user to be analyzed is generated, and the user portrait is pushed to the terminal 102.
  • the terminal 102 may be, but is not limited to, various personal computers, notebook computers, smart phones, tablet computers, and portable wearable devices.
  • the server 104 may be implemented as an independent server or a server cluster composed of multiple servers.
  • a method for generating a user portrait is provided. Taking the method applied to the server in FIG. 1 as an example for description, the method includes the following steps:
  • Step S100 Obtain the APP data information of the user to be analyzed carried in the portrait analysis request, and read the characteristic data of each APP and the usage frequency data of each APP in the APP data information.
  • the user to be analyzed refers to the data analysis object based on the user's existing data information, such as APP data information generated when the user uses a mobile phone and other devices, through the existing data information to obtain a characteristic label that characterizes the user.
  • APP data information may refer to data generated when a user installs or uses an application on a mobile device, and APP data information includes which APPs are installed by the user and the usage of each APP.
  • the APP data information includes behavior log data; reading the characteristic data of each APP in the APP data information and the usage frequency data of each APP includes: obtaining the operation data generated when the user uses the APP from the behavior log data, One or more log records of data type change information, data storage location, and type are obtained to obtain characteristic data of each APP; APP trigger record data is obtained from the behavior log data to obtain usage frequency data of each APP.
  • the characteristic data of the APP includes the operation data generated by the user when using the APP, data type changes, data storage location and type, etc.
  • the characteristic data can be one or a combination of multiple items.
  • “Meituxiuxiu” and “Everyday Ptu” are installed on the user's mobile device.
  • the feature data of "Meituxiuxiu” and “Everyday Ptu” can include "open camera”, “open “Gallery/Album”, “Picture Editing” and “Picture Storage” etc.
  • Use frequency data means that the user triggers the APP and generates the record data that triggers the record.
  • the user uses the APP once, and the APP data information generates the use record data. The more the user triggers the APP, the more the corresponding use record data appears, that is, the use frequency high.
  • Step S200 construct an APP feature data set including each feature data, traverse the APP feature data set, and obtain co-occurrence data of the feature data of each APP in the APP feature data set.
  • the APP feature data set refers to a database composed of the feature data of all APPs installed by the user.
  • the server reads the feature data of each APP in the APP data information, the data set is composed of the feature data of each APP.
  • the co-occurrence data of feature data in different apps refers to the number of times that apps with the same feature data appear in all apps installed by the user. For example, the user has installed the “Meitu Xiuxiu” and “Tiantian Ptu” apps. If the feature data of each APP is the same, the co-occurrence data of the feature data is 2. The larger the value corresponding to the co-occurrence data, the more users use the same type of APP.
  • Step S400 Obtain the associated database of the APP and the label information, search the associated database for the label information corresponding to each APP in the APP data information, and add the co-occurrence data and use frequency data of each APP to the label information corresponding to the APP. Get the updated label.
  • the association database of APP and tag information refers to a database that obtains representative association relationships between feature tags and APP through feature analysis of a large number of sample data in advance.
  • the applications installed or used on the mobile terminals used by various users have certain commonalities.
  • female users generally install or use "Meiyou” and other related apps that record menstrual period data; they are pregnant or parenting Users at this stage generally install or use APPs such as "Beibei", Baby Tree, and “Nurturing Butler”; users who like selfies generally install or use APPs such as "Meitu Xiuxiu” and “Daily Ptu”; they like to play games Of users generally install various game APPs, and analyze the APP data information of sample users with the same habit characteristics to obtain the association relationship between each APP and tag information, thereby constructing an associated database of APP and tag information. Obtain the associated database of the APP and the label information, and search for the label information corresponding to each APP in the APP data information from the associated database.
  • Each label information in the associated database is the initial label information and contains the characteristic information of the user.
  • the app’s co-occurrence data and usage frequency data are added to the tag information to obtain an updated tag carrying the co-occurrence data and usage frequency data.
  • the co-occurrence data and usage frequency data can be converted into specific gravity data to update the tag It can characterize the degree of reuse of each initial tag information for describing user characteristics.
  • Step S500 Perform deduplication processing on each update tag according to the co-occurrence data and usage frequency data in each update tag, and generate a user portrait of the user to be analyzed based on the deduplication processed tag.
  • User portraits are virtual representatives of real users. First of all, it is based on the real. It is not a specific person. It is divided into different types according to the differences in the behavior and viewpoints of the target. They are quickly organized together, and then the new types are extracted. , Forming a type of user portrait.
  • tags with co-occurrence data and usage frequency data user portraits describing user characteristics can be formed according to the co-occurrence data, usage frequency data and tag content of the tag information.
  • the proportion data corresponding to the co-occurrence data and usage frequency data is Larger, the greater the impact on describing user characteristics.
  • the above-mentioned user portrait generation method is based on the APP data information of the user to be analyzed carried in the portrait analysis request, reads the characteristic data of each APP in the APP data information and the use frequency data of each APP, and constructs an APP characteristic data set including each characteristic data. Traverse the APP feature data set, obtain the co-occurrence data of the feature data of each APP in the APP feature data set, obtain the associated database of APP and tag information, and search for the tag information corresponding to each APP in the APP data information from the associated database. It is better to use tags to characterize the preference characteristics of users using applications.
  • the corresponding tag information can be obtained according to the APP data information of the users to be analyzed, and through sharing The current data analysis, and the co-occurrence data and usage frequency data of each APP are added to the label information, the updated label is obtained, the characteristic information of the user is more accurately characterized, the user portrait of the user to be analyzed is obtained, and the accuracy of the generated user portrait is improved degree.
  • step S400 adding the co-occurrence data and usage frequency data of each APP to the label information, and obtaining the updated label includes:
  • Step S420 Calculate a weighting parameter corresponding to the feature data according to the co-occurrence data of the feature data and the number of APPs in the APP feature data set.
  • Step S440 Perform weighting calculation on the usage frequency data of the APP according to the weighting parameters corresponding to the characteristic data of the APP to obtain the proportion data of the APP.
  • step S460 the specific gravity data is added to the label information to obtain an updated label.
  • the APPs that include feature data A are A1, A2, A3, then the co-occurrence data of feature data A is 3.
  • the feature data of the user’s APP also includes B, C, D, feature data A,
  • the co-occurrence data corresponding to B, C, and D are 3, 4, 1, 2, respectively, and the corresponding proportions of characteristic data A, B, C, and D are 0.3, 0.4, 0.1, and 0.2.
  • the cumulative frequency of use of all APPs is 1000, of which the frequency of use of A1 is 20, the frequency of use of A2 is 30, the frequency of use of A3 is 50, and A1, A2, and A3 account for the total frequency of use.
  • the ratios are 0.02, 0.03, and 0.05, which can be obtained by calculation.
  • the weight data corresponding to A1, A2, and A3 are 0.06, 0.09, and 0.15.
  • step S400 the associated database of APP and tag information is obtained, the tag information corresponding to each APP in the APP data information is searched from the associated database, and the co-occurrence data of each APP Add the label information corresponding to the usage frequency data to the APP.
  • the updated label it also includes:
  • Step S320 Obtain label information carried by the sample user, classify the sample user according to the label information, and obtain multiple user classification sets.
  • Step S340 Obtain APP data information corresponding to each sample user in the user classification set, determine the common APP of each sample user according to the APP data information, and establish an association relationship between the common APP and tag information.
  • Step S360 According to the association relationship, the tag information and the common APP are updated to the initial database to obtain an association database of APP and tag information.
  • Sample users refer to users who have clarified user identity information and corresponding APP data information. They are used to analyze through many sample users to obtain relevant rules for the characteristics of each application corresponding to the user population, so as to realize the analysis of APP data information to obtain users portrait.
  • the label information of the sample refers to information with common characteristics of the group, such as gender, age, education, industry, etc., extracted through user identity information.
  • Classification processing refers to the process of classifying sample users carrying the same sample label into a classification set. Each sample user in the same classification set has the same sample label information, and each sample user has a certain similarity.
  • the installation and usage data of the same kind of apps can reflect the characteristics of users' habits.
  • the sample label information of the user classification set is "student”
  • the corresponding APP data information may include the installed or used APPs such as "Homework Help”, “Little Monkey Search Questions”, “Xue Bajun”, “Photo Search Questions” etc.
  • obtaining the label information carried by the sample user includes: obtaining basic user information of the sample user; extracting user characteristic data according to the basic user information, and marking the user characteristic data as the label information of the sample user.
  • the process of obtaining the label information of the sample user may include: extracting user characteristic data according to the basic user information of the sample user, and marking the extracted user characteristic data as the label information of the sample user.
  • the user's basic information can include various information that the user has, such as the user's basic attributes (age, gender, region, constellation, etc.), social characteristics (family structure, marital status, etc.), and interest characteristics (interests, hobbies, interactive content) Etc.) and other behaviors, consumption and purchasing power characteristics required by different occasions.
  • User characteristic data may include information with common characteristics of the group extracted from basic user information, including gender, age stage, educational background, type of work, marriage, and children's status.
  • Label information refers to data simplified through feature data. For example, the label information of a sample user can include "male", “master degree”, “has a car”, “married”, “has children", “ Play games” etc.
  • classifying the sample users according to the label information to obtain multiple user classification sets includes: generating multiple label groups according to the label information carried by the sample users, the label groups containing a single label or multiple similar labels or multiple labels. Based on the label information contained in the label group and the label information of each sample user, a sample user corresponding to each label group is obtained, and a plurality of user classification sets are obtained according to the sample users corresponding to each label group.
  • the process of classifying sample users can include: obtaining the label information carried by the sample users, generating multiple label groups, which can contain a single label or multiple labels of the same type, or a collection of multiple labels of different types. Based on the label information contained in the group, by traversing the label information of each sample user, the sample user corresponding to each label group is obtained, thereby obtaining multiple classification sets.
  • the tag group can be "female", or a combination of multiple similar tags such as "mother” and "pregnant woman", or “play game”, "programmer”, "20-30 years old” A combination of multiple different types of labels.
  • step S100 acquiring the APP data information of the user to be analyzed carried in the profile analysis request, and reading the characteristic data of each APP in the APP data information and the use frequency data of each APP include :
  • Step S110 Obtain APP data information of the user to be analyzed carried in the portrait analysis request.
  • Step S120 Read the usage frequency data in the APP data information, sort the APPs according to the numerical value of the usage frequency data, and generate an APP list.
  • Step S130 Screen each APP whose usage frequency data in the APP data information does not meet the preset usage frequency requirement, and update the APP list according to the screening result.
  • Step S140 Read the characteristic data of each APP and the usage frequency data of each APP in the updated APP list.
  • the APP list refers to the results obtained by counting and sorting APPs.
  • the APP data information includes the data of each use record of each APP. According to the statistics, the use frequency data of each APP is obtained, and each APP is calculated according to the numerical value of the use frequency data. Sorting and generating the APP list specifically includes: directly sorting the APPs according to the numerical value in descending order, or sorting the APPs containing the same type of characteristic data according to the characteristic data.
  • Each APP whose usage frequency data does not meet the preset usage frequency requirements refers to the data cleaning process to remove the interfering data in the data. For example, the data that fails to open the APP due to the APP crash and the user clicks to enter the APP but does not perform any operation. Turn off the data in the background and other situations. This kind of data does not have actual evaluation significance for the user's feature evaluation. Through the screening and data cleaning of the APP, the update of the APP list can increase the accuracy of the data.
  • step S140 after reading the feature data of each APP in the updated APP list and the usage frequency data of each APP, further includes: constructing the feature data containing the same features according to the feature data of each APP in the updated APP list A collection of similar apps for data.
  • Adding the co-occurrence data and usage frequency data of each APP to the label information, and obtaining the updated label includes: according to the co-occurrence data, the first sorting and screening process of the collection of similar apps. According to the filtered usage frequency data of each APP in the similar APP set, the APPs in the similar APP set are sorted twice, and the apps whose usage frequency data is greater than the preset threshold range are filtered out. According to the screening results of various similar APP collections, a target APP collection is constructed. The co-occurrence data and usage frequency data of the feature data corresponding to each target APP in the target APP set are added to the tag information corresponding to the target APP, and the update tag corresponding to each target APP is obtained.
  • Apps that contain the same feature data have higher similarity and can represent the same user features. According to the updated APP list after data cleaning, and based on the feature data of the APP, a collection of similar apps is constructed, and the apps with high similarity are classified into the same category.
  • step S500 generating a user portrait of the user to be analyzed according to tag information carrying weighted data includes:
  • Step S520 According to the number of update tags, weight proportional distribution is performed on each update tag, and tag deduplication processing is performed on update tags with the same tag content.
  • Step S540 according to the weight ratio distribution result, update the proportion data of the updated label after the label de-duplication processing to obtain the second updated label.
  • step S560 a user portrait of the user to be analyzed is generated according to the second update tag.
  • Weight proportional distribution refers to the process of proportional distribution according to the number of effective apps in the user’s mobile device after filtering. If the number of effective apps in the user’s mobile device is 20, the weight ratio corresponding to each APP is 1/ 20.
  • Tag deduplication refers to the process of removing the same tags.
  • the update of specific gravity data is the process of superimposing weight data according to the number of repeated tags and their corresponding weight ratios. For example, APPs with the tag information "game" include Five, the proportion data corresponding to the label information is the data superimposed after the fusion of the proportion data corresponding to the five APPs and the weight proportion allocation result, thereby updating the proportion data of the label information after the label deduplication processing to obtain the second update label.
  • a device for generating a user portrait including:
  • the data reading module 100 is used to obtain the APP data information of the user to be analyzed carried in the portrait analysis request, and read the characteristic data of each APP and the usage frequency data of each APP in the APP data information.
  • the co-occurrence data obtaining module 200 is used to construct an APP feature data set including each feature data, traverse the APP feature data set, and obtain the co-occurrence data of the feature data of each APP in the APP feature data set.
  • the label update module 300 is used to obtain the associated database of the APP and the label information, find the label information corresponding to each APP in the APP data information from the associated database, and add the co-occurrence data and use frequency data of each APP to the corresponding APP Label information, get the updated label.
  • the user portrait generation module 400 is configured to perform deduplication processing on each update tag according to the co-occurrence data and usage frequency data in each update tag, and generate a user portrait of the user to be analyzed based on the deduplication processed tag.
  • the label update module 300 includes:
  • the weighting parameter calculation unit calculates the weighting parameter corresponding to the feature data according to the co-occurrence data of the feature data and the number of APPs in the APP feature data set.
  • the specific gravity data calculation unit is used to perform weighting calculation on the usage frequency data of the APP according to the weighting parameters corresponding to the characteristic data of the APP to obtain the specific gravity data of the APP.
  • the label update unit is used to add the specific gravity data to the label information to obtain the updated label.
  • the APP data information includes behavior log data; the data reading module 100 is also used to obtain operation data, data type change information, data storage location and type information generated when the user uses the APP from the behavior log data One or more of the log records to obtain the characteristic data of each APP; the APP trigger record data is obtained from the behavior log data to obtain the usage frequency data of each APP.
  • the user portrait generation device further includes an associated database construction module, which is used to obtain label information carried by the sample users, classify the sample users according to the label information, obtain multiple user classification sets, and obtain each user classification set.
  • the associated database with label information is used to obtain label information carried by the sample users, classify the sample users according to the label information, obtain multiple user classification sets, and obtain each user classification set.
  • the APP data information corresponding to the sample users according to the APP data information, determine the common APP of each sample user, and establish the association relationship between the common APP and the label information, and update the label information and the common APP to the initial database according to the association relationship to obtain the APP
  • the associated database with label information is used to obtain label information carried by the sample users,
  • the associated database construction module is also used to obtain basic user information of the sample user; extract user characteristic data according to the basic user information; and mark the user characteristic data as the label information of the sample user.
  • the associative database construction module is also used to generate multiple label groups according to the label information carried by the sample user, the label group contains a single label or a set of multiple labels of the same type or multiple different types of labels;
  • the label information contained in the label group and the label information of each sample user are obtained to obtain sample users corresponding to each label group; according to the sample users corresponding to each label group, multiple user classification sets are obtained.
  • the data reading module 100 is also used to obtain the APP data information of the user to be analyzed carried in the profile analysis request, read the usage frequency data in the APP data information, and compare the data to each user according to the value of the usage frequency data.
  • the APP is sorted, the APP list is generated, and the APPs whose use frequency data in the APP data information does not meet the preset use frequency requirements are filtered, and the APP list is updated according to the filtering results, and the characteristic data and characteristics of each APP in the updated APP list are read.
  • the usage frequency data of each APP is also used to obtain the APP data information of the user to be analyzed carried in the profile analysis request, read the usage frequency data in the APP data information, and compare the data to each user according to the value of the usage frequency data.
  • the APP is sorted, the APP list is generated, and the APPs whose use frequency data in the APP data information does not meet the preset use frequency requirements are filtered, and the APP list is updated according to the
  • the data reading module 100 is also used to construct a collection of similar APPs containing the same characteristic data according to the characteristic data of each APP in the updated APP list;
  • the label updating module 300 is also used to construct a collection of similar APPs according to the co-occurrence data , Perform the first sorting and filtering process on the collection of similar apps, sort the apps in the collection of similar apps a second time according to the usage frequency data of each APP in the collection of similar apps after screening, and filter out the usage frequency data is greater than the preset threshold range
  • the screening results of each similar APP set build a target APP set, add the co-occurrence data and usage frequency data of the characteristic data corresponding to each target APP in the target APP set to the corresponding label information of the target APP, and obtain the corresponding label information with each target APP The corresponding update label.
  • the user portrait generation module 400 is further configured to perform weight proportional distribution on each updated label according to the number of updated labels, and perform label deduplication processing on the updated labels with the same label content, and allocate according to the weight ratio
  • the specific gravity data is updated on the updated tags after the tag deduplication process to obtain the secondary updated tags, and the users of the users to be analyzed are generated according to the secondary updated tags.
  • the above-mentioned user portrait generation device reads the characteristic data of each APP and the usage frequency data of each APP in the APP data information based on the APP data information of the user to be analyzed carried in the portrait analysis request, and constructs an APP characteristic data set including each characteristic data, Traverse the APP feature data set, obtain the co-occurrence data of the feature data of each APP in the APP feature data set, obtain the associated database of APP and tag information, and search for the tag information corresponding to each APP in the APP data information from the associated database. It is better to use tags to characterize the preference characteristics of users using applications.
  • the corresponding tag information can be obtained according to the APP data information of the users to be analyzed, and through sharing The current data analysis, and the co-occurrence data and usage frequency data of each APP are added to the label information, the updated label is obtained, the characteristic information of the user is more accurately characterized, the user portrait of the user to be analyzed is obtained, and the accuracy of the generated user portrait is improved degree.
  • Each module in the above-mentioned user portrait generating device can be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above-mentioned modules may be embedded in the form of hardware or independent of the processor in the computer equipment, or may be stored in the memory of the computer equipment in the form of software, so that the processor can call and execute the corresponding operations of the above-mentioned modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 8.
  • the computer equipment includes a processor, a memory, a network interface and a database connected through a system bus. Among them, the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile or volatile storage medium and internal memory.
  • the non-volatile or volatile storage medium stores an operating system, computer readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the database of the computer equipment is used to store user portrait data.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instruction is executed by the processor to realize a method for generating a user portrait.
  • FIG. 8 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or less parts than shown in the figure, or combining some parts, or having a different part arrangement.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer readable instructions.
  • the one or more processors execute the following steps:
  • deduplication processing is performed on each update tag, and based on the deduplication processed tags, a user portrait of the user to be analyzed is generated.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • weighting parameters corresponding to the characteristic data of the APP perform weighting calculation on the use frequency data of the APP to obtain the proportion data of the APP;
  • the APP data information includes behavior log data; the processor further implements the following steps when executing the computer-readable instructions:
  • APP trigger record data from the behavior log data, and obtain the usage frequency data of each APP.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the tag information and the common APP are updated to the initial database, and the association database of APP and tag information is obtained.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the user characteristic data is marked as the label information of the sample user.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the label group contains a single label or multiple labels of the same type or a collection of multiple labels of different types
  • the sample user corresponding to each label group is obtained.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the co-occurrence data and usage frequency data of the feature data corresponding to each target APP in the target APP set are added to the tag information corresponding to the target APP, and the update tag corresponding to each target APP is obtained.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • a user portrait of the user to be analyzed is generated.
  • One or more computer-readable storage media storing computer-readable instructions.
  • the one or more processors execute the following steps:
  • deduplication processing is performed on each update tag, and based on the deduplication processed tags, a user portrait of the user to be analyzed is generated.
  • the computer-readable storage medium may be non-volatile or volatile.
  • weighting parameters corresponding to the characteristic data of the APP perform weighting calculation on the use frequency data of the APP to obtain the proportion data of the APP;
  • the APP data information includes behavior log data; when the computer-readable instructions are executed by the processor, the following steps are also implemented:
  • APP trigger record data from the behavior log data, and obtain the usage frequency data of each APP.
  • the tag information and the common APP are updated to the initial database, and the association database of APP and tag information is obtained.
  • the user characteristic data is marked as the label information of the sample user.
  • the label group contains a single label or multiple labels of the same type or a collection of multiple labels of different types
  • the sample user corresponding to each label group is obtained.
  • the co-occurrence data and usage frequency data of the feature data corresponding to each target APP in the target APP set are added to the tag information corresponding to the target APP, and the update tag corresponding to each target APP is obtained.
  • a user portrait of the user to be analyzed is generated.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • SLDRAM synchronous chain Channel
  • memory bus Radbus direct RAM
  • RDRAM direct memory bus dynamic RAM
  • RDRAM memory bus dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用户画像生成方法,涉及大数据技术领域,包括:获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据(S100),构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据(S200),获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签(S400),根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像(S500)。

Description

用户画像生成方法、装置、计算机设备和计算机可读存储介质
相关申请的交叉引用
本申请要求于2019年8月14日提交中国专利局,申请号为2019107479147,申请名称为“用户画像生成方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及本申请涉及大数据技术领域,特别是涉及一种用户画像生成方法、装置、计算机设备和计算机可读存储介质。
背景技术
随着信息技术的发展,出现了用户画像分析技术,用户画像是客观、准确地描述目标用户的工具和方法。在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。
在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色具有代表性,用户画像是真实用户的虚拟代表,是根据目标的行为观点的差异区分为不同类型,迅速组织在一起,然后把新得出的类型提炼出来,形成一个类型的用户画像。
然而,发明人意识到,大部分用户画像的生成方法采用关键词提取方法来生成用户标签,在针对仅有较少的用户数据的情况下,尤其在通过用户的APP(Application,应用程序)数据进行画像分析时,采用关键字提取的方法进行用户画像分析,存在生成用户画像的精确度较低的问题。
发明内容
根据本申请公开的各种实施例,提供一种用户画像生成方法、装置、计算机设备和计算机可读存储介质。
一种用户画像生成方法,方法包括:
获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
获取APP与标签信息的关联数据库,获取从关联数据库中查找APP数据信息中的各 APP对应的标签信息,并将APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
一种用户画像生成装置,装置包括:
数据读取模块,用于获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
共现数据获得模块,用于构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
标签更新模块,用于获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
用户画像生成模块,用于根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去 重处理后的标签,生成待分析用户的用户画像。
上述用户画像生成方法、装置、计算机设备和计算机可读存储介质,基于画像分析请求携带的待分析用户的APP数据信息,读取APP数据信息中各APP的特征数据以及各APP的使用频次数据,构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据,获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,可以更好的通过标签来表征用户使用应用的偏好特性,即使待分析用户的APP数量较少的情况下,也可以根据待分析用户的APP数据信息,获取到相对应的标签信息,并且,通过共现数据分析,并将各APP的共现数据和使用频次数据添加至标签信息,得到更新标签,更精准地表征用户的特征信息,得到待分析用户的用户画像,提高了生成的用户画像的精确度。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中用户画像生成方法的应用场景图;
图2为根据一个或多个实施例中用户画像生成方法的流程示意图;
图3为另一个实施例中用户画像生成方法的流程示意图;
图4为又一个实施例中用户画像生成方法的流程示意图;
图5为再一个实施例中用户画像生成方法的流程示意图;
图6为还一个实施例中用户画像生成方法的流程示意图;
图7为根据一个或多个实施例中用户画像生成装置的框图;
图8为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户画像生成方法,可以应用于如图1所示的应用环境中。终端102与服务器104通过网络进行通信。服务器104获取终端102发送的画像分析请求中携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据,构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据,获取APP与标签信息的关联数据库, 从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至该APP对应标签信息,得到更新标签,根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像,并将用户画像推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,如图2所示,提供了一种用户画像生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S100,获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据。
待分析用户是指根据用户的已有数据信息,例如用户在使用手机等设备时产生的APP数据信息,通过已有数据信息进行分析,获得表征用户特性的特征标签的数据分析对象。其中,APP数据信息可以是指用户在移动设备上安装或使用应用程序时生成的数据,APP数据信息包括用户安装有哪些APP,以及每个APP的使用情况。
在其中一个实施例中,APP数据信息包括行为日志数据;读取APP数据信息中各APP的特征数据以及各APP的使用频次数据包括:从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录,得到各APP的特征数据;从行为日志数据中获取APP触发记录数据,得到各APP的使用频次数据。
APP的特征数据包括用户在使用APP时产生的操作数据,数据类型变化,数据存储位置与类型等,特征数据可以是其中的一项或是多项的组合,通过获取用户的行为日志数据,可以得到特征数据。举例来说,用户的移动设备上安装有“美图秀秀”和“天天P图”,其中,“美图秀秀”和“天天P图”的特征数据可以包括“打开相机”、“打开图库/相册”、“图片编辑”以及“图片存储”等。使用频次数据是指用户触发APP,并产生触发记录的记录数据,用户使用一次APP,APP数据信息即生成一次使用记录数据,用户触发APP的次数越多,对应出现的使用记录数据即使用频次越高。
步骤S200,构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据。
APP特征数据集是指用户安装的所有APP的特征数据构成的数据库,服务器在读取APP数据信息中各APP的特征数据时,由各APP的特征数据构成的数据集。
特征数据在不同APP中的共现数据是指在用户安装的所有APP中,出现具有相同特征数据的APP次数,例如,用户安装有“美图秀秀”和“天天P图”APP,这两个APP的特征数据相同,则该特征数据的共现数据为2。共现数据对应的数值越大,说明用户使用同一类APP的次数越多。
步骤S400,获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息 中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至该APP对应的标签信息,得到更新标签。
APP与标签信息的关联数据库是指预先通过大量的样本数据的特征分析,得到具有代表性的特征标签与APP之间的关联关系的数据库。一般来说,各用户使用的移动终端上安装或使用的应用程序,会存在一定的共性,例如,女性用户一般会安装或使用“美柚”等记录生理期数据的相关APP;处于怀孕或育儿阶段的用户一般会安装或使用“贝贝”、宝宝树、“孕育管家”等APP;喜欢自拍的用户一般会安装或使用“美图秀秀”、“天天P图”等APP;喜欢玩游戏的用户一般会安装各类游戏APP,通过对具有相同的习惯特征的样本用户进行APP数据信息分析,得到各APP与标签信息的关联关系,从而构建得到APP与标签信息的关联数据库。获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各到各个APP对应的标签信息,关联数据库中的各标签信息为初始标签信息,包含用户的特征信息,通过将将各APP的共现数据和使用频次数据添加至标签信息,得到携带有共现数据和使用频次数据的更新标签,在实施例中,共现数据和使用频次数据可以转换为比重数据,以使更新标签可以表征各初始标签信息对于描述用户特征的重用程度。
步骤S500,根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
用户画像是真实用户的虚拟代表,首先它是基于真实的,它不是一个具体的人,是根据目标的行为观点的差异区分为不同类型,迅速组织在一起,然后把新得出的类型提炼出来,形成一个类型的用户画像。通过共现数据和使用频次数据的更新标签,可以根据标签信息的共现数据和使用频次数据以及标签内容,形成用于描述用户特征的用户画像,共现数据和使用频次数据对应的比重数据越大,对于描述用户特性的影响越大。
上述用户画像生成方法,基于画像分析请求携带的待分析用户的APP数据信息,读取APP数据信息中各APP的特征数据以及各APP的使用频次数据,构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据,获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,可以更好的通过标签来表征用户使用应用的偏好特性,即使待分析用户的APP数量较少的情况下,也可以根据待分析用户的APP数据信息,获取到相对应的标签信息,并且,通过共现数据分析,并将各APP的共现数据和使用频次数据添加至标签信息,得到更新标签,更精准地表征用户的特征信息,得到待分析用户的用户画像,提高了生成的用户画像的精确度。
在其中一个实施例中,如图3所示,步骤S400,将各APP的共现数据和使用频次数据添加至标签信息,得到更新标签包括:
步骤S420,根据特征数据的共现数据和APP特征数据集的APP数量,计算特征数据对应的加权参数。
步骤S440,根据APP的特征数据对应的加权参数,对APP的使用频次数据进行加权计算,获得APP的比重数据。
步骤S460,将比重数据添加至标签信息,得到更新标签。
以特征数据A为例,包括特征数据A的APP为A1,A2,A3,则特征数据A的共现数据为3,该用户的APP的特征数据还包括B、C、D,特征数据A、B、C、D对应的共现数据分别为3、4、1、2,特征数据A、B、C、D对应的占比为0.3、0.4、0.1、0.2。从APP数据信息中得,所有APP的使用频次累计为1000,其中A1的使用频次为20,A2的使用频次为30,A3的使用频次为50,A1、A2以及A3分别占总的使用频次的比例为0.02、0.03、0.05,可通过计算得到,A1、A2以及A3对应的权重数据为0.06、0.09、0.15。
在其中一个实施例中,如图4所示,步骤S400,获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签之前,还包括:
步骤S320,获取样本用户携带的标签信息,根据标签信息对样本用户进行分类,获得多个用户分类集合。
步骤S340,获取用户分类集合中各样本用户对应的APP数据信息,根据APP数据信息,确定各样本用户的共性APP,并建立共性APP与标签信息的关联关系。
步骤S360,根据关联关系,将标签信息和共性APP更新至初始数据库中,得到APP与标签信息的关联数据库。
样本用户是指已经明确用户身份信息和对应的APP数据信息的用户,用于通过众多样本用户进行分析,获得各应用对应使用人群特征的相关规则,从而实现通过对APP数据信息的分析来获得用户画像。样本的标签信息是指通过用户身份信息进行提取的具有群体共性特征的信息,例如性别、年龄段、学历、行业等。分类处理是指将携带有相同的样本标签的样本用户归为一个分类集合的过程,同一个分类集合中的各个样本用户具有相同的样本标签信息,各样本用户具有一定的相似性。如处于怀孕或育儿阶段的用户一般会安装或使用“贝贝”、“宝宝树”、“孕育管家”等APP;喜欢自拍的用户一般会安装或使用“美图秀秀”、“天天P图”等APP,同一类的APP的安装和使用数据,可以反映用户的习惯特征。如,用户分类集合的样本标签信息为“学生”,对应的APP数据信息可能包括安装或使用过“作业帮”、“小猿搜题”、“学霸君”、“拍照搜题”等APP,通过将该写APP标记为共性APP,从而建立“学生”这一标签信息与上述学生相关的共性APP的关联关系,并将标签信息和共性APP更新至初始数据库中,得到APP与标签信息的关联数据库。
在其中一个实施例中,获取样本用户携带的标签信息包括:获取样本用户的用户基本信息;根据用户基本信息,提取用户特征数据,将用户特征数据标注为样本用户的标签信息。
具体来说,样本用户的标签信息的获得过程可以包括:根据样本用户的用户基本信息,提取用户特征数据,将提取的用户特征数据标注为样本用户的标签信息。其中,用户基本 信息可以包括用户已有的各项信息,比如用户的基本属性(年龄、性别、地域、星座等)、社会特征(家庭结构、婚姻状况等)、兴趣特征(兴趣爱好、互动内容等)以及根据不同场合需要的其它行为、消费以及购买力特征等。用户特征数据可以包括从用户基本信息中提取出来的具有群体共性特征的信息,包括性别、年龄阶段、学历、工作类型、婚姻以及子女状况等。标签信息是指通过对特征数据进行简化后的数据,例如,其中一个样本用户的标签信息可以包括“男”、“硕士学历”、“有车”、“已婚”、“有孩子”、“玩游戏”等。
在其中一个实施例中,根据标签信息对样本用户进行分类,获得多个用户分类集合包括:根据样本用户携带的标签信息,生成多个标签组,标签组包含单个标签或多个同类标签或多个不同类标签构成的集合,基于标签组中包含的标签信息和各样本用户的标签信息,得到各标签组对应的样本用户,根据各标签组对应的样本用户,得到多个用户分类集合。
对样本用户进行分类的过程可以包括:获取样本用户携带的标签信息,生成多个标签组,标签组可以包含单个标签或多个同类标签,也可以包含多个不同类标签构成的集合,以标签组中包含的标签信息为依据,通过遍历各样本用户的标签信息,获取各标签组对应的样本用户,从而得到多个分类集合。举例来说,标签组可以是“女”,也可以是“妈妈”、“孕妇”等多个同类标签构成的组合,还可以是“玩游戏”、“程序员”、“20-30岁”等多个不同类标签构成的组合。
在其中一个实施例中,如图5所示,步骤S100,获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据包括:
步骤S110,获取画像分析请求携带的待分析用户的APP数据信息。
步骤S120,读取APP数据信息中的使用频次数据,根据使用频次数据的数值大小对各APP进行排序,生成APP列表。
步骤S130,对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新APP列表。
步骤S140,读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
APP列表是指通过对APP进行统计和排序得到的结果,APP数据信息中包括每一个APP的每一次使用记录数据,根据统计得到各个APP的使用频次数据,根据使用频次数据的数值大小对各APP进行排序,生成APP列表,具体包括:根据数值从大到小的顺序直接对各APP进行排序,也可以根据特征数据,对包含同一类特征数据的APP进行排序。使用频次数据不满足预设使用频次要求的各APP是指去除数据中的干扰数据的数据清洗过程,例如APP闪退等原因造成APP打开失败的数据,用户点击进入APP但并未执行任何操作即关闭后台等情况的数据等,这类数据对于用户的特征评价并不存在实际的评价意义,通过对APP的筛选和数据清洗,更新APP列表,可以增加数据的准确性。
在其中一个实施例中,步骤S140,读取更新的APP列表中各APP的特征数据和各 APP的使用频次数据之后,还包括:根据更新的APP列表中各APP的特征数据,构建包含相同特征数据的同类APP集合。
将各APP的共现数据和使用频次数据添加至标签信息,得到更新标签包括:根据共现数据,对同类APP集合进行初次排序和筛选处理。根据筛选后的同类APP集合中各APP的使用频次数据,对同类APP集合中的各APP进行二次排序,并筛选出使用频次数据大于预设阈值范围的APP。根据各同类APP集合的筛选结果,构建目标APP集合。将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息,获得与各目标APP对应的更新标签。
包含相同特征数据的APP相似度较高,可以表征同样的用户特征,根据进行数据清洗后更新的APP列表,根据APP的特征数据,构建同类APP集合,将相似度高的APP归为同一类,对各类APP集合进行共现数据统计,对APP集合进行初次排序,通过筛选处理确定用户对各类APP的偏好程度,进而对同类APP中的各个APP进行二次排序,根据两次排序的结果,明确用户对APP类别的喜好以及各类别中不同APP的喜好程度,从而构建得到目标APP集合,将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至标签信息,获得与各目标APP对应的更新标签。
在其中一个实施例中,如图6所示,步骤S500,根据携带有权重数据的标签信息,生成待分析用户的用户画像包括:
步骤S520,根据更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的更新标签进行标签去重处理。
步骤S540,根据权重比例分配结果,对经过标签去重处理后的更新标签进行比重数据更新,得到二次更新标签。
步骤S560,根据二次更新标签,生成待分析用户的用户画像。
权重比例分配是指按照用户移动设备中的经过筛选处理后的有效APP数量,进行比例分配的过程,如用户的移动设备中的有效APP数量为20,则每一个APP对应的权重比例为1/20。标签去重是指对相同的标签进行去除的过程,比重数据更新是根据重复的标签数量及其对应的权重比例,进行权重数据的叠加处理的过程,例如,标签信息为“游戏”的APP包括5个,标签信息对应的比重数据为五个APP对应比重数据与权重比例分配结果融合后的数据叠加,从而对经过标签去重处理后的标签信息进行比重数据更新,得到二次更新标签。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或其它步骤的子步骤或阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图7所示,提供了一种用户画像生成装置,包括:
数据读取模块100,用于获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据。
共现数据获得模块200,用于构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据。
标签更新模块300,用于获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签。
用户画像生成模块400,用于根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
在其中一个实施例中,标签更新模块300,包括:
加权参数计算单元,根据特征数据的共现数据和APP特征数据集的APP数量,计算特征数据对应的加权参数。
比重数据计算单元,用于根据APP的特征数据对应的加权参数,对APP的使用频次数据进行加权计算,获得APP的比重数据。
标签更新单元,用于将比重数据添加至标签信息,得到更新标签。
在其中一个实施例中,APP数据信息包括行为日志数据;数据读取模块100,还用于从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录,得到各APP的特征数据;从行为日志数据中获取APP触发记录数据,得到各APP的使用频次数据。
在其中一个实施例中,用户画像生成装置还包括关联数据库构建模块,用于获取样本用户携带的标签信息,根据标签信息对样本用户进行分类,获得多个用户分类集合,获取用户分类集合中各样本用户对应的APP数据信息,根据APP数据信息,确定各样本用户的共性APP,并建立共性APP与标签信息的关联关系,根据关联关系,将标签信息和共性APP更新至初始数据库中,得到APP与标签信息的关联数据库。
在其中一个实施例中,关联数据库构建模块,还用于获取样本用户的用户基本信息;根据用户基本信息,提取用户特征数据;将用户特征数据标注为样本用户的标签信息。
在其中一个实施例中,关联数据库构建模块,还用于根据样本用户携带的标签信息,生成多个标签组,标签组包含单个标签或多个同类标签或多个不同类标签构成的集合;基于标签组中包含的标签信息和各样本用户的标签信息,得到各标签组对应的样本用户;根据各标签组对应的样本用户,得到多个用户分类集合。
在其中一个实施例中,数据读取模块100,还用于获取画像分析请求携带的待分析用户的APP数据信息,读取APP数据信息中的使用频次数据,根据使用频次数据的数值大小对各APP进行排序,生成APP列表,对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新APP列表,读取更新的APP列表中各 APP的特征数据和各APP的使用频次数据。
在其中一个实施例中,数据读取模块100,还用于根据更新的APP列表中各APP的特征数据,构建包含相同特征数据的同类APP集合;标签更新模块300,还用于根据共现数据,对同类APP集合进行初次排序筛选处理,根据筛选后的同类APP集合中各APP的使用频次数据,对同类APP集合中的各APP进行二次排序,并筛选出使用频次数据大于预设阈值范围的APP,根据各同类APP集合的筛选结果,构建目标APP集合,将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息,获得与各目标APP对应的更新标签。
在其中一个实施例中,用户画像生成模块400,还用于根据更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的更新标签进行标签去重处理,根据权重比例分配结果,对经过标签去重处理后的更新标签进行比重数据更新,得到二次更新标签,根据二次更新标签,生成待分析用户的用户。
上述用户画像生成装置,基于画像分析请求携带的待分析用户的APP数据信息,读取APP数据信息中各APP的特征数据以及各APP的使用频次数据,构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据,获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,可以更好的通过标签来表征用户使用应用的偏好特性,即使待分析用户的APP数量较少的情况下,也可以根据待分析用户的APP数据信息,获取到相对应的标签信息,并且,通过共现数据分析,并将各APP的共现数据和使用频次数据添加至标签信息,得到更新标签,更精准地表征用户的特征信息,得到待分析用户的用户画像,提高了生成的用户画像的精确度。
关于用户画像生成装置的具体限定可以参见上文中对于用户画像生成方法的限定,在此不再赘述。上述用户画像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储用户画像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种用户画像生成方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可 以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
根据特征数据的共现数据和APP特征数据集的APP数量,计算特征数据对应的加权参数;
根据APP的特征数据对应的加权参数,对APP的使用频次数据进行加权计算,获得APP的比重数据;及
将比重数据添加至标签信息,得到更新标签。
在其中一个实施例中,APP数据信息包括行为日志数据;处理器执行计算机可读指令时还实现以下步骤:
从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录,得到各APP的特征数据;及
从行为日志数据中获取APP触发记录数据,得到各APP的使用频次数据。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取样本用户携带的标签信息,根据标签信息对样本用户进行分类,获得多个用户分类集合;
获取用户分类集合中各样本用户对应的APP数据信息,根据APP数据信息,确定各样本用户的共性APP,并建立共性APP与标签信息的关联关系;及
根据关联关系,将标签信息和共性APP更新至初始数据库中,得到APP与标签信息的关联数据库。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取样本用户的用户基本信息;
根据用户基本信息,提取用户特征数据;及
将用户特征数据标注为样本用户的标签信息。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
根据样本用户携带的标签信息,生成多个标签组,标签组包含单个标签或多个同类标签或多个不同类标签构成的集合;
基于标签组中包含的标签信息和各样本用户的标签信息,得到各标签组对应的样本用户;及
根据各标签组对应的样本用户,得到多个用户分类集合。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息;
读取APP数据信息中的使用频次数据,根据使用频次数据的数值大小对各APP进行排序,生成APP列表;
对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新APP列表;及
读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
根据更新的APP列表中各APP的特征数据,构建包含相同特征数据的同类APP集合;
根据共现数据,对同类APP集合进行初次排序和筛选处理;
根据筛选后的同类APP集合中各APP的使用频次数据,对同类APP集合中的各APP进行二次排序,并筛选出使用频次数据大于预设阈值范围的APP;
根据各同类APP集合的筛选结果,构建目标APP集合;及
将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息,获得与各目标APP对应的更新标签。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
根据更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的更新标签进行标签去重处理;
根据权重比例分配结果,对经过标签去重处理后的更新标签进行比重数据更新,得到二次更新标签;及
根据二次更新标签,生成待分析用户的用户画像。
一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息,并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据;
构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在APP特征数据集中的共现数据;
获取APP与标签信息的关联数据库,从关联数据库中查找APP数据信息中的各APP对应的标签信息,并将各APP的共现数据和使用频次数据添加至APP对应的标签信息,得到更新标签;及
根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成待分析用户的用户画像。
其中,该计算机可读存储介质可以是非易失性,也可以是易失性的。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
根据特征数据的共现数据和APP特征数据集的APP数量,计算特征数据对应的加权参数;
根据APP的特征数据对应的加权参数,对APP的使用频次数据进行加权计算,获得APP的比重数据;及
将比重数据添加至标签信息,得到更新标签。
在其中一个实施例中,APP数据信息包括行为日志数据;计算机可读指令被处理器执行时还实现以下步骤:
从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录,得到各APP的特征数据;及
从行为日志数据中获取APP触发记录数据,得到各APP的使用频次数据。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
获取样本用户携带的标签信息,根据标签信息对样本用户进行分类,获得多个用户分类集合;
获取用户分类集合中各样本用户对应的APP数据信息,根据APP数据信息,确定各样本用户的共性APP,并建立共性APP与标签信息的关联关系;及
根据关联关系,将标签信息和共性APP更新至初始数据库中,得到APP与标签信息的关联数据库。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
获取样本用户的用户基本信息;
根据用户基本信息,提取用户特征数据;及
将用户特征数据标注为样本用户的标签信息。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
根据样本用户携带的标签信息,生成多个标签组,标签组包含单个标签或多个同类标签或多个不同类标签构成的集合;
基于标签组中包含的标签信息和各样本用户的标签信息,得到各标签组对应的样本用户;及
根据各标签组对应的样本用户,得到多个用户分类集合。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
获取画像分析请求携带的待分析用户的APP数据信息;
读取APP数据信息中的使用频次数据,根据使用频次数据的数值大小对各APP进行排序,生成APP列表;
对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新APP列表;及
读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
根据更新的APP列表中各APP的特征数据,构建包含相同特征数据的同类APP集合;
根据共现数据,对同类APP集合进行初次排序和筛选处理;
根据筛选后的同类APP集合中各APP的使用频次数据,对同类APP集合中的各APP进行二次排序,并筛选出使用频次数据大于预设阈值范围的APP;
根据各同类APP集合的筛选结果,构建目标APP集合;及
将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息,获得与各目标APP对应的更新标签。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
根据更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的更新标签进行标签去重处理;
根据权重比例分配结果,对经过标签去重处理后的更新标签进行比重数据更新,得到二次更新标签;及
根据二次更新标签,生成待分析用户的用户画像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种用户画像生成方法,所述方法包括:
    获取画像分析请求携带的待分析用户的APP数据信息,并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据;
    构建包括各特征数据的APP特征数据集,遍历所述APP特征数据集,得到每一APP的特征数据在所述APP特征数据集中的共现数据;
    获取APP与标签信息的关联数据库,从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息,并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息,得到更新标签;及
    根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成所述待分析用户的用户画像。
  2. 根据权利要求1所述的方法,其中,所述将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息,得到更新标签包括:
    根据所述特征数据的共现数据和所述APP特征数据集的APP数量,计算所述特征数据对应的加权参数;
    根据所述APP的特征数据对应的加权参数,对所述APP的使用频次数据进行加权计算,获得所述APP的比重数据;及
    将所述比重数据添加至所述标签信息,得到更新标签。
  3. 根据权利要求1所述的方法,其中,所述APP数据信息包括行为日志数据;
    所述读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据包括:
    从所述行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录,得到各APP的特征数据;及
    从所述行为日志数据中获取APP触发记录数据,得到各APP的使用频次数据。
  4. 根据权利要求1所述的方法,其中,所述获取APP与标签信息的关联数据库包括:
    获取样本用户携带的标签信息,根据所述标签信息对所述样本用户进行分类,获得多个用户分类集合;
    获取所述用户分类集合中各所述样本用户对应的APP数据信息,根据所述APP数据信息,确定各所述样本用户的共性APP,并建立所述共性APP与所述标签信息的关联关系;及
    根据所述关联关系,将所述标签信息和所述共性APP更新至初始数据库中,得到所述APP与标签信息的关联数据库。
  5. 根据权利要求4所述的方法,其中,所述获取样本用户携带的标签信息包括:
    获取样本用户的用户基本信息;
    根据所述用户基本信息,提取用户特征数据;及
    将所述用户特征数据标注为所述样本用户的标签信息。
  6. 根据权利要求4所述的方法,其中,所述根据所述标签信息对所述样本用户进行分类,获得多个用户分类集合包括:
    根据所述样本用户携带的标签信息,生成多个标签组,标签组包含单个标签或多个同类标签或多个不同类标签构成的集合;
    基于所述标签组中包含的标签信息和各样本用户的标签信息,得到各标签组对应的样本用户;及
    根据各标签组对应的样本用户,得到多个用户分类集合。
  7. 根据权利要求1所述的方法,其中,所述获取画像分析请求携带的待分析用户的APP数据信息,并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据包括:
    获取画像分析请求携带的待分析用户的APP数据信息;
    读取所述APP数据信息中的使用频次数据,根据所述使用频次数据的数值大小对各所述APP进行排序,生成APP列表;
    对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新所述APP列表;及
    读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
  8. 根据权利要求7所述的方法,其中,在所述读取更新的APP列表中各APP的特征数据和各APP的使用频次数据之后,所述方法还包括:
    根据所述更新的APP列表中各APP的特征数据,构建包含相同所述特征数据的同类APP集合;
    所述将所述APP的共现数据和使用频次数据添加至所述APP对应标签信息,得到更新标签包括:
    根据所述共现数据,对所述同类APP集合进行初次排序和筛选处理;
    根据筛选后的同类APP集合中各所述APP的使用频次数据,对所述同类APP集合中的各APP进行二次排序,并筛选出所述使用频次数据大于预设阈值范围的APP;
    根据各同类APP集合的筛选结果,构建目标APP集合;及
    将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息,获得与各所述目标APP对应的更新标签。
  9. 根据权利要求8所述的方法,其中,所述根据所述各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成所述待分析用户的用户画像包括:
    根据所述更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的所述更新标签进行标签去重处理;
    根据权重比例分配结果,对经过所述标签去重处理后的更新标签进行比重数据更新,得到二次更新标签;及
    根据所述二次更新标签,生成所述待分析用户的用户画像。
  10. 一种用户画像生成装置,其中,所述装置包括:
    数据读取模块,用于获取画像分析请求携带的待分析用户的APP数据信息,并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据;
    共现数据获得模块,用于构建包括各特征数据的APP特征数据集,遍历APP特征数据集,得到每一APP的特征数据在所述APP特征数据集中的共现数据;
    标签更新模块,用于获取APP与标签信息的关联数据库,从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息,并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息,得到更新标签;及
    用户画像生成模块,用于根据所述各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成所述待分析用户的用户画像。
  11. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取画像分析请求携带的待分析用户的APP数据信息,并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据;
    构建包括各特征数据的APP特征数据集,遍历所述APP特征数据集,得到每一APP的特征数据在所述APP特征数据集中的共现数据;
    获取APP与标签信息的关联数据库,从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息,并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息,得到更新标签;及
    根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成所述待分析用户的用户画像。
  12. 根据权利要求11所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    根据所述特征数据的共现数据和所述APP特征数据集的APP数量,计算所述特征数据对应的加权参数;
    根据所述APP的特征数据对应的加权参数,对所述APP的使用频次数据进行加权计算,获得所述APP的比重数据;及
    将所述比重数据添加至所述标签信息,得到更新标签。
  13. 根据权利要求11所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取画像分析请求携带的待分析用户的APP数据信息;
    读取所述APP数据信息中的使用频次数据,根据所述使用频次数据的数值大小对各所述APP进行排序,生成APP列表;
    对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛 选,并根据筛选结果更新所述APP列表;及
    读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
  14. 根据权利要求13所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    根据所述更新的APP列表中各APP的特征数据,构建包含相同所述特征数据的同类APP集合;
    根据所述共现数据,对所述同类APP集合进行初次排序和筛选处理;
    根据筛选后的同类APP集合中各所述APP的使用频次数据,对所述同类APP集合中的各APP进行二次排序,并筛选出所述使用频次数据大于预设阈值范围的APP;
    根据各同类APP集合的筛选结果,构建目标APP集合;及
    将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息,获得与各所述目标APP对应的更新标签。
  15. 根据权利要求14所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    根据所述更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的所述更新标签进行标签去重处理;
    根据权重比例分配结果,对经过所述标签去重处理后的更新标签进行比重数据更新,得到二次更新标签;及
    根据所述二次更新标签,生成所述待分析用户的用户画像。
  16. 一个或多个存储有计算机可读指令的计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取画像分析请求携带的待分析用户的APP数据信息,并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据;
    构建包括各特征数据的APP特征数据集,遍历所述APP特征数据集,得到每一APP的特征数据在所述APP特征数据集中的共现数据;
    获取APP与标签信息的关联数据库,从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息,并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息,得到更新标签;及
    根据各更新标签中的共现数据和使用频次数据,对各更新标签进行去重处理,基于去重处理后的标签,生成所述待分析用户的用户画像。
  17. 根据权利要求16所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    根据所述特征数据的共现数据和所述APP特征数据集的APP数量,计算所述特征数据对应的加权参数;
    根据所述APP的特征数据对应的加权参数,对所述APP的使用频次数据进行加权计 算,获得所述APP的比重数据;及
    将所述比重数据添加至所述标签信息,得到更新标签。
  18. 根据权利要求167所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    获取画像分析请求携带的待分析用户的APP数据信息;
    读取所述APP数据信息中的使用频次数据,根据所述使用频次数据的数值大小对各所述APP进行排序,生成APP列表;
    对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛选,并根据筛选结果更新所述APP列表;及
    读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    根据所述更新的APP列表中各APP的特征数据,构建包含相同所述特征数据的同类APP集合;
    根据所述共现数据,对所述同类APP集合进行初次排序和筛选处理;
    根据筛选后的同类APP集合中各所述APP的使用频次数据,对所述同类APP集合中的各APP进行二次排序,并筛选出所述使用频次数据大于预设阈值范围的APP;
    根据各同类APP集合的筛选结果,构建目标APP集合;及
    将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息,获得与各所述目标APP对应的更新标签。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述计算机可读指令被所述处理器执行时还执行以下步骤:
    根据所述更新标签的数量,对每一更新标签进行权重比例分配,并对标签内容相同的所述更新标签进行标签去重处理;
    根据权重比例分配结果,对经过所述标签去重处理后的更新标签进行比重数据更新,得到二次更新标签;及
    根据所述二次更新标签,生成所述待分析用户的用户画像。
PCT/CN2020/106222 2019-08-14 2020-07-31 用户画像生成方法、装置、计算机设备和计算机可读存储介质 WO2021027595A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910747914.7 2019-08-14
CN201910747914.7A CN110674144A (zh) 2019-08-14 2019-08-14 用户画像生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021027595A1 true WO2021027595A1 (zh) 2021-02-18

Family

ID=69068573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/106222 WO2021027595A1 (zh) 2019-08-14 2020-07-31 用户画像生成方法、装置、计算机设备和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110674144A (zh)
WO (1) WO2021027595A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674144A (zh) * 2019-08-14 2020-01-10 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN111405030B (zh) * 2020-03-12 2021-08-10 腾讯科技(深圳)有限公司 一种消息推送方法、装置、电子设备和存储介质
CN113821703B (zh) * 2020-06-18 2023-12-08 广州汽车集团股份有限公司 一种车联网用户画像生成方法及其系统
CN111861545B (zh) * 2020-06-22 2022-10-18 国家计算机网络与信息安全管理中心 用户行为画像的构建方法、装置、设备及存储介质
CN111753026B (zh) * 2020-06-28 2023-09-12 中国银行股份有限公司 一种用户画像生成系统、方法、装置、设备和介质
CN111833676A (zh) * 2020-08-05 2020-10-27 北京育宝科技有限公司 一种交互式学习辅助方法、装置和系统
CN112948526A (zh) * 2021-02-01 2021-06-11 大箴(杭州)科技有限公司 用户画像的生成方法及装置、电子设备、存储介质
CN113918579A (zh) * 2021-03-23 2022-01-11 汪威 一种大数据用户画像处理方法及大数据服务器
CN113298145A (zh) * 2021-05-24 2021-08-24 中国邮政储蓄银行股份有限公司 标签填充方法及装置
CN117909348B (zh) * 2024-01-19 2024-06-28 立购在线(北京)科技有限公司 一种关联数据调度与计算方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332373A1 (en) * 2012-12-14 2015-11-19 Baidu Online Network Technology (Beijing) Co., Ltd Method and system for pushing mobile application
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN109558530A (zh) * 2018-10-23 2019-04-02 深圳壹账通智能科技有限公司 基于数据处理的用户画像自动生成方法和系统
CN110069702A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 用户行为数据分析方法、装置、计算机设备及存储介质
CN110674144A (zh) * 2019-08-14 2020-01-10 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332373A1 (en) * 2012-12-14 2015-11-19 Baidu Online Network Technology (Beijing) Co., Ltd Method and system for pushing mobile application
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN109558530A (zh) * 2018-10-23 2019-04-02 深圳壹账通智能科技有限公司 基于数据处理的用户画像自动生成方法和系统
CN110069702A (zh) * 2019-03-15 2019-07-30 深圳壹账通智能科技有限公司 用户行为数据分析方法、装置、计算机设备及存储介质
CN110674144A (zh) * 2019-08-14 2020-01-10 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110674144A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
WO2021027595A1 (zh) 用户画像生成方法、装置、计算机设备和计算机可读存储介质
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
WO2020062660A1 (zh) 企业信用风险评估方法、装置、设备及存储介质
WO2021068610A1 (zh) 资源推荐的方法、装置、电子设备及存储介质
CN104573054B (zh) 一种信息推送方法和设备
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
CN106557513B (zh) 事件信息推送方法及事件信息推送装置
US20220405607A1 (en) Method for obtaining user portrait and related apparatus
WO2017097231A1 (zh) 话题处理方法及装置
WO2022105129A1 (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN104077723B (zh) 一种社交网络推荐系统及方法
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理系统
JP2019519009A (ja) データソースに基づく業務カスタマイズ装置、方法、システム及び記憶媒体
CN110765301B (zh) 图片处理方法、装置、设备及存储介质
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN107729330B (zh) 获取数据集的方法和装置
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114491084B (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN105389714B (zh) 一种从行为数据识别用户特性的方法
CN112989167B (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20852910

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20852910

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 05.08.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20852910

Country of ref document: EP

Kind code of ref document: A1