WO2008113290A1 - Procédé et dispositif pour poussser des informations - Google Patents

Procédé et dispositif pour poussser des informations Download PDF

Info

Publication number
WO2008113290A1
WO2008113290A1 PCT/CN2008/070483 CN2008070483W WO2008113290A1 WO 2008113290 A1 WO2008113290 A1 WO 2008113290A1 CN 2008070483 W CN2008070483 W CN 2008070483W WO 2008113290 A1 WO2008113290 A1 WO 2008113290A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
communication terminal
category
short message
list
Prior art date
Application number
PCT/CN2008/070483
Other languages
English (en)
French (fr)
Inventor
Mingsheng Shang
Yan Fu
Gang Shao
Original Assignee
Huawei Technologies Co., Ltd.
University Of Electronic Science And Technology Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd., University Of Electronic Science And Technology Of China filed Critical Huawei Technologies Co., Ltd.
Priority to EP08715219A priority Critical patent/EP2094023A4/en
Publication of WO2008113290A1 publication Critical patent/WO2008113290A1/zh
Priority to US12/560,793 priority patent/US20100075701A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1859Arrangements for providing special services to substations for broadcast or conference, e.g. multicast adapted to provide push services, e.g. data channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/58Message adaptation for wireless communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Definitions

  • the present invention relates to the field of communications, and in particular, to a method and apparatus for pushing information to a communication terminal. Background technique
  • SMS-based advertising With the development of communication technology, new business continues to emerge. For example, in the prior art, the short message service of the communication terminal (mobile terminal) has been rapidly developed. In the face of a large mobile user community, a new form of information-based advertising, SMS-based advertising, has been used in practice.
  • the embodiment of the invention provides an information pushing method and device. By analyzing the association between the information sent by the user and the information to be pushed, the user with the corresponding requirement is selected to perform information push.
  • An information push method includes:
  • classifying the first information according to the first category set establishing a first mapping relationship between the first information and a category belonging to the first category set; and classifying the second information sent by the information source according to the second category set, establishing and sending a second mapping relationship between the information source of the second information and the category of the second category set;
  • each category of the first category set by establishing the first mapping relationship with the first information, matching corresponding categories of the second category set, and according to The second mapping relationship determines a corresponding information source;
  • An information pushing device includes: a first information processing module, configured to classify the first information according to the first category set, and establish a first mapping relationship between the first information and a category belonging to the first category set;
  • a second information processing module configured to acquire second information sent by the information source, classify the second information according to the second category set, and establish, according to the classification result, the information source that sends the second information and the second category The second mapping relationship of the category;
  • the information matching module is configured to: according to the correspondence between the first category set and the category belonging to the second category set, the first category of the first mapping relationship with the first information is centralized, and the second category is matched. Corresponding category, and determining a corresponding information source according to the second mapping relationship;
  • the information pushing module is configured to push the first information to the determined corresponding information source.
  • the user can analyze the demand according to the information sent by the user, and then perform association and matching with the to-be-pushed information to determine a specific user group to perform information push. It satisfies the specific needs of users, overcomes the blindness of information push, and avoids the waste of public communication resources.
  • BRIEF DESCRIPTION OF THE DRAWINGS A flowchart of an implementation of a particular mobile terminal;
  • FIG. 3 is a schematic diagram of short message classification according to an embodiment of the present invention.
  • FIG. 5 is a schematic diagram of a user community network obtained according to an SMS database according to an embodiment of the present invention
  • FIG. 6 is a flowchart of advertisement entry and classification of the advertisement according to an embodiment of the present invention
  • An embodiment of the present invention provides an information pushing method, including:
  • the first information is pushed to the determined corresponding information source.
  • the first information is determined as advertising information (including but not limited to product advertisements, service broadcasts or service advertisements, etc.);
  • the information source is a communication device capable of transmitting information, such as a mobile terminal;
  • the second information is a mobile terminal through a short message center Send a text message.
  • Step S11 collecting the short message sent by the user mobile terminal, and storing the short message in the database;
  • Step S12 Pre-processing and integrating the short message data of the user
  • Step S13 classifying the integrated short message text
  • Step S14 Establish a mapping relationship between the identifier of the mobile terminal that sends the short message and each short message category, and establish a user interest degree list for each short message category;
  • Step S15 Establish a community network that performs short message interaction between the mobile terminals according to the short message stored in the short message database;
  • Step S16 Determine a leading user list according to the established community network.
  • Step S21 performing advertisement entry, and classifying the advertisement
  • Step S22 Determine, according to the established user interest degree list, a list of user interest levels for the advertisement according to the advertisement category of the current advertisement, that is, determine a potential advertisement object;
  • Step S23 Determine, according to the determined user interest degree list (potential advertisement object) and the leading user list, the final advertisement object, that is, determine the mobile terminal that finally pushes the advertisement;
  • Step S24 Generate advertisements of different expressions according to different types of mobile terminals and send them to the pair. Should be mobile terminal.
  • step S11 the description is as follows:
  • the table structure of the short message database includes at least: a short message sender mobile terminal identifier (ID), a short message receiving mobile terminal identifier, a short message sending time, and a short message content, as shown in Table 1 below: Table 1
  • the short message of the SME does not represent the personal interest of the user. Therefore, in the embodiment of the present invention, The point-to-point short message of the ordinary user is concerned, so in the embodiment of the present invention, the short message sent by the ordinary user is collected.
  • the text message sent by the user may have a variety of different forms, such as ordinary text information and a multimedia message including a voice, an image, and a video.
  • the embodiment of the present invention takes a text message of a common user as an example.
  • SMS collection can be various, for example:
  • Collecting method 1 receiving a short message sent by a communication terminal that is forwarded in real time by a short message center;
  • Collecting method 2 Obtaining a short message from the original bill file of the communication terminal; the original bill file on the billing server is used as a data source, and each text message is read one by one from the original bill file;
  • Collecting method 3 Listening and obtaining the short message sent by the mobile terminal to the short message center.
  • the SMS collection time period can be set as needed, for example, the period can be one day, one week or one month. At the end of the time period, the collected short message data is analyzed and processed in subsequent steps.
  • step S12 the description is as follows:
  • the number of short messages obtained through step S11 is extremely large, and the content topics are scattered, which may cause a sharp time complexity of the subsequent text classification process. Climb, while seriously affecting the accuracy of user needs.
  • the specific method is: setting a threshold k according to the data collection time. If the number of short messages sent by a mobile number exceeds the threshold, it is determined that the number is a short message group number, and the All SMS data sent by this number is deleted from the SMS database. The judgment of the number of short messages sent by the number can be realized by using the statistical function of the database management system.
  • SMS content is clustered.
  • the time correlation and the object correlation can be obtained by sorting the short message database, wherein the primary key is the mobile terminal number of the short message sender, and the secondary key is the mobile terminal number of the short message receiver.
  • an embodiment of the present invention provides a text integration method based on a sliding window. Specifically: Predetermine a suitable window size w, the new SMS text only needs to be similarly calculated with the latest w integrated SMS texts, and integrate the most similar SMS text with similarity above the threshold. By appropriately adjusting the w value, the algorithm makes the time complexity controllable while ensuring the effect.
  • FIG. 2 is a flowchart of short message preprocessing and integration according to an embodiment of the present invention. Specifically, it includes: Step S30. Set the group width to be wide! ⁇ , sliding window size w and similarity threshold d;
  • Step S31 Sort the short message database by using the sender number as the primary key and the receiving party number as the secondary key;
  • Step S32 deleting all records in the database that the number of sent short messages exceeds the threshold k, that is, deleting the group sending short message record;
  • Step S33 Determine whether there are still unprocessed short messages in the short message database, and if yes, continue with the following steps; otherwise, end the processing flow;
  • Step S34 reading the next short message
  • Step S35 Extract a feature vector of the short message.
  • Step S36 Calculate the similarity with the previous w messages
  • Step S37 determining whether the similarity is greater than the similarity threshold d; if yes, executing step S38; otherwise, performing step S39;
  • Step S38 integrating the short message with the text of the maximum similarity, and proceeding to step S33;
  • Step S39 the short message is used as a new text in the sliding window, and the sliding window is slid back one space; and the process goes to step S33.
  • the above process needs to specify the group width, the similarity threshold and the sliding window size in advance. These parameters can be adjusted as needed.
  • V ⁇ Xi, X 2 , X 3 , ... , X n ⁇ , which are feature words.
  • V the feature vector of the text SI Where is the frequency of the feature word in the text si; the feature vector of the text S2 ⁇ which is the frequency of the feature word in the text S2. Then the similarity of the two texts is calculated as follows:
  • the merging method of the text is to directly add and normalize according to the frequency of the feature words. Let the eigenvectors of the text S1 and the text S2 be represented as above, and the feature vectors corresponding to the respective feature items are added, and then normalized. The new text is sent at the time of the newly merged text.
  • the number of integrated SMS texts can be stored in the database, or saved as a file or other form.
  • step S13 the description is as follows:
  • the short message text classification is used to classify the short message text sent by the mobile terminal into a predefined short message category.
  • Chinese text classification technology mainly includes multi-classifier integrated learning method, support vector machine (SVM), KNN method, naive Bayesian method, decision tree, neural network, maximum entropy model, etc., which can be used in the embodiment of the present invention.
  • SVM support vector machine
  • KNN method KNN method
  • naive Bayesian method naive Bayesian method
  • decision tree naive Bayesian method
  • neural network maximum entropy model, etc.
  • maximum entropy model etc.
  • Classification process Since the separation plane mode of the SVM effectively overcomes the influence of factors such as sample distribution, redundant features, and over-fitting, it has a good generalization ability, and has advantages in terms of effect and stability compared to other methods, and thus the embodiment of the present invention
  • the SVM method is preferred as the classification algorithm.
  • the invention is obviously not limited to the use of the
  • the embodiment of the present invention utilizes the LIBSVM software package to implement the SVM classification operation.
  • a number of short message texts are selected from the integrated short message database as training text sets, and the training texts are manually classified.
  • the selection of training texts requires that the amount of text in each category does not differ much.
  • the number of texts of each category may be specified in advance, for example, 100, and then the texts of the short messages are read from the short message database one by one, and manually classified. If the number of texts in the category is insufficient, the text is tagged and placed in the training set; if the number of texts in the category has reached the specified number, simply discard the text and read the next text from the SMS database again.
  • VSM Vector Space Model
  • the training data set can be expressed as follows:
  • the feature vector of the i-th training text in the training text set and C is the artificial classification category set of the feature vector (ie, the second category set).
  • the feature vector of the i-th text is expressed as follows:
  • n is the number of categories.
  • This parameter can be parameterized by the svm_parameter method provided by the LIBSVM software package.
  • a support vector machine of the C-SVC type is selected, and the kernel function (Kernel Function) uses a radial basis function (RBF):
  • the initial value of the parameter ⁇ of the RBF kernel function is set to 0.5; the svm type attribute has five optional values of C-SVC, NU_SVC, ONE-CLASS, EPSILON-SVR, NU_SVR, and C-SVC is selected in this embodiment; Attribute, the number of categories to be classified, the number of elements set to the category set, that is, m; the kernel_type attribute, which has five optional values of LINEAR, POLY, RBF, SIGMOID, and PRECOMPUTE, and the RBF is selected in this embodiment; Shrinking property, this example sets its value to 1. In addition, from the perspective of computer operation, this embodiment sets the cache size to 40MB and the precision of the operation to 0.001. These parameters respectively correspond to the cache-size, eps, shrinking attributes of svm_parameter. In summary, the parameters selected in this embodiment are:
  • Kernel— type RBF
  • Eps 0.001
  • the training data set is used as the input of the SVM, and after training, the classification model of the SVM classifier is generated.
  • svm_problem is used to describe the current classification problem.
  • Set the 1 attribute of svm_problem to the number of elements of the training data set T, and the x and y attributes are respectively set to the training text feature vector set of the training data set T and the corresponding set of training text.
  • the x attribute of svm_problem is a two-dimensional array of svm_nodes.
  • the first dimension is set to the number of elements of the training data set T
  • the second dimension is set to the dimension of the training text feature vector in the training data set T.
  • Each element in the training data set T corresponds to a line in X.
  • the y attribute of svm_problem is a one-dimensional array whose size is the element in the training data set T Number. For the i-th dimension of y, set its value to the category Cl of the i-th training text in the training data set T.
  • the static svm-train method of svm is called to complete the training of the SVM classifier.
  • This method uses svm_problem and svm_parameter as parameters, both of which have been set in the previous steps.
  • the return value of the svm-train method is the svm-model type object, which is the SVM classifier model.
  • the LIBSVM package provides the ability to predict unknown text categories using the SVM classifier model. For the feature vector w d of the unknown text d, it is entered according to the input mode of the training data in the training data set, but the value attribute of the corresponding svm_node is not set.
  • svm_predict method After entering the feature vector of the text to be predicted, call svm's static svm_predict method to complete the prediction.
  • This method takes an array of svm_model and svm_node as arguments.
  • Svm—model is the SVM classifier model generated in step 3), and the svm_node array corresponds to the input data of the text to be predicted.
  • the svm_predict method will return the category of the text predicted by svm_model.
  • each text message belongs to a specific category.
  • the category file is created in advance, if the category of a certain message is judged, the mobile terminal number in the text of the short message is recorded in the classification category. That is, the mapping relationship between the mobile terminal identification and the corresponding category for transmitting the short message is established.
  • a schematic diagram of the short message classification shown in FIG. 3 is obtained.
  • the short message categories are divided into m types, and each type includes a plurality of mobile terminal identifiers for transmitting corresponding category short messages, such as user 1 mobile terminal identifier, user 2 mobile terminal identifier, user 3 mobile terminal identifier, and user 4 Mobile terminal identification, etc.
  • step S14 the description is as follows:
  • a mobile terminal may be classified into multiple categories, such as user 1 in FIG. 3, and mobile terminals are classified into category 1, category 2, and category m; 2.
  • a category may contain the same mobile terminal identifier multiple times, for example, category 1 contains "user 1 mobile terminal identifier"twice;
  • the mobile terminal included in a category is unordered. For example, there is no order between the "user 1 mobile terminal identifier" and the "user 2 mobile terminal identifier" under category 1;
  • the classification result contains a large amount of data. For each integrated text that needs to be classified, there will be a result corresponding to the result set; that is, the mobile terminal identifier corresponding to the integrated short message text and an integrated short message text
  • the number of short messages included; for category 1, it includes two user 1 mobile terminal identifiers, and the corresponding number of short messages is 8 and 12.
  • the classification results contain a large amount of data, and the mobile terminal identifiers in each category are arranged in a disorderly manner. Such data cannot directly express the interest of different corresponding mobile terminal users for a certain category, thereby having a certain influence on the correctness of the advertisement message delivery.
  • a user interest frequency table as shown in FIG. 4 is generated.
  • the same mobile terminal identity does not appear in the same category.
  • the more frequently mobile terminals the greater the degree of interest in the class.
  • the number of times the same user is included in a category is usually more than 1, so the result requires less storage space than the SVM-classified data result set.
  • the calculated interest level can better reflect the user's recent interests and needs. When the short message time is long, a weighted interest calculation method is preferred.
  • the community network is extracted from the sending and receiving behavior of the short message of the user mobile terminal.
  • users with frequent communication generally have a close relationship, and users with few exchanges are more distant. Therefore, the frequency of text messages between users and the frequency of text messages determine their influence in the community. Degree and scope of influence.
  • Ve V represents the user's mobile terminal
  • the edge of the network ie, the directed arc between the nodes
  • ee E represents the text messaging relationship between users
  • the weight w ⁇ W on the edge is the number of short messages between users.
  • Figure 5 shows an example of a user community obtained from a short message database.
  • ID 1, ID2, ID3, ID4, and ID5 respectively represent different mobile terminal identifiers (IDs).
  • the sender mobile terminal identifier and the receiver mobile terminal identifier are network node identifiers. If not, the node is established and the node is marked as the corresponding mobile terminal identifier, and a sender is established from the sender to the receiver. A directed arc, on which a weight value of 1 is marked; otherwise, the sender node to the receiver node weight is added to the original weight plus one.
  • the community network obtained by the above method may be very large. In the worst case, all users' mobile terminals will have direct or indirect contact, so that all mobile terminal users belong to a community network. In addition, the user may occasionally enter the wrong number. Such a false text message does not indicate that there is a close relationship between the users, so that the obtained network does not reflect the contact between the users.
  • the first method You can find strong connected components in the community network.
  • the strong connected component is defined as the fact that all nodes in the network are mutually reachable, and the reach is defined as a simple directed path between the nodes.
  • the second method is to consider only the relationships between users who are more closely connected, regardless of the relationship between the lesser users.
  • only the edge whose weight is less than a certain threshold is deleted from the network.
  • the threshold can be selected according to the actual situation of the system, and usually takes 2 to 5.
  • the directed network will contain a number of connected components.
  • the connection component from the directed network can be obtained by a variety of methods, such as a depth-first traversal algorithm.
  • the network may use an adjacency matrix or an adjacency list or the like as a storage structure.
  • the adjacency list is preferably used as the storage structure.
  • the header node is stored in a vector, the header node includes at least a domain storing a user mobile terminal number and a pointer pointing to the first adjacent edge; the node represents an edge, including at least the next adjacency The pointer to the point and the weight of the edge are two data fields.
  • determining a dominant user according to the community network specifically includes:
  • the present embodiment ensures that the coverage of the short message is sufficiently wide by defining the dominant domain of the user, while the number of leading users is controlled within a suitable number range.
  • the calculation of the dominant domain depends on the user's dominant degree and dominant range.
  • the dominant degree p of the user i to j is defined as the frequency of short message interaction between the mobile terminal i of the user i and the mobile terminal j of the user j, which is calculated as follows:
  • the weight on the arc ⁇ V 1 Vj> that is, the number of short messages sent by the mobile terminal i to the mobile terminal j
  • the degree of user dominance is defined as the sum of the user’s dominance to each user, ie
  • the user's dominant range r is defined as:
  • denotes the dominant range of the communication terminal i
  • denotes the total number of short messages sent by the communication terminal i
  • the calculation method of the dominant domain J of the mobile terminal i is:
  • A is the dominant degree of the mobile terminal i, is the average dominant degree of all mobile terminals, is the dominant range of the mobile terminal i, and g(r) is the average dominant range of all mobile terminals.
  • the weight between the dominant degree and the dominant range can be adjusted according to the situation.
  • the size order value of the user dominant domain in the network is obtained in descending order.
  • a user interest frequency table for a certain short message category (corresponding to the advertisement category) has been established according to the short message interaction between the user mobile terminals; and according to the established community network , determine the list of leading users.
  • the following describes the advertisement classification method in detail, and how to finally determine the object of the advertisement push based on the obtained user interest frequency table and the dominant user list.
  • step S21 the details are as follows:
  • a flow chart for entering an advertisement and classifying the advertisement When the advertisement information is entered, only the advertisement information may be entered. At this time, the information needs to be represented by text information, and the advertisement information needs to be further classified; when the entry is entered, the category information of the advertisement information may also be entered according to the need, and the category information and the short message at this time.
  • the category information is consistent and is pre-defined. If the advertisement is assigned a category, the advertisement form may be text or other forms than text, such as may include video or image or audio.
  • the advertisement When the advertisement is entered, it can be manually entered one by one, or the advertisement information can be stored in a file or a database file in advance.
  • the classification of advertising text can be achieved in a variety of ways. Since an advertisement may belong to multiple product categories, it cannot be implemented by a single classification algorithm such as SVM.
  • This embodiment uses a classification algorithm as shown in Fig. 6 to implement classification of a single advertisement text into a plurality of categories. The specific classification steps are as follows:
  • Step S40 reading an advertisement information
  • Step S41 Determine whether to perform automatic classification or manual classification. If it is manual classification, perform steps.
  • step S42 Otherwise, step S43;
  • Step S42 According to the predefined advertisement category, enter the current advertisement into the advertisement category to which the advertisement belongs, and end the classification of the current advertisement;
  • the specific methods are as follows:
  • Step S45 Calculating the equivalent radius, the specific method is:
  • Step S47 finalizing the category of the advertisement;
  • step S22 the user interest degree list is determined, and the specific description is as follows:
  • the users of the list are all mobile terminal users interested in a given advertisement, and are ranked from high to low according to the degree of interest of the user.
  • ad 4 For the ad 4 to be served, after the ad classification operation, 4 is classified into the category set GC. For the category .e included in the category, according to the user interest frequency table determined in step S14, and in combination with the category of the advertisement category, all mobile terminal users interested in the advertisement can be obtained.
  • the specific method is as follows:
  • the mobile terminal identifier with which the mapping relationship is established is the mobile terminal interested in the advertisement 4.
  • is the degree of interest of the corresponding user identified by the mobile terminal for the advertisement 4;
  • the final advertisement object is determined, and the specific description is as follows:
  • the user interest degree list obtained in the above step S22 is a list of potential advertisement objects. In order to achieve better advertising performance and save on advertising costs, you need to select the advertising objects:
  • the selection of advertising objects is mainly based on the following reasons: 1)
  • the user interest list contains a large number of results, including users who are very interested in advertising. If advertisements are placed on these mobile terminals, on the one hand, the user's interest cannot be caused, and the user will be regarded as a spam message, and even the advertisement message will be sent to the "blacklist", resulting in more advertisement messages not being sent normally in the future.
  • sending a large number of short messages can occupy a large amount of network resources. In severe cases, network congestion may even occur, which affects the transmission of normal short messages.
  • the user trusts the product recommended by the friend or the relatives instead of the advertisement; therefore, the dominant user determined in the above step S16 can forward the advertisement in the community network, so that the short message can be reduced
  • the number saves on advertising costs, and the better the advertising effect is achieved by the mutual trust of members of the community network.
  • the inner interest product and the dominant domain are inner product, and a new interest-driven user list is generated according to the degree of interest leading.
  • the form of the inner product is:
  • I is the degree of interest of the user i
  • the degree of interest of the mobile terminal i corresponding to the user of the type i advertisement determined by the above method is the primary domain of the user mobile terminal i determined by the above method.
  • the user mobile terminal identification order determined by the inner product is the order of the theoretical advertising effects that the corresponding user will be able to reach.
  • Table 5 A typical form of outcome for a list of interest-driven users is shown in Table 5 below:
  • the advertising operator specifies the size N of the advertising object for the advertisement to be sent.
  • the final target audience will be obtained from three aspects: User interest list, leading user list, and interest-driven user list.
  • N*40% with a large degree of interest can be selected from the user interest list (adjustable, 40% in this embodiment is selected as the upper limit of the number of users with greater interest in the product) as the final advertisement.
  • the dominant user is a class of users with community representation, and has a great interest in the sending of short messages. Therefore, in the actual application, the user who is not interested in the category of the current advertisement is removed from the list of leading users, and then the N*10% of the dominant domain is selected from the list of remaining leading users (adjustable, selected in this embodiment) 10% as the upper limit of the dominant user) The second part of the user as the final target user; Finally, the selected first and second users are removed from the list of interest-driven users, and then N*50% is selected. Adjust the user as the third part of the final advertising target user.
  • the sum of the above three parts is the final advertisement delivery object selected according to the optimal principle.
  • the embodiment of the present invention can directly use the existing short message group sending platform to perform advertisement publishing. Therefore, the two types of short message advertisements can be directly transmitted to the existing short message sending platform for direct release.
  • user mobile terminals may have different features and functions. For example, screens of different mobile terminals may have different sizes and support different numbers of colors; some mobile terminals only support text messaging, while some mobile terminals support voice messaging, image messaging, and even video short messages. Accordingly, an optional implementation method is to issue different types of short message advertisements according to different feature functions of the mobile terminal, so as to enhance the attention of the mobile terminal user to the advertisement as much as possible.
  • the characteristics of the user's mobile terminal can be obtained by a variety of methods, in fact the mobile wireless access protocol
  • the mobile terminal identification technology in the (Wireless Access Protocol, WAP) application is very mature and can be directly utilized.
  • the complete process of determining the push objects of different categories of advertisements according to the short messages sent by the mobile terminal is described above by using a specific embodiment.
  • the method for advertising, a specific structure of a corresponding information pushing device 10, as shown in FIG. 7, includes: a first information processing module 101, configured to classify the first information according to the first category set, and establish the first information and The first mapping relationship of the category to which the first category belongs;
  • the second information processing module 102 is configured to obtain the second information sent by the information source, classify the second information according to the second category set, and establish, according to the classification result, the information source that sends the second information and the second category The second mapping relationship of the category;
  • the information matching module 103 is configured to: according to the correspondence between the first category set and the category of the second category set, the first category of the first mapping relationship is established with the first information, and the second category is matched. Concentrating corresponding categories, and determining corresponding information sources according to the second mapping relationship;
  • the information pushing module 104 is configured to push the first information to the determined corresponding information source.
  • the second information processing module 102 described above performs the following specific processing:
  • the integrated short message text is classified by a single classification algorithm, and each integrated short message text is classified into the second category centralized unique category; and the terminal mobile identifier that sends the short message is set up and the second category is concentrated in the category Second mapping relationship;
  • the second information processing module 102 further establishes, according to the short message stored in the local short message database, the communication terminal identifier as a network node, and the short message transmission and reception between the communication terminals is a directed arc, and the number of interactive short messages is an arc weight.
  • Directed network
  • the communication terminal identifier is arranged according to the dominant domain value to generate a leading user list.
  • the information matching module 103 obtains the category of the first information mapping in the first information processing module, determines the user interest degree list associated with the first information, and determines the user interest degree list according to the pushing scale of the first information. Selecting a plurality of communication terminals according to the frequency of interest from large to small; the information pushing module 104 pushes the first information to the selected communication terminal;
  • the information matching module 103 further determines, according to the number of short messages corresponding to each communication terminal identifier in the user interest degree list associated with the first information, and the similarity between the first information and the mapped category, determining, by each communication terminal, the first a degree of interest of the information, generating a user interest degree list for the first information; and selecting, according to the push scale of the first information, a plurality of communications in descending order of interest in the determined user interest list
  • the terminal pushes the first information to the communication terminal selected from the user interest list by the information pushing module.
  • the information matching module 103 further selects, according to the pushing scale of the first information, a plurality of communication terminals in the leading user list generated by the second information processing module 102 in descending order of the dominant domain value; the information pushing module 104 The first information is pushed to the communication terminal selected from the list of leading users.
  • the embodiment of the present invention can analyze the user demand according to the information sent by the user (the second information, the short message sent by the user mobile terminal in the foregoing embodiment), and then the information to be pushed (first Information, in the above embodiment, in the case of pushing an advertisement to a user as an example, performing association matching, determining a specific user group, pushing the first information to the determined user group, satisfying the specific needs of the user, and overcoming the first information (The blindness of pushing, such as advertising, avoids the waste of public communication resources.
  • the spirit and scope of the Ming The spirit and scope of the Ming.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

一种信息推送方法与装置 技术领域
本发明涉及通信领域, 尤其涉及一种向通信终端推送信息的方法与装置。 背景技术
随着通信技术的发展, 新业务不断出现。 例如: 现有技术中, 通信终端(移 动终端) 的短信业务得到了迅猛发展。 面对庞大的移动用户群体, 一种信息推 送业务的新形式即基于短信的广告已经在实际中使用。
然而, 现有技术中的短信广告多数是一种不分受众的短信群发。 即: 不对 用户根据其兴趣爱好等加以区分, 将短信广告群发给所有的用户。 这种群发短 信广告的方式具有如下明显的缺点: (1 ) 不能满足用户的特定需求, 很难达到 预期的广告效果; (2 )造成了很多垃圾短信, 不仅浪费了公共通信资源, 更引 发了用户的普遍反感; (3 )真正有需求的用户可能收不到相应的短信广告。
因此, 要真正获得短信广告的最好效果, 必须深入挖掘用户兴趣和爱好, 得到用户即时的和潜在的需求, 为用户提供个性化的短信广告服务。 发明内容
本发明实施例提供一种信息推送方法与装置, 通过分析用户发送的信息和 待推送信息之间的关联, 选择出有对应需求的用户进行信息推送。
一种信息推送方法, 包括:
将第一信息按照第一类别集进行分类, 建立所述第一信息与第一类别集中 所属类别的第一映射关系; 以及将信息源发送的第二信息按照第二类别集进行 分类, 建立发送所述第二信息的信息源与第二类别集中所属类别的第二映射关 系;
根据第一类别集和第二类别集中所属类别之间的对应关系, 由与所述第一 信息建立第一映射关系的第一类别集中各类别, 匹配出第二类别集中的对应类 别, 并根据第二映射关系确定出对应信息源;
将所述第一信息推送到确定出的对应信息源。
一种信息推送装置, 包括: 第一信息处理模块, 用于将第一信息按照第一类别集进行分类, 建立所述 第一信息与第一类别集中所属类别的第一映射关系;
第二信息处理模块, 用于获取信息源发送的第二信息, 将所述第二信息按 照第二类别集进行分类, 根据分类结果, 建立发送所述第二信息的信息源与第 二类别集中所属类别的第二映射关系;
信息匹配模块, 用于根据第一类别集和第二类别集中所属类别之间的对应 关系, 由与所述第一信息建立第一映射关系的第一类别集中各类别, 匹配出第 二类别集中的对应类别, 并根据第二映射关系确定出对应信息源;
信息推送模块, 用于将所述第一信息推送到确定出的对应信息源。
釆用本发明实施例, 能根据用户发送的信息, 分析其需求, 再与待推送信 息进行关联匹配, 确定出特定的用户群体进行信息推送。 满足了用户的特定需 求, 克服了信息推送的盲目性, 避免了公共通信资源的浪费。 附图说明 告给特定移动终端的实现流程图;
图 2为本发明实施例提供的短信预处理与整合流程图;
图 3为本发明实施例提供的短信分类示意图;
图 4为本发明实施例提供的用户兴趣频度表;
图 5为本发明实施例提供的根据短信数据库得到用户社区网络示意图; 图 6为本发明实施例提供的广告录入并对该广告进行分类的流程图; 图 7为本发明实施例提供的一种信息推送装置结构示意图。 具体实施方式
本发明实施例提供一种信息推送方法, 包括:
将第一信息按照第一类别集进行分类, 建立第一信息与第一类别集中所属 类别的第一映射关系;
获取信息源发送的第二信息, 将第二信息按照第二类别集进行分类, 根据 分类结果, 建立发送第二信息的信息源与第二类别集中所属类别的第二映射关 系; 根据第一类别集和第二类别集中所属类别之间的对应关系, 由与第一信息 建立第一映射关系的第一类别集中各类别, 匹配出第二类别集中的对应类别, 并根据第二映射关系确定出对应信息源;
将第一信息推送到确定出的对应信息源。
下面以向移动终端推送短信广告为例对上述方法加以详细说明。 即: 殳定 第一信息为广告信息(包括但不限于商品广告、 业务广播或服务广告等); 信息 源为能发送信息的通信装置, 如移动终端; 第二信息为移动终端通过短消息中 心发送的短信。 在这种假定的使用场景下, 需要对移动终端发送的短信进行短 信分类, 并对不同广告内容进行广告分类, 通过这两种分类之间的对应关系, 来确定出不同广告内容可以推送的移动终端。
为简单起见, 在本发明实施例中, 假设短信与广告具有相同的分类, 即每 一个短信类别与唯一的一个广告类别相对应。 推送广告给特定移动终端的整体流程图。 图 1A包括如下具体步骤:
步骤 Sll、 釆集用户移动终端发送的短信, 并存放到数据库中;
步骤 S12、 对用户的短信数据进行预处理与整合;
步骤 S13、 对整合后的短信文本分类;
步骤 S14、建立发送短信的移动终端标识与各短信类别之间的映射关系,对 每一个短信类别建立用户兴趣度列表;
步骤 S15、根据短信数据库中存储的短信建立表征移动终端之间进行短信交 互的社区网络;
步骤 S16、 根据建立的社区网络确定出主导用户列表。
上述步骤 S12/13/14与步骤 S15/16没有逻辑上的顺序关系, 可以并行处理。 图 1B包括如下具体步骤:
步骤 S21、 进行广告录入, 并对广告进行分类;
步骤 S22、根据建立的用户兴趣度列表, 结合当前广告所属广告类别确定出 针对该广告的用户兴趣度列表, 即确定出潜在广告对象;
步骤 S23、根据确定出的用户兴趣度列表(潜在广告对象 )并结合主导用户 列表, 确定出最终的广告对象, 即确定出最终推送该广告的移动终端;
步骤 S24、根据移动终端的不同类型, 生成不同表现形式的广告并发送给对 应移动终端。
下面对上述每一个步骤进行详细描述。
对于步骤 S11 , 描述如下:
首先建立一个空的短信数据库, 该数据库可以由 Oracle等现有的数据库管 理系统创建。该短信数据库的表结构至少包括: 短信发送方移动终端标识(ID )、 接收短信方移动终端标识、 短信发送时间和短信内容等信息, 如下表 1所示: 表 1
发送方 ID 接收方 发送日期、 时间 短信内容
ID 由于短信的发送方和接收方既可以是普通用户, 也可以是连接在短信中心 的实体( Short Message Entity, SME ),但 SME的短信并不代表用户个人的兴趣, 因此本发明实施例中关心普通用户的点对点短信, 所以本发明实施例中釆集普 通用户发送的短信。 用户发送的短信可能具有多种不同的形式, 如普通的文本 信息和包含声音、 图像及视频的彩信等, 本发明实施例以釆集普通用户的文本 短信为例。
短信釆集具体实现方法可以是多种多样的, 例如:
釆集方式一: 接收短消息中心实时转发的通信终端发送的短信;
釆集方式二: 从通信终端的原始话单文件中获取短信; 即将计费服务器上 的原始话单文件作为数据源, 逐条从原始话单文件中读入每条短信;
釆集方式三: 监听并获取移动终端发送给短消息中心的短信。
以上短信的获取方式仅为举例, 本发明对此不作限定。
根据需要, 可以设置短信釆集时间周期, 例如周期可以为一天, 一周或者 一个月。 该时间周期结束时, 将釆集的短信数据供后续步骤分析和处理。
对于步骤 S12, 描述如下:
由于短信字数的限制 (一般 <70个汉字), 以及输入不便等各种原因, 通过 步骤 S11 得到的短信数目极大, 而且内容主题分散, 这将可能造成后续的文本 分类过程时间复杂度的急剧攀升, 同时严重影响用户需求的准确性。 为此, 首 先剔除群发短信号码。 具体方法为: 根据数据釆集时间设定一阔值 k, 如果某个 移动号码发送的短信条数超过该阈值, 就判定该号码为短信群发号码, 需要将 该号码发送的所有短信数据从短信数据库中删除。 对于号码发送短信条数的判 断可利用数据库管理系统的统计功能实现。 阔值的选取一般应取明显异常的值, 例如, 如果短信釆集时间为一天, 则可取阔值 k=300; 如果釆集时间为一月, 则 可取阔值 k=2000。
其次, 针对短信字数较少, 往往需要连续几条短信才能表达明确的内容, 而且与不同的接收对象所交流的主题并不一定相同的问题, 利用短信文本的时 间相关性和对象相关性, 按照短信内容进行聚类。 时间相关性和对象相关性可 以通过对短信数据库排序得到, 其中主关键字为短信发送方的移动终端号码, 次关键字为短信接收方的移动终端号码。 短信聚类的好处是使得短信文本的数 量极大减少, 同时使得文本主题相对集中, 便于后续短信分类。
为降低聚类算法的复杂度, 本发明实施例提出一种基于滑动窗口的文本整 合方法。 具体为: 预先确定一个合适的窗口尺寸 w, 新的短信文本仅需和最近 的 w个已整合短信文本进行相似度计算, 对相似度高于阈值的最相似短信文本 进行整合。 通过适当调整 w值, 该算法在保证效果的同时使得时间复杂度可控。
图 2所示为本发明实施例的短信预处理与整合流程图。 具体包括: 步骤 S30、 设置群发度阔值!^、 滑动窗口尺寸 w和相似度阔值 d;
步骤 S31、 以发送方号码为主关键字、接收方号码为次关键字对短信数据库 进行排序;
步骤 S32、删除数据库中短信发送数量超过阔值 k的所有记录, 即删除群发 短信记录;
步骤 S33、 判断短信数据库中是否还有未处理短信, 若有, 继续下列步骤; 否则, 结束处理流程;
步骤 S34、 读入下一条短信;
步骤 S35、 提取短信的特征向量;
步骤 S36、 计算与前 w条短信的相似度;
步骤 S37、 判断相似度是否大于相似度阔值 d; 若是, 执行步骤 S38; 否则, 执行步骤 S39;
步骤 S38、 将该短信与最大相似度的文本整合, 转至步骤 S33 ;
步骤 S39、将该短信作为滑动窗口中的新文本,同时滑动窗口向后滑动一格; 转至步骤 S33。 上述流程需要事先指定群发度阔值、 相似度阔值和滑动窗口尺寸, 这些参 数可根据需要进行适当调整。
文本相似度的计算方法如下:
对两个文本 S1和 S2 , 令它们的所有特征词构成的向量空间为 V = { Xi, X2, X3, ... , Xn } ,其中 为特征词。设文本 SI的特征向量
Figure imgf000008_0001
其中 为 特征词 在文本 si中的频度; 文本 S2的特征向量 ^ 其中 为特 征词 在文本 S2中的频度。 则两个文本的相似度按照下式计算:
Figure imgf000008_0002
文本的合并方法为直接按照特征词的频度对应相加并规范化。 设文本 S1和 文本 S2的特征向量表示如上, 将其各特征项所对应的特征向量相加, 然后对其 规范化。 新文本的发送时间为新近被合并文本的发送时间。
合并后的文本向量规范化方法优选釆用最小最大规范化方法。 设直接按照 特征词的频度对应相加后所得到的新文本特征向量为 = {υι, υ2, ···, } , 其中 vt为 特征词 在新文本中的频度。设规范化以后所得到的特征向量为 = W, 2, , 其中 为特征词 在规范化后的新文本中的频度, 其计算方法如下:
_ φί -Μίηφί
Μαχφί -Μίηφί
在文本特征向量合并的同时, 记录该新文档对应的原始短信数目。 具体实 现时只需在每次合并时将新文本包含的短信数量加 1即可。
经过短信预处理及整合后的短信文本格式如下表 2所示:
表 2
发送方 ID 发送日期、 时间 短信文本向 原始短信
量 条数 整合后的短信文本可以存入数据库中, 也可以存为文件或者其它形式。
由于利用了短信特有的时间相关性、 对象相关性和内容相关性, 经过整合 的短信文本主题相对集中, 同时极大的减少了短信数量, 使得整合后的短信文 本更易于后续分类。 对于步骤 S13 , 描述如下:
短信文本分类用于将移动终端发送的短信文本分类到预先定义的短信类别 中。 中文文本分类技术主要包括多分类器集成学习的方法、支持向量机(SVM )、 KNN方法、 朴素贝叶斯方法、 决策树、 神经网络、 最大熵模型等, 它们都可用 于本发明实施例的分类过程。 由于 SVM的分隔面模式有效地克服了样本分布、 冗余特征以及过拟合等因素的影响, 具有很好的泛化能力, 在效果和稳定性上 相对其它方法具有优势, 因此本发明实施例优选 SVM方法作为分类算法。 然而 本发明显然不局限于使用 SVM算法。
本发明实施例利用 LIBSVM软件包来实现 SVM分类操作。
首先, 从整合后的短信数据库中选择出若干条短信文本作为训练文本集, 并对这些训练文本进行人工分类。 训练文本的选择需要使得各个类别的文本数 量差别不大。 具体实现时, 可以预先指定每个类别的文本数目, 例如 100 , 然后 逐条从短信数据库中读入短信文本, 对其进行人工分类。 如果该类别的文本数 量不足, 则将该文本进行类别标记并放入训练集中; 如果该类别文本数量已达 到指定数目, 则简单的丟弃该文本, 重新从短信数据库中读入下一条文本。
得到训练文本后, 需要提取该训练集文本的特征, 并使用向量空间模型 ( Vector Space Model, VSM )将训练文本集中的文本表示为其对应的特征向量。 特征向量的提取有多种方法, 例如釆用 tf x idf方法, 该方法的具体实现可以参 考文献 Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002,34(1)::!— 47。
经过上述处理后, 训练数据集可表示如下:
Figure imgf000009_0001
其中, 为训练文本集中第 i个训练文本的特征向量, C为该特征向量的人 工分类类别集(即第二类别集)。 第 i个文本的特征向量 表示如下:
Figure imgf000009_0002
其中 (^ = 1, 2,· · ·^)为特征项 k对文本 i的贡献程度, n为特征向量的维数。 人工分类类别集 C表示如下:
Figure imgf000009_0003
其中, m为类别数。
接下来利用 LIBSVM工具进行文本模型的训练, 其步骤如下: 1)设置系统参数。 该参数可通过 LIBSVM软件包提供的 svm_parameter方 法进行参数设定。本实施例中,选用 C— SVC类型的支持向量机,其核函数( Kernel Function )使用径向基函数 (Radical Base Function, RBF ):
^(x! , x ) = exp(- | x! - x I2 )
设定 RBF核函数的参数 γ的初始值为 0.5; svm type属性, 具有 C— SVC, NU_SVC, ONE— CLASS , EPSILON— SVR, NU_SVR共五个可选值, 本实施例 选用 C— SVC; C属性, 表示分类的类别数, 设置为类别集的元素个数, 即为 m; kernel— type属性, 具有 LINEAR, POLY, RBF, SIGMOID, PRECOMPUTE共 五个可选值, 本实施例选择使用 RBF; shrinking属性, 本实例将其值设置为 1。 此外, 从计算机运算的角度上出发, 本实施例设置緩存大小为 40MB , 运算的精 度为 0.001 , 这些参数分另 ll对应着 svm_parameter的 cache— size, eps, shrinking 属性。 综上所述, 本实施例选择的参数为:
svm type = C SVC;
C = m;
kernel— type = RBF;
cache— size = 40;
eps = 0.001;
shrinking =1
2)训练属性设置。
设定 SVM的参数后,将训练数据集做为 SVM的输入,经过训练后产生 SVM 的分类器的分类模型。 在 LIBSVM软件包中, 使用 svm_problem来描述当前的 分类问题。 设置 svm_problem的 1属性为训练数据集 T的元素个数, x和 y属性 分别设置为训练数据集 T的训练文本特征向量集和对应的训练文本的类别集。
在使用 LIBSVM时, svm_problem的 x属性是一个二维的 svm— node数组。 将其第一维大小设置为训练数据集 T的元素个数, 第二维设置为训练数据集 T 中训练文本特征向量的维数。训练数据集 T中的每一个元素对应着 X中的一行。 对于 svm_problem的 x属性中的第 i行 j列元素 x[i] j] ,设置其 index属性为 j+1 , 同时设置其 value属性为训练数据集合中第 i个训练文本的特征向量的第 j维数 值。
svm_problem的 y属性是一个一维数组,其大小为训练数据集 T中的元素个 数。 对于 y的第 i维, 设置其值为训练数据集 T中的第 i个训练文本的类别 Cl
3)训练 SVM分类器模型。
在 LIBSVM软件包中,调用 svm的静态 svm— train方法便可以完成 SVM分 类器的训练工作。 该方法使用 svm_problem和 svm_parameter作为参数 , 这两个 参数在前面的步骤中均已经设置完成。 svm— train方法的返回值为 svm— model类 型的对象, 该对象即为 SVM分类器模型。
4 )短信分类。
通过上述步骤就完成了 SVM分类器的构造任务,接下来开始短信文本分类。 在对未知文本分类之前, 需要将文本 d按照 VSM模型表示为其特征向量:
LIBSVM软件包提供了利用 SVM分类器模型来预测未知文本类别的功能。 对于未知文本 d的特征向量 wd,按照训练数据集中的训练数据的录入方式录入, 只是不设置其对应 svm— node的 value属性。
录入待预测的文本的特征向量后,调用 svm的静态 svm_predict 方法,便可 以完成预测工作。 该方法使用 svm— model 和 svm— node 数组作为参数。 svm— model为步骤 3 )中生成的 SVM分类器模型, svm— node数组则对应着待预 测类别的文本的录入数据。 svm_predict方法将返回通过 svm— model预测的文本 的类别。
上述步骤将短信文本分类后, 每一条短信文本就归属于某个特定的类别。 在实现时通过事先建立类别文件, 如果判断出某条短信的类别, 则将发送该短 信文本中的移动终端号码记入分类类别中。 即建立起发送该短信的移动终端标 识和对应类别的映射关系。 对数据库中全部短信按照上述分类方法进行分类后, 得到如图 3所示的短信分类示意图。
图 3中, 短信类别共分为 m种, 在每种类别下包含若干个发送对应类别短 信的移动终端标识, 如用户 1移动终端标识、 用户 2移动终端标识、 用户 3移 动终端标识、 用户 4移动终端标识等。
对于步骤 S14, 描述如下:
通过上述步骤得到的短信分类结果具有如下特征:
1、 某个移动终端可能被划分到多个类别中, 如图 3中的用户 1移动终端被 分类到类别 1 , 类别 2和类别 m中; 2、 某个类别中可能包含同一个移动终端标识多次, 如类别 1 包含 "用户 1 移动终端标识" 两次;
3、 某个类别中包含的移动终端是无序的, 如类别 1下的 "用户 1移动终端 标识" 和 "用户 2移动终端标识" 之间不存在任何顺序;
4、 分类结果中包含大量数据, 对于每一个需要分类的整合后文本, 在结果 集中均会存在一个结果与之对应; 即包含与整合后短信文本对应移动终端标识, 以及一条整合后短信文本所包含的短信数量; 如类别 1 中, 包括两条用户 1移 动终端标识, 其对应的短信数量分别为 8和 12。
由于分类结果包含了大量的数据, 且每个类别中的移动终端标识均是杂乱 无章地排列的。 这样的数据不能直接表达不同对应移动终端用户对于某个类别 的兴趣, 从而对广告短信投放的正确性产生一定的影响。
为了解决上述问题, 需要对各类别中包含的移动终端标识在该类别中出现 的情况进行统计, 并计算该用户发送此类短信的条数, 根据短信数量对移动终 端用户降序排列。
对于上述 SVM分类器的分类结果, 产生如图 4所示的用户兴趣频度表。 在图 4 所示的用户兴趣度列表中, 同一个类别中不会出现相同的移动终端 标识。 在某个类别下, 频度越大的移动终端, 对该类感兴趣的程度就越大。 对 于实际应用来说, 一个类别下包含同一个用户的次数通常是超过 1 的, 因此, 该结果较 SVM分类后的数据结果集需要更少的存储空间。
还可以通过对不同时间出现的分类结果赋以不同的权值来计算用户的感兴 趣程度。 由于短信文本是按照时间先后顺序排列, 时间较早的短信较早出现在 分类结果中, 通过对早期的分类结果赋以较低的权值, 而对后期的结果赋以较 高的权值, 这样计算出来的兴趣度能更好的反映用户最近的兴趣和需求。 当短 信时间较长时, 优选加权的兴趣计算方法。
对于步骤 S15, 对根据短信数据库建立起社区网络的方法描述如下: 本发明实施例从用户移动终端短信的收发行为来挖掘社区网络。 由于在短 信交流的虚拟世界里, 交流频繁的用户一般关系较为密切, 交流很少的用户则 关系较为疏远, 因此用户之间有无短信往来、 短信往来的频繁程度决定了其在 社区中的影响程度和影响范围。
本发明实施例使用有向网络 G=(V,{E},W) 来表示用户社区, 网络的结点 ve V表示用户的移动终端, 网络的边(即结点之间的有向弧线) ee E表示用户 之间的短信收发关系, 边^上的权值 w^ W为用户之间短信数量。 图 5所示为 从短信数据库中得到的用户社区的一个实例。 图 5中用 ID 1、 ID2、 ID3、 ID4、 ID5分别表示不同的移动终端标识( ID )。
社区网络建立步骤如下:
1 )初始化时网络为空, 短信数据记录指针为 i=l ;
2 )从短信数据库中读入第 i条短信的发送方移动终端标识(如号码)和接 收方移动终端标识(如号码);
3 )判断发送方移动终端标识和接收方移动终端标识是否为网络结点标记, 如果未标记, 则建立结点并标记该结点为相应的移动终端标识, 并从发送方到 接收方建立一有向弧, 其上标记权值 1 ; 否则标记发送方结点到接收方结点权值 为原权值加 1。
4 )如果短信数据库还有数据, 则转至 2 ), 重复上述步骤, 否则结束。
上述方法得到的社区网络可能非常庞大, 最坏情况下所有用户的移动终端 都将存在直接或者间接的联系, 这样就会得到全部移动终端用户属于一个社区 网络的情况。 此外, 用户可能偶尔输入错误的号码, 这样的误发短信并不能表 示用户之间存在密切联系, 从而导致得到的网络并不能反映用户之间的联系情 况。
为防止上述两种情况, 提出如下的解决办法:
第一个方法: 可以在该社区网络中寻找强连通分量。 强连通分量定义为网 络中所有结点之间互相可达, 而可达定义为结点之间存在一条有向的简单路径。
第二个方法: 是仅考虑联系比较密切的用户之间的关系, 而不考虑联系较 稀少的用户之间的关系。 在具体实现时, 只需将权值小于某个阔值的边从网络 中删除。 该阔值可根据系统实际情况选取, 通常取值为 2 ~ 5即可。
经过上述处理, 该有向网络将包含若干个连通分量。 而从有向网络得到连 通分量可通过多种方法, 例如深度优先遍历算法求得。
在具体实现时, 该网络可釆用邻接矩阵或者邻接表等作为存储结构, 本实 施例优选邻接表作为存储结构。 在该存储结构中, 表头结点存放在一个向量, 该头结点至少包括存放用户移动终端号码和指向第一条邻边的指针的域; 表结 点表示一条边, 至少包括下一个邻接点的指针和该边的权值两个数据域。 对于步骤 S16, 根据社区网络确定出主导用户, 具体包括:
在确定主导用户时, 本实施例通过定义用户的主导域来保证短信的覆盖面 足够广, 同时主导用户的数量控制在合适的数量范围内。 其中主导域的计算需 要依据用户的主导程度和主导范围而定。
用户 i对 j的主导程度 p定义为用户 i的移动终端 i和用户 j的移动终端 j之 间的短信交互频度, 按下式计算:
= ^α1 ] + λ2α] 1
其中 表示弧 <V1 Vj>上的权值,即移动终端 i发送给移动终端 j的短信条数, 表示弧 上的权值,即移动终端 i从移动终端 j接收到的短信条数; 4( i=l , 2 ) 为常数, 且
Figure imgf000014_0001
表示发送和接收的不同权重。 由于发送方具有更大的 主动性, 更能体现其影响力, 同时其接收的条数也能反映其影响效果, 所以在 此暂取
Figure imgf000014_0002
在充分实践后可再更改取值。
用户的主导程度定义为该用户对各个用户主导程度之和, 即
Pi =∑P 。
用户的主导范围 r定义为:
Figure imgf000014_0003
上式中, ζ表示通信终端 i的主导范围, ^表示通信终端 i所发出短信的 总条数, „表示通信终端 i所接收短信的总条数, ;/,. ( i=l,2 )为常数且
表示短信发送和接收的不同权重; 同样暂取 =0.8, ^=0.2。
移动终端 i的主导域 J,的计算方法为:
τ ρ, rt
Lt = γιί-1 ~ + γ2 ~■ ~
avgip) vg(r)
上式中, A为移动终端 i的主导程度, 为全部移动终端的平均主导程 度, 为移动终端 i的主导范围, g(r)为全部移动终端的平均主导范围。 x.( i=l,2 ) 为常数且 + y2=l ,实际应用中可根据情况调整主导程度和主导范围之间的权重。
一旦求出用户移动终端对应的主导域, 将 降序排列即可得到网络中用户 主导域的大小顺序值。 例如, 对图 5中所示社区网络, 相应的计算结果如下表 3 所示 (其中主导程度和主导范围的平衡系数取值为 ^=0.4, 72=0.6 ):
表 3
用户移动终端 ID ID ID ID ID av 标识 主导程度 P 2. 2. 主导范围 r
0 0
主导域 L
259 593 739 223 186 由上表 3可知, 五位用户的最终主导域高低顺序为: ID3 , ID1 , ID5 , ID2, ID4。 此顺序列表的一个典型的结果形式如下图 4所示:
表 4
用户移动终端标识 主导域
ID3 1. 739
ID1 1. 259
ID5 1. 186
ID2 0. 593
ID4 0. 223 通过上述步骤 S11-S16, 已经根据用户移动终端之间的短信交互, 建立起了 针对某一短信类别 (与广告类别相对应) 的用户兴趣频度表; 并根据建立的社 区网络, 确定出主导用户列表。
下面具体描述广告分类方法, 以及如何根据获得的用户兴趣频度表及主导 用户列表来最终确定出广告推送的对象。
针对步骤 S21 , 具体描述如下:
参见图 6, 首先, 为广告录入并对该广告进行分类的流程图。 广告信息录入 时可以只录入广告信息, 此时该信息需要以文本信息表示, 该广告信息需要进 一步进行分类; 在录入时也可根据需要录入该广告信息的类别信息, 此时的类 别信息和短信类别信息一致, 都是预先定义好的。 如果广告被指定了类别, 则 广告形式可以为文本, 也可以为文本以外的其它形式, 如可能包含视频或者图 像或者音频等信息。 广告录入时既可以手工逐条录入, 也可以事先将广告信息存放到文件或者 数据库文件中批量录入。
如果录入广告未指定类别, 则需要对其进行分类。 广告文本的分类可釆取 多种方法实现。 由于一个广告可能属于多个商品类别, 因此不能釆取 SVM等单 分类算法实现。 本实施例釆用如图 6 所示的分类算法实现单个广告文本到多个 类别的分类。 具体的分类步骤如下:
步骤 S40、 读取一条广告信息;
步骤 S41、 确定是进行自动分类还是人工分类, 如果是人工分类, 执行步骤
S42; 否则, 执行步骤 S43;
步骤 S42、根据预先定义好的广告类别,对当前广告录入其所属的广告类别 中, 结束当前广告的分类;
步骤 S43、 提取广告文本的特征并表示为^, ={1^,^,2,…^丄
步骤 S44、将训练数据的第 ί( = ΐ,2,···,)类向第」(· = 1,2,···,«)维投影,得到第 i类第 j维的重心 Ce"t 以及投影范围 Rawg^. , 和 分别表示训练数 据集中第 i类第 j维文本距中心的负向和正向半径。 具体方法如下:
将第 i类训练数据集 Γ = {7 I 7; e 且1类别为 Cl }分别向第 j (· = 1, 2, · · ·, 维投影, 在第 J维的投影中得到数据: 其中, Τ¾表示第 i类训练数据集 Τ中的第 i个文本特征向量的第 j维, k为 T中元素个数。 计算第 j维的重心 ce«t :
同 时计算投影范围 Rangeij =(^,R^ , 其中 , =max(Cewt .- .) , = max(7^. - Center^.)。
步骤 S45、 计算等效半径 , 具体方法为:
d ^+(l- « 其中, a = =—^- , n~ , nl分别表示位于 Center左右的文本数;
+
步骤 S46、 计算广告和各类别的距离 其中, 1/β2为距离系数,分类器函数对该变量并不敏感,本实施例中取 β=10。 计算 S,.(fTd,)的值, 得到广告特征向量对于类别 i的距离值。 该值越小, 表明广告 越靠近相应的类别;
步骤 S47、最后确定该广告的所属类别; 一种简单的实现方法是取距离最小 的 k个类别为该广告的类别,例如取 k=3; 优选的实现方法是根据距离值从小到 大排序, 然后检查相邻的两个距离值的变化情况, 若变化程度突然变大, 则认 为该广告属于该变化前面的若干个类别。
针对步骤 S22, 确定用户兴趣度列表, 具体描述如下:
在对广告文本进行分类后, 需要确定对该广告感兴趣的用户列表, 该列表 的用户都是对给定广告感兴趣的移动终端用户, 并按照用户的感兴趣程度从高 到低排列。
对于待投放的广告 4, 经过广告分类操作后, 4被分类到类别集 GC中。 对于 中包含的类别 .e , 根据步骤 S14中确定出的用户兴趣频度表, 并结合 广告分类的所属类别, 可以得到对该广告感兴趣的所有移动终端用户。 具体方 法如下:
1 )、利用广告分类方法将广告 4分类,得到其类别集合 ={cn,C,.2,.. }GC以 及广告 4与 中每个元素相对应的相似度集合 ··· };
2)、 对于 的类别, 在短信分类中, 其中与其建立起映射关系的移动终端 标识即为对广告 4感兴趣的移动终端。计算 与对 4感兴趣的用户移动终端标识 uj在 中对应类别中出现的次数构成的向量 ^之间的内积 ifl
Ift =(S1,tj) =∑(sirxt]r) 其中, = ^), ^为^.在 ^ = 1,2,...^)中出现的次数。 ^即为移动 终端标识 的对应用户对广告 4的感兴趣程度;
3 )、 按照^大小降序排列, 得到对该广告感兴趣的用户列表, 即用户兴趣 度列表(以用户的移动终端标识代表用户;)。
针对步骤 S23, 确定最终广告对象, 具体描述如下:
上述步骤 S22 中得到的用户兴趣度列表, 即为潜在的广告对象列表。 为达 到更好的广告效果并节省广告成本, 需要对广告对象进行精选:
广告对象精选主要基于如下理由: 1 )、 用户兴趣度列表中包含了大量结果, 包括对广告兴趣度很低的用户。 如果向这些移动终端投放广告的话, 一方面不能引起用户的兴趣, 会被用户视 为垃圾短信, 甚至将广告短信发送列入 "黑名单", 导致将来更多的广告短信都 不能正常发送。 另一方面, 发送大量的短信会占据很大的网络资源, 严重状况 下甚至会导致网络拥塞, 影响正常短信的发送。
2 )、 一般来说, 用户更加信任朋友或者亲人所推荐的商品而不是广告进行 的宣传; 因此, 可以通过上述步骤 S16 中确定出的主导用户在该社区网络中转 发广告, 这样不仅可以减少短信数量节省广告成本, 更由于社区网络成员的相 互信任而达到更好的广告效果。
3 ) 可以进一步根据各移动终端对应兴趣度和其主导域, 得到一个兴趣主导 用户列表, 具体为:
对 于 由 兴 趣度 和 主 导 域表 示 的 用 户 的 移 动 终端 为 :
Figure imgf000018_0001
将兴趣度和主导域作内积, 根据得出的兴趣主导程度生成新的兴趣主导用 户列表。 内积的形式为:
Ik = ^Li
其中, I 为用户 i的兴趣主导程度, 为通过上述方法确定出的移动终端 i 对应用户对 i类广告的兴趣度, 为通过上述方法确定出的用户移动终端 i的主 导域。 此内积所决定的用户移动终端标识顺序, 即为给对应用户发送广告将能 达到的理论上的广告效果的顺序。 兴趣主导用户列表的一个典型的结果形式如 下表 5所示:
表 5
用户移动终端标识 兴趣主导程度
ID1 1. 658
ID2 1. 012
IDU 0. 125 广告运营商针对待发的广告, 给定广告对象规模 N。 根据上述方法得到该 广告的类别集 = {cn,Ci2,.. } £ C。 最终的广告目标用户将从三个方面获取: 用 户兴趣度列表、 主导用户列表以及兴趣主导用户列表。
用户兴趣度列表中所包含的移动终端标识的对应用户, 对特定类别的商品 具有较大的兴趣, 且有潜在购买可能。 因此, 实际应用中可以从用户兴趣度列 表中选取兴趣度较大的 N*40% (可调整, 本实施例中选取 40%作为对商品兴趣 度较大的用户数上限)个用户作为最终广告目标用户的第一部分;
主导用户是一类具有社区代表性的用户, 对短信的发送具有较大的兴趣。 因此, 实际应用中先从主导用户列表中去除对当前广告所属类别不感兴趣的用 户, 再从剩下的主导用户列表中选取主导域较大的 N*10% (可调整, 本实施例 中选取 10%作为主导用户的上限)个用户作为最终广告目标用户的第二部分; 最后, 从兴趣主导用户列表中剔除掉已选择的第一和第二部分用户, 再从 中选取 N*50% (可调整)个用户作为最终广告目标用户的第三部分。
以上三部分的总和即为根据最优原则选取出来的最终广告发送对象。
针对最后一个步骤 S24, 生成广告并发送, 具体描述如下:
广告发送存在两种形式:
其一, 面向选择出的所有用户, 广告内容和形式完全相同;
其二, 广告内容和形式存在个性化差异。
由于短信群发技术已经非常成熟, 本发明实施例可以直接利用现有的短信 群发平台实行广告发布, 因此可以将这两种形式的短信广告直接传递给现有的 短信发送平台直接发布即可。
在实际应用中, 用户移动终端可能具有不同的特征和功能。 例如, 不同移 动终端的屏幕可能具有不同的尺寸、 支持不同数量的颜色; 在功能上某些移动 终端仅仅支持文本短信, 而某些移动终端支持语音短信、 图像短信甚至视频短 信等。 据此, 一个可选实现方法是根据移动终端的不同特征功能, 为其发布不 同形式的短信广告, 以尽可能的提升移动终端用户对广告的关注程度。
在具体实施中, 由于移动终端特征可能存在非常大的差别, 对所有这些特 征进行广告准备存在极大的开销, 这些开销不仅包括准备各种不同短信形式的 开销, 而且在为不同移动终端选择广告形式时也存在极大的时间开销。 因此可 以只考虑两种基本的实现形式, 也就是将短信广告形式限定为纯文本短信和 MMS彩信两种形式。
用户移动终端的特征可以通过多种方法得到, 事实上移动无线访问协议 ( Wireless Access Protocol , WAP )应用中移动终端识别技术已经非常成熟, 可 直接利用该技术。
以上用具体实施例描述了根据移动终端发送的短信, 来确定不同类别广告 的推送对象的完整流程。 广告的方法,一种相应的信息推送装置 10的具体结构实施例如图 7所示, 包括: 第一信息处理模块 101 , 用于将第一信息按照第一类别集进行分类, 建立第 一信息与第一类别集中所属类别的第一映射关系;
第二信息处理模块 102, 用于获取信息源发送的第二信息, 将第二信息按照 第二类别集进行分类, 根据分类结果, 建立发送所述第二信息的信息源与第二 类别集中所属类别的第二映射关系;
信息匹配模块 103 ,用于根据第一类别集和第二类别集中所属类别之间的对 应关系, 由与所述第一信息建立第一映射关系的第一类别集中各类别, 匹配出 第二类别集中的对应类别, 并根据第二映射关系确定出对应信息源;
信息推送模块 104, 用于将第一信息推送到确定出的对应信息源。
上述第二信息处理模块 102执行如下具体处理:
周期获取通信终端发送的短信并存入本地短信数据库中, 通过计算各短信 文本的相似度, 将同一通信终端发送的多条相似的短信文本整合成一条短信文 本;
对整合后的短信文本釆用单分类算法进行分类, 将每一条整合后的短信文 本分入所述第二类别集中唯一类别; 并建立起发送该短信的终端移动标识与第 二类别集中该类别的第二映射关系;
统计出映射到第二类别集中同一个类别的、 同一通信终端发送的短信条数, 并按照短信条数对通信终端进行排序, 生成用户兴趣频度表;
第二信息处理模块 102还根据本地短信数据库中存储的短信, 建立以通信 终端标识为网络结点, 以通信终端之间的短信收发为有向弧线, 以交互的短信 数量为弧线权值的有向网络;
根据有向网络, 计算出每一个结点对应的通信终端对其余结点所对应的通 信终端的主导域值;
按照主导域值排列通信终端标识, 生成主导用户列表。 上述信息匹配模块 103 获取第一信息处理模块中第一信息映射的类别, 确 定出与第一信息关联的上述用户兴趣度列表; 并根据第一信息的推送规模, 在 确定出的用户兴趣度列表中按兴趣频度从大到小的顺序选择出若干个通信终 端; 由信息推送模块 104将第一信息推送给选择出的通信终端;
上述信息匹配模块 103还根据与第一信息关联的用户兴趣度列表中各通信 终端标识对应的短信条数, 以及第一信息与其映射的类别的相似度, 确定出各 通信终端对所述第一信息的兴趣度, 生成针对所述第一信息的用户兴趣度列表; 并根据第一信息的推送规模, 在确定出的用户兴趣度列表中按照兴趣度从大到 小的顺序选择出若干个通信终端; 由信息推送模块将第一信息推送给从用户兴 趣度列表中选择出的通信终端。
上述信息匹配模块 103还根据第一信息的推送规模, 在第二信息处理模块 102生成的主导用户列表中按主导域值从大到小的顺序选择出若干个通信终端; 由信息推送模块 104将第一信息推送给从主导用户列表中选择出的通信终端。
综上所述, 釆用本发明实施例, 能根据用户发送的信息 (第二信息, 上述 实施例中以用户移动终端发送的短信为例 ),分析用户需求,再与待推送信息(第 一信息, 上述实施例中以向用户推送广告为例)进行关联匹配, 确定出特定的 用户群体, 将第一信息推送给确定出的用户群体, 满足了用户的特定需求, 克 服了第一信息 (如广告)推送的盲目性, 避免了公共通信资源的浪费。 明的精神和范围。 这样, 倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内, 则本发明也意图包含这些改动和变型在内。

Claims

权 利 要 求
1、 一种信息推送方法, 其特征在于, 包括:
将第一信息按照第一类别集进行分类, 建立所述第一信息与第一类别集中 所属类别的第一映射关系; 以及将信息源发送的第二信息按照第二类别集进行 分类, 建立发送所述第二信息的信息源与第二类别集中所属类别的第二映射关 系;
根据第一类别集和第二类别集中所属类别之间的对应关系, 由与所述第一 信息建立第一映射关系的第一类别集中各类别, 匹配出第二类别集中的对应类 别, 并根据第二映射关系确定出对应信息源;
将所述第一信息推送到确定出的对应信息源。
2、 如权利要求 1所述的方法, 其特征在于, 所述第一类别集与第二类别集 中所属类别——对应或相同。
3、 如权利要求 1所述的方法, 其特征在于, 所述信息源为通信终端, 所述 第二信息为通信终端发送的多条短信。
4、 如权利要求 3所述的方法, 其特征在于, 在将信息源发送的第二信息按 照第二类别集进行分类之前还包括获取信息源发送的第二信息的步骤, 具体获 取方法包括:
接收短消息中心实时转发的通信终端发送的短信; 或
从通信终端的原始话单文件中获取短信; 或
监听并获取通信终端发送给短消息中心的短信。
5、 如权利要求 3所述的方法, 其特征在于, 所述将第二信息按照第二类别 集进行分类, 具体包括:
周期获取通信终端发送的短信并存入短信数据库中, 通过计算各短信文本 的相似度, 将多条相似的短信文本整合成一条短信文本;
对整合后的短信文本釆用单分类算法进行分类, 将每一条整合后的短信文
6、 如权利要求 5所述的方法, 其特征在于, 所述单分类算法包括但不限于 支持向量机 SVM算法。
7、 如权利要求 5所述的方法, 其特征在于, 所述将多条相似的短信文本整 合成一条短信文本, 具体包括:
对短信数据库中存储的短信按照发送方为主关键字、 接收方为次关键字进 行排序;
设置进行文本整合的滑动窗口尺寸 w, 逐条读取所述短信数据库中排序后 的短信, 与滑动窗口中的 w条短信文本进行相似度计算, 对相似度大于或等于 相似度阈值的短信文本进行整合; 若当前短信与滑动窗口中的 w条短信文本的 相似度均小于所述相似度阔值, 则作为滑动窗口中的新短信文本, 且滑动窗向 后滑动一格。
8、 如权利要求 7所述的方法, 其特征在于, 所述相似度计算方法包括但不 限于基于特征词向量的夹角余弦方法; 所述短信文本整合包括: 对同一通信终 端发送的相似度大于或等于相似度阔值的短信文本直接按照特征词的频度对应 相加并规范化。
9、 如权利要求 5所述的方法, 其特征在于, 将每一条整合后的短信文本分 入所述第二类别集中唯一类别后, 建立起发送该短信的终端标识与第二类别集 中该类别的第二映射关系。
10、 如权利要求 3或 5所述的方法, 其特征在于, 当多个相同的通信终端 标识映射到第二类别集中的同一个类别时, 对所述第二类别集中的每一个类别 分别生成用户兴趣度列表;
根据所述第一信息映射的类别, 确定出与第一信息关联的用户兴趣度列表; 根据第一信息的推送规模, 在确定出的用户兴趣度列表中按频度从大到小 的顺序选择出若干个通信终端, 将所述第一信息推送给选择出的通信终端。
11、 如权利要求 10所述的方法, 其特征在于, 所述用户兴趣度列表的生成 过程是:
当多个相同的通信终端标识映射到第二类别集中的同一个类别时, 统计出 该相同通信终端标识发送的短信数量;
对所述第二类别集中的每一个类别分别生成用户兴趣度列表。
12、 如权利要求 10所述的方法, 其特征在于, 所述用户兴趣度列表的生成 过程是:
根据与第一信息关联的各通信终端标识对应的短信数量, 以及第一信息与 其映射的类别的距离, 确定出各通信终端对所述第一信息的兴趣度;
生成的针对所述第一信息的用户兴趣度列表。
13、 如权利要求 3或 5所述的方法, 其特征在于, 还包括:
建立以通信终端标识为网络结点, 以通信终端之间的短信收发为有向弧线, 以交互的短信数量为弧线权值的有向网络;
根据所述有向网络, 计算出每一个结点对应的通信终端对其余结点所对应 的通信终端的主导域值;
按照所述主导域值排列所述通信终端标识, 生成主导用户列表;
根据第一信息的推送规模, 还在所述主导用户列表中按照主导域值从大到 小的顺序选择出若干个通信终端, 将所述第一信息推送给选择出的通信终端。
14、 如权利要求 3或 5所述的方法, 其特征在于, 还包括:
建立以通信终端标识为网络结点, 以通信终端之间的短信收发为有向弧线, 以交互的短信数量为弧线权值的有向网络;
根据所述有向网络, 计算出每一个结点对应的通信终端对其余结点所对应 的通信终端的主导域值;
按照所述主导域值排列所述通信终端标识, 生成主导用户列表;
则根据第一信息的推送规模, 以用户兴趣度列表和主导用户列表为基础选 择若干通信终端, 将所述第一信息推送给选择出的通信终端。
15、 如权利要求 14所述的方法, 其特征在于, 根据第一信息的推送规模, 以用户兴趣度列表和主导用户列表为基础选择若干通信终端的过程包括:
根据用户兴趣度列表和主导用户列表, 对同一通信终端的兴趣度和主导域 值作内积, 得到所述通信终端针对所述第一信息的兴趣主导程度;
按照所述兴趣主导程度排列对应通信终端标识, 生成兴趣主导用户列表; 根据所述第一信息的推送规模, 在所述兴趣主导用户列表中按照兴趣主导 程度从大到小的顺序选择出若干个通信终端, 且使选择出的若干个通信终端与 所述用户兴趣度列表和主导用户列表中已被选择的通信终端不重复。
16、 如权利要求 14所述的方法, 其特征在于, 根据第一信息的推送规模, 以用户兴趣度列表和主导用户列表为基础选择若干通信终端的过程包括包括: 删除包含在所述主导用户列表中、 但不属于与第一信息关联的用户兴趣度 列表中的通信终端标识;
按照所述主导域值重新排列所述主导用户列表中的通信终端标识, 生成新 的主导用户列表;
根据所述第一信息的推送规模, 在所述新的主导用户列表中按主导域值从 大到小的顺序选择出若干个通信终端。
17、 如权利要求 13所述的方法, 其特征在于, 所述计算出每一个结点对应 的通信终端对其余结点所对应的通信终端的主导域值, 具体包括:
计算通信终端 i对通信终端 j的主导程度:
Pi =
Figure imgf000025_0001
其中 表示通信终端 i发送给通信终端 j 的短信条数, 表示通信终端 i 从通信终端 j接收到的短信条数;
( i=l , 2 ) 为常数, 且 4+4=1 , 表示发送和接收的不同权重;
计算通信终端 i对有向网络中全部通信终端的主导程度之和, 即
Pi =∑P 。 定义通信终端 i的主导范围 r为:
r, = iid OUt + 2dUn
上式中, ζ表示通信终端 i的主导范围, ^表示通信终端 i所发出短信的 总条数, „表示通信终端 i所接收短信的总条数, ;/,. ( i=l,2 )为常数且 表示短信发送和接收的不同权重;
通信终端 i的主导域 J,的计算方法为:
Lt = γιί-1 ~ + γ2 ~■ ~
avgip) vg(r)
上式中, 为全部通信终端的平均主导程度, g(r)为全部通信终端的 平均主导范围。 X. ( i=l,2 )为常数且 ^ + ^=1。
18、 如权利要求 14所述的方法, 其特征在于, 所述计算出每一个结点对应 的通信终端对其余结点所对应的通信终端的主导域值, 具体包括:
计算通信终端 i对通信终端 j的主导程度:
Pi =
Figure imgf000026_0001
其中 表示通信终端 i发送给通信终端 j 的短信条数, 表示通信终端 i 从通信终端 j接收到的短信条数;
( i=l, 2 ) 为常数, 且 4+4=1, 表示发送和接收的不同权重;
计算通信终端 i对有向网络中全部通信终端的主导程度之和, 即
Pi =∑P 。
定义通信终端 i的主导范围 r为:
Figure imgf000026_0002
上式中, ζ表示通信终端 i的主导范围, ^表示通信终端 i所发出短信的 总条数, „表示通信终端 i所接收短信的总条数, ;/,. ( i=l,2 )为常数且
表示短信发送和接收的不同权重;
通信终端 i的主导域 J,的计算方法为:
τ ρ, rt
Lt = γιί-1 ~ + γ2 ~■ ~
avgip) vg(r)
上式中, 为全部通信终端的平均主导程度, g(r)为全部通信终端的 平均主导范围。 X. ( i=l,2 )为常数且 ^ + ^=1。
19、 如权利要求 1 所述的方法, 其特征在于, 所述将第一信息按照第一类 别集进行分类, 具体包括:
提取第一信息文本的特征 ; 计算训练数据集的每个维度的重心 C te^及投影范围;
计算等效半径 ^"。';
计算第一信息和第一类别集中各类别的距离:
, i^g^+i 其中 l/β2为距离系数;
、 )
根据第一信息与第一类别集中各类别的距离, 确定该第一信息映射的具体 类别。
20、 如权利要求 19所述的方法, 其特征在于, 将所述距离值较小的若干个 类别作为该第一信息映射的类别; 或者
将计算出的距离值按升序排列, 依次计算相邻的两个距离的差值, 当差值 突变时, 将与突变前各距离对应的类别作为该第一信息映射的类别。
21、 如权利要求 3或 5所述的方法, 其特征在于, 所述第一信息为商品、 业务或服务相关信息;
根据通信终端的不同类型, 将不同表现形式的第一信息通过短消息中心推 送给所述通信终端。
22、 一种信息推送装置, 其特征在于, 包括:
第一信息处理模块, 用于将第一信息按照第一类别集进行分类, 建立所述 第一信息与第一类别集中所属类别的第一映射关系;
第二信息处理模块, 用于获取信息源发送的第二信息, 将所述第二信息按 照第二类别集进行分类, 根据分类结果, 建立发送所述第二信息的信息源与第 二类别集中所属类别的第二映射关系;
信息匹配模块, 用于根据第一类别集和第二类别集中所属类别之间的对应 关系, 由与所述第一信息建立第一映射关系的第一类别集中各类别, 匹配出第 二类别集中的对应类别, 并根据第二映射关系确定出对应信息源;
信息推送模块, 用于将所述第一信息推送到确定出的对应信息源。
22、 如权利要求 21所述的信息推送装置, 其特征在于, 所述信息源为通信 终端; 所述第一信息为商品、 业务或服务相关信息; 所述第二信息为通信终端 发送的多条短信。
23、 如权利要求 22所述的信息推送装置, 其特征在于, 所述第二信息处理 模块周期获取通信终端发送的短信并存入本地短信数据库中, 通过计算各短信 文本的相似度, 将同一通信终端发送的多条相似的短信文本整合成一条短信文 本;
对整合后的短信文本釆用单分类算法进行分类, 将每一条整合后的短信文 本分入所述第二类别集中唯一类别; 并建立起发送该短信的终端移动标识与第 二类别集中该类别的第二映射关系。
24、 如权利要求 22或 23所述的信息推送装置, 其特征在于, 所述第二信 息处理模块还统计出映射到第二类别集中同一个类别的、 同一通信终端发送的 短信数量, 并按照短信条数对通信终端进行排序, 生成用户兴趣度列表;
所述信息匹配模块获取所述第一信息处理模块中所述第一信息映射的类 别, 确定出与第一信息关联的用户兴趣度列表; 并根据第一信息的推送规模, 在确定出的用户兴趣度列表中按兴趣度从大到小的顺序选择出若干个通信终 端;
所述信息推送模块将所述第一信息推送给选择出的通信终端。
25、 如权利要求 24所述的信息推送装置, 其特征在于, 所述信息匹配模块 还根据与第一信息关联的用户兴趣度列表中各通信终端标识对应的短信数量, 以及第一信息与其映射的类别的相似度, 确定出各通信终端对所述第一信息的 兴趣度, 生成针对所述第一信息的用户兴趣度列表; 并根据第一信息的推送规 模, 在确定出的用户兴趣度列表中按照兴趣度从大到小的顺序选择出若干个通 信终端。
26、 如权利要求 25所述的信息推送装置, 其特征在于, 所述第二信息处理 模块还根据本地短信数据库中存储的短信, 建立以通信终端标识为网络结点, 以通信终端之间的短信收发为有向弧线, 以交互的短信数量为弧线权值的有向 网络;
根据所述有向网络, 计算出每一个结点对应的通信终端对其余结点所对应 的通信终端的主导域值;
按照所述主导域值排列所述通信终端标识, 生成主导用户列表;
所述信息匹配模块根据所述第一信息的推送规模, 以所述主导用户列表和 所述的兴趣度列表为基础选择出若干个通信终端;
所述信息推送模块还将所述第一信息推送给选择出的通信终端。
PCT/CN2008/070483 2007-03-16 2008-03-12 Procédé et dispositif pour poussser des informations WO2008113290A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP08715219A EP2094023A4 (en) 2007-03-16 2008-03-12 METHOD AND DEVICE FOR PUSHING INFORMATION
US12/560,793 US20100075701A1 (en) 2007-03-16 2009-09-16 Method and apparatus for pushing messages

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710087413A CN101026802B (zh) 2007-03-16 2007-03-16 一种信息推送方法与装置
CN200710087413.8 2007-03-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/560,793 Continuation US20100075701A1 (en) 2007-03-16 2009-09-16 Method and apparatus for pushing messages

Publications (1)

Publication Number Publication Date
WO2008113290A1 true WO2008113290A1 (fr) 2008-09-25

Family

ID=38744622

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2008/070483 WO2008113290A1 (fr) 2007-03-16 2008-03-12 Procédé et dispositif pour poussser des informations

Country Status (4)

Country Link
US (1) US20100075701A1 (zh)
EP (1) EP2094023A4 (zh)
CN (1) CN101026802B (zh)
WO (1) WO2008113290A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197337A1 (zh) * 2015-06-10 2016-12-15 华为技术有限公司 短信息处理方法、装置及电子设备
CN107786736A (zh) * 2017-10-16 2018-03-09 微梦创科网络科技(中国)有限公司 一种垃圾短信提醒方式的智能控制方法及控制系统
CN110418171A (zh) * 2019-07-23 2019-11-05 腾讯科技(深圳)有限公司 媒体资源的推送方法和装置、存储介质及电子装置
CN114401494A (zh) * 2022-01-14 2022-04-26 平安壹钱包电子商务有限公司 短消息下发异常检测方法、装置、计算机设备及存储介质

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012841A1 (en) * 2007-01-05 2009-01-08 Yahoo! Inc. Event communication platform for mobile device users
CN101026802B (zh) * 2007-03-16 2012-10-17 华为技术有限公司 一种信息推送方法与装置
CN101516071B (zh) * 2008-02-18 2013-01-23 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
CN101959156B (zh) * 2009-07-20 2014-07-23 中国移动通信集团公司 信息推送方法、装置及推送对象识别装置
CN101620717A (zh) * 2009-07-22 2010-01-06 中兴通讯股份有限公司 一种用户需求的分析方法及系统
CN102457822A (zh) * 2010-10-21 2012-05-16 中国移动通信集团福建有限公司 一种移动通信系统中的网络社区数据库生成方法和设备
CN102045391A (zh) * 2010-12-09 2011-05-04 向心力信息技术股份有限公司 一种信息推送方法
US8566156B2 (en) * 2011-07-05 2013-10-22 Yahoo! Inc. Combining segments of users into vertically indexed super-segments
CN103209398B (zh) 2012-01-17 2015-12-09 阿里巴巴集团控股有限公司 灰名单建立的方法和系统以及短信发送的方法和系统
CN102572108A (zh) * 2012-01-31 2012-07-11 盘丝无限(北京)科技有限公司 一种优化手机消息服务的方法和系统
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
US8897424B2 (en) * 2012-07-11 2014-11-25 Oracle International Corporation Automatic clustering and visualization of data trends
CN102801817B (zh) * 2012-09-07 2015-07-15 深圳市学之泉集团有限公司 基于用户上下文的推送方法及装置
CN103716223A (zh) * 2012-09-28 2014-04-09 北京网秦天下科技有限公司 一种信息推送的方法和系统
CN103714474A (zh) * 2012-10-08 2014-04-09 阿里巴巴集团控股有限公司 推广信息投放方法及信息服务器
CN102957746B (zh) * 2012-10-29 2016-01-20 百度在线网络技术(北京)有限公司 一种向移动终端推送广告信息的方法及系统
WO2014110820A1 (zh) 2013-01-18 2014-07-24 华为技术有限公司 一种通知推送方法、装置和系统
CN104065677B (zh) * 2013-03-20 2018-05-25 腾讯科技(深圳)有限公司 一种业务数据推荐方法及设备
CN104112210B (zh) * 2013-04-17 2018-01-23 华为技术有限公司 一种推送广告的方法及设备
CN103517227A (zh) * 2013-07-24 2014-01-15 北京宽连十方数字技术有限公司 一种短信Adsense服务系统及其实现方法
US9836517B2 (en) * 2013-10-07 2017-12-05 Facebook, Inc. Systems and methods for mapping and routing based on clustering
CN105787072B (zh) * 2013-11-04 2019-06-28 中国航空工业集团公司沈阳飞机设计研究所 一种面向流程的领域知识抽取与推送方法
CN103593195A (zh) * 2013-11-22 2014-02-19 安一恒通(北京)科技有限公司 一种个性化软件的定制方法和装置
CN103685502B (zh) 2013-12-09 2017-07-25 腾讯科技(深圳)有限公司 一种消息推送方法、装置及系统
CN103744929B (zh) * 2013-12-30 2017-10-17 传神联合(北京)信息技术有限公司 目标用户对象的确定方法
JP2015154292A (ja) * 2014-02-14 2015-08-24 アプリックスIpホールディングス株式会社 ビーコン信号受信システム、記憶装置、端末装置及びビーコン信号受信方法
CN103944987A (zh) * 2014-04-18 2014-07-23 北京搜狗科技发展有限公司 为用户整合个性化资源的方法及装置
CN105095292B (zh) * 2014-05-15 2019-08-09 中兴通讯股份有限公司 语音邮箱系统的信息获取方法及装置
CN105227429B (zh) * 2014-06-25 2019-10-18 腾讯科技(深圳)有限公司 一种信息推送方法和装置
WO2016119184A1 (zh) * 2015-01-29 2016-08-04 刘一佳 一种按照电子书籍内容匹配广告的方法以及移动终端
CN105472400B (zh) * 2015-12-24 2019-06-11 Tcl集团股份有限公司 一种消息推送方法及系统
CN107229622B (zh) * 2016-03-23 2021-02-05 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN105868317B (zh) * 2016-03-25 2017-04-12 华中师范大学 一种数字教育资源推荐方法及系统
US10176609B2 (en) * 2016-05-11 2019-01-08 Runtime Collective Limited Analysis and visualization of interaction and influence in a network
CN107786952A (zh) * 2016-08-30 2018-03-09 南京中兴软件有限责任公司 信息处理方法及装置
CN108073671A (zh) * 2017-04-12 2018-05-25 北京市商汤科技开发有限公司 业务对象推荐方法、装置和电子设备
CN107748739A (zh) * 2017-10-19 2018-03-02 上海大汉三通通信股份有限公司 一种短信文本模版的提取方法及相关装置
CN108615177B (zh) * 2018-04-09 2021-09-03 武汉理工大学 基于加权提取兴趣度的电子终端个性化推荐方法
CN109039931B (zh) * 2018-07-17 2021-12-24 杭州迪普科技股份有限公司 一种虚拟化设备性能优化的方法与装置
CN109474542B (zh) * 2018-10-24 2022-05-13 平安科技(深圳)有限公司 基于业务规则的消息推送请求流量控制方法、装置及介质
CN110209855B (zh) * 2019-06-04 2021-05-14 成都终身成长科技有限公司 图片展示方法、装置、电子设备及计算机可读存储介质
CN113191896A (zh) * 2021-04-27 2021-07-30 华世界数字科技(深圳)有限公司 一种招标信息的推荐方法、装置及计算机设备
CN116228278B (zh) * 2023-03-10 2023-11-14 读书郎教育科技有限公司 基于大数据的用户画像建立方法和用户画像管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529966A (zh) * 2001-02-27 2004-09-15 ��˹��ŵ�� 推式内容过滤
CN1787655A (zh) * 2004-12-09 2006-06-14 埃沃列姆公司 基于行为历史通过推式服务的信息提供系统
CN1845550A (zh) * 2005-04-06 2006-10-11 中兴通讯股份有限公司 一种wap终端用户push消息的接收方法及其系统
CN1870601A (zh) * 2005-05-27 2006-11-29 佛山市顺德区顺达电脑厂有限公司 推播信息接收方法与具有信息过滤功能的携带式电子装置
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置
CN101047723A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 分类信息推送系统及方法
CN101075253A (zh) * 2007-02-15 2007-11-21 腾讯科技(深圳)有限公司 一种广告信息推送系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130685A1 (en) * 2003-12-12 2005-06-16 Mark Jenkin Method and apparatus for inserting information into an unused portion of a text message
GB0508468D0 (en) * 2005-04-26 2005-06-01 Ramakrishna Madhusudana Method and system providing data in dependence on keywords in electronic messages

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1529966A (zh) * 2001-02-27 2004-09-15 ��˹��ŵ�� 推式内容过滤
CN1787655A (zh) * 2004-12-09 2006-06-14 埃沃列姆公司 基于行为历史通过推式服务的信息提供系统
CN1845550A (zh) * 2005-04-06 2006-10-11 中兴通讯股份有限公司 一种wap终端用户push消息的接收方法及其系统
CN1870601A (zh) * 2005-05-27 2006-11-29 佛山市顺德区顺达电脑厂有限公司 推播信息接收方法与具有信息过滤功能的携带式电子装置
CN101047723A (zh) * 2006-03-30 2007-10-03 腾讯科技(深圳)有限公司 分类信息推送系统及方法
CN101075253A (zh) * 2007-02-15 2007-11-21 腾讯科技(深圳)有限公司 一种广告信息推送系统和方法
CN101026802A (zh) * 2007-03-16 2007-08-29 华为技术有限公司 一种信息推送方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEBASTIANI F.: "Machine learning in automated text categorization", ACM COMPUTING SURVEYS, vol. 34, no. 1, 2002, pages 1 - 47, XP002961476, DOI: doi:10.1145/505282.505283
See also references of EP2094023A4

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197337A1 (zh) * 2015-06-10 2016-12-15 华为技术有限公司 短信息处理方法、装置及电子设备
US10165419B2 (en) 2015-06-10 2018-12-25 Huawei Technologies Co., Ltd. Short message processing method and apparatus, and electronic device
US10708726B2 (en) 2015-06-10 2020-07-07 Huawei Technologies Co., Ltd Short message processing method and apparatus, and electronic device
US11337042B2 (en) 2015-06-10 2022-05-17 Honor Device Co., Ltd. Short message processing method and apparatus, and electronic device
US11765557B2 (en) 2015-06-10 2023-09-19 Honor Device Co. Ltd. Short message processing method and apparatus, and electronic device
CN107786736A (zh) * 2017-10-16 2018-03-09 微梦创科网络科技(中国)有限公司 一种垃圾短信提醒方式的智能控制方法及控制系统
CN110418171A (zh) * 2019-07-23 2019-11-05 腾讯科技(深圳)有限公司 媒体资源的推送方法和装置、存储介质及电子装置
CN114401494A (zh) * 2022-01-14 2022-04-26 平安壹钱包电子商务有限公司 短消息下发异常检测方法、装置、计算机设备及存储介质
CN114401494B (zh) * 2022-01-14 2023-05-26 平安壹钱包电子商务有限公司 短消息下发异常检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
EP2094023A4 (en) 2010-05-19
CN101026802B (zh) 2012-10-17
EP2094023A1 (en) 2009-08-26
CN101026802A (zh) 2007-08-29
US20100075701A1 (en) 2010-03-25

Similar Documents

Publication Publication Date Title
WO2008113290A1 (fr) Procédé et dispositif pour poussser des informations
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
CN102208992B (zh) 面向互联网的不良信息过滤系统及其方法
US11645321B2 (en) Calculating relationship strength using an activity-based distributed graph
US8073263B2 (en) Multi-classifier selection and monitoring for MMR-based image recognition
US9495385B2 (en) Mixed media reality recognition using multiple specialized indexes
US8965145B2 (en) Mixed media reality recognition using multiple specialized indexes
US8369655B2 (en) Mixed media reality recognition using multiple specialized indexes
US8676810B2 (en) Multiple index mixed media reality recognition using unequal priority indexes
US8385660B2 (en) Mixed media reality indexing and retrieval for repeated content
US8489987B2 (en) Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
JP2018527682A (ja) 空港サービスに用いられるモバイルサービス端末、システム及びデータ処理方法
CN101496003A (zh) 社交网络中用户的兼容性评分
CN111125528B (zh) 信息推荐方法及装置
CN107896153B (zh) 一种基于移动用户上网行为的流量套餐推荐方法及装置
CN103778225B (zh) 广告营销类语言信息的处理方法、识别装置及系统
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN109377401B (zh) 一种数据处理方法、装置、系统、服务器及存储介质
US20120030211A1 (en) Message processing method and system
CN104572733A (zh) 用户兴趣标签分类的方法及装置
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
WO2022247666A1 (zh) 一种内容的处理方法、装置、计算机设备和存储介质
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN100419762C (zh) 适用于输入形式自由的无线短信匹配和搜索引擎的信息处理方法
CN112818238A (zh) 一种自适应在线推荐方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08715219

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008715219

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE