WO2013075275A1 - 用户信息采集方法和系统 - Google Patents

用户信息采集方法和系统 Download PDF

Info

Publication number
WO2013075275A1
WO2013075275A1 PCT/CN2011/082530 CN2011082530W WO2013075275A1 WO 2013075275 A1 WO2013075275 A1 WO 2013075275A1 CN 2011082530 W CN2011082530 W CN 2011082530W WO 2013075275 A1 WO2013075275 A1 WO 2013075275A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
original
target user
information
extended
Prior art date
Application number
PCT/CN2011/082530
Other languages
English (en)
French (fr)
Inventor
贾江涛
顾翀
董晓艺
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to CN201180002910.8A priority Critical patent/CN103502978A/zh
Priority to PCT/CN2011/082530 priority patent/WO2013075275A1/zh
Publication of WO2013075275A1 publication Critical patent/WO2013075275A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution

Definitions

  • Embodiments of the present invention relate to communication technologies, and in particular, to a user information collection method and system. Background technique
  • the development of the Internet provides users with a variety of information services, such as: blogs, forums, online communities, social networks, instant messaging, video sharing, etc. Users can post information on the Internet through the above various information services. .
  • the existing method of collecting user information can only be collected in one website.
  • indexing the content of a website using the way of searching in the station, searching according to the specified content keyword, user ID or date, finding the activity of the user in the website and publishing information.
  • the embodiment of the invention provides a user information collection method, which is used to solve the defects in the prior art and improve user information collection efficiency.
  • the embodiment of the invention further provides a user information collection system, which is used to solve the defects in the prior art and improve user information collection efficiency.
  • the embodiment of the invention provides a method for collecting user information, including:
  • the embodiment of the invention further provides a user information collection system, including:
  • a user original identity ID obtaining unit configured to acquire a first original ID of the target user
  • a query unit configured to query the user ID library according to the first original ID of the target user, to obtain at least one first extension of the target user ID
  • a user information obtaining unit configured to respectively search for a corresponding data source according to the first original ID and each of the first extended IDs, acquire user information in at least one data source, and store the information in the information base; And storing the first original ID and the first extended ID of the user;
  • the first embodiment obtains a plurality of first extended IDs of the target user according to the first original ID, according to the first An original ID searches for its corresponding data source and searches for a corresponding data source according to each first extended ID, so that user information of the target user among the plurality of data sources can be collected, thereby improving user information collection efficiency.
  • An original ID searches for its corresponding data source and searches for a corresponding data source according to each first extended ID, so that user information of the target user among the plurality of data sources can be collected, thereby improving user information collection efficiency.
  • FIG. 1 is a flowchart of a method for collecting user information according to Embodiment 1 of the present invention
  • FIG. 2 is a flowchart of a method for collecting user information according to Embodiment 2 of the present invention
  • FIG. 3 is a flowchart of a method for collecting user information according to Embodiment 3 of the present invention.
  • FIG. 4 is a schematic structural diagram of a user information collection system according to Embodiment 4 of the present invention. detailed description
  • FIG. 1 is a flowchart of a method for collecting user information according to Embodiment 1 of the present invention. As shown in Figure 1, the method includes the following process.
  • Step 101 Obtain a first original identity (ID) of the target user.
  • Step 102 Query a user ID library according to the first original ID of the target user, and obtain at least one first extended ID of the target user.
  • Step 103 Search for a corresponding data source according to the first original ID and each first extended ID, obtain user information in at least one data source, and store the information in the information base.
  • the data source may adopt any one or more of the following data sources, including: Social Networking Services (SNS), website, Web Database (WDB), Deep Web (DW), search engine, domain vertical engine, etc.
  • SNS Social Networking Services
  • WDB Web Database
  • DW Deep Web
  • search engine search engine
  • domain vertical engine etc.
  • the user information may include registration information of the user and a record of the user's speech in the data source, for example: a blog post posted by the user on the website, an article posted by the user in the web forum, a reply, and the like.
  • the first extended ID of the target user is first obtained according to the first original ID, according to the first original.
  • the ID searches for the corresponding data source and searches for the corresponding data source according to each of the first extended IDs, so that the user information of the target user among the plurality of data sources can be collected, so that the user information collection efficiency can be improved.
  • FIG. 2 is a flowchart of a method for collecting user information according to Embodiment 2 of the present invention. As shown in Figure 2, the method includes the following process.
  • Step 201 Obtain a first original ID of the target user.
  • each user may have a different ID in different websites, and in a specific website, the ID corresponds to the user.
  • each user can have multiple IDs used on different websites.
  • each user's ID can include any combination of one or more of the following, including: user name, social security number, mobile phone number, fixed line telephone Number, email account, online forum account, instant messaging tool account, etc., where email account such as: Gmail account, etc.; online forum account such as: facebook account; instant messaging tool Account numbers such as: MSN account number, QQ number, etc.
  • a certain user is selected as the target user, and one of the IDs of the target user is used as the first original ID.
  • the process of collecting the mobile phone number of the target user in advance and collecting other information of the user according to the mobile phone number is described by taking the first original ID as the mobile phone number as an example.
  • Step 202 Query the user ID library according to the first original ID of the target user, and obtain at least one first extended ID of the target user.
  • the user ID library user stores the ID of each user, including the first original ID and the extended ID.
  • the following ID of the target user is stored in the user ID library as an example: a mobile phone number, an MSN number, and a QQ number.
  • the ID library is queried according to the mobile phone number of the target user, and the MSN number and the QQ number of the target user are obtained.
  • the IDs of the users stored in the user ID library may be stored in the user ID library through the following sources, including: adding the ID input during the search to the user ID library; adding the ID obtained by analyzing the content during the information collection process to the user ID library; import ID into the user ID library; obtain the ID of the friend of the known ID from the SNS and add it to the user ID library; obtain the ID from the Converged Address Book (CAB) and add it to the user ID library; The user ID is added to the user ID library from the contact ID recorded in the user's local address book and/or network address book.
  • sources including: adding the ID input during the search to the user ID library; adding the ID obtained by analyzing the content during the information collection process to the user ID library; import ID into the user ID library; obtain the ID of the friend of the known ID from the SNS and add it to the user ID library; obtain the ID from the Converged Address Book (CAB) and add it to the user ID library;
  • CAB Converged Address Book
  • Step 203 Search for a corresponding data source according to the first original ID and each first extended ID.
  • the data source may adopt any one or a combination of the following data sources, including: SNS, website, network database, deep network, search engine, domain vertical engine, and the like.
  • the corresponding data source is separately searched according to the first original ID and each first extended ID.
  • searching for a corresponding data source according to the mobile phone number, the MSN number, and the QQ number of the target user specifically, the mobile phone number may correspond to a network shopping website, etc.
  • MSN number can correspond to MSN website and various forum websites;
  • QQ number can correspond to QQ website and various forum websites.
  • the corresponding data source is separately searched according to the first original ID and each of the first extended IDs, and the user information in the at least one data source is obtained and stored in the information base.
  • the process of acquiring user information in the at least one data source and storing the information in the information base may include the following steps 204 to 207.
  • Step 204 Acquire a first original ID and each first extended ID in at least one data source Search result text.
  • the user information is stored in each data source, and specifically includes the registration information of the user and the speech record of the user in the data source, for example, a blog post posted by the user on the website, and an article published by the user in the web forum. , reply, etc.
  • Searching in the data source according to the first original ID and each first extended ID obtaining registration information and a utterance record corresponding to the ID in the data source, and saving the search result text.
  • searching for a corresponding data source according to the mobile phone number, the MSN number, and the QQ number of the target user searching for a corresponding data source according to the mobile phone number, the MSN number, and the QQ number of the target user, specifically, the mobile phone number may correspond to a network shopping website, etc.
  • the MSN number can correspond to the MSN website and various forum websites, etc.
  • the QQ number can correspond to the QQ website and various forum websites.
  • Step 205 Extract the new ID of the target user from the search result text and store it in the user ID library.
  • Step 205 is an optional step. After step 204, step 205 and step 206 may be performed in sequence; step 205 may also be skipped, and step 206 may be directly performed.
  • step 205 extracting the new ID of the target user from the search result text may specifically include the following process.
  • the search result text is divided into at least one record block according to the HTML tag.
  • extracting the unknown ID in the record block from a certain record block includes: a Gmail mailbox as an example, and, in order to extract from the record block
  • the mobile phone number is an example.
  • the preset ID comparison method it is determined whether the unknown ID belongs to the same user as the first original ID of the target user and/or the first extended ID of the target user in the same recording block. If so, get the new ID of the unknown user for the unknown ID.
  • the step of determining whether the unknown ID and the first original ID of the target user in the same recording block and/or the first extended ID of the target user belong to the same user includes: First, determining that the same may belong to the same User's ID.
  • the search result text is subjected to recording block division, the user ID information is identified according to the user ID rule base, and the ID in the record block is extracted.
  • the search result text is a web page.
  • W3C World Wide Web Consortium
  • HTML Hypertext Markup Language
  • the judging method can be summarized as follows: For an ID that appears in a record block at the same time in a document or article, the probability of belonging to the same user is large. Among them, the probability that the IDs in the same record block belong to the same user is greater than the probability that the IDs appearing in one document belong to the same user.
  • the preset ID comparison method may adopt any one of the following methods.
  • Method 1 Co-referencing and referencing the unknown ID in the same record block with the first original ID of the target user and/or the first extended ID of the target user.
  • co-means digestion is a process of merging different descriptions of the same entity in the real world; referencing disambiguation is used to determine which noun phrase the pronoun points to.
  • the user's ID can be discovered by referring to the resolution. For example, in the search result text: "Xiao Ming is the project manager, the project needs to increase manpower, his phone number is 0755-88687863.
  • the user ID ID "Xiao Ming" and the user ID ID "0755” can be determined.
  • -88687863" is the same user.
  • Method 2 Compare basic information of the unknown ID in the same record block with the first original ID of the target user and/or the first extended ID of the target user.
  • determining, according to the basic information extracted from the search result text, whether the first original ID and the unknown ID belong to the same user for example, comparing the work units in the basic information corresponding to the first original ID and the unknown ID, Whether the address, published article, and other information are consistent. If they are consistent, they are determined to belong to the same user.
  • Method 3 Cluster analysis is performed on the unknown ID in the same record block and the user information of the first original ID of the target user and/or the first extended ID of the target user.
  • the content is clustered according to the content of the network activity information corresponding to the first original ID and the unknown ID collected in the system, If the first original ID and the unknown ID correspond to the network in the clustering result direction If the space where the network activity is located is close to or within the threshold range, it is determined that the above two IDs belong to the same user; otherwise, it is determined that the two IDs are used by different users.
  • the above three methods it is also possible to determine whether the first original ID and the unknown ID belong to the same user by using other IDs of the user. For example, it is known that one ID1 and the first original ID belong to the same user, if the above three are passed. Any one of the judging methods judges that the unknown ID and the ID1 are all owned by the same user, and then determines that the unknown ID and the first original ID are owned by the same user.
  • the specific example in the above steps is taken as an example.
  • the mobile phone number in the same record block is determined to belong to the same user by using any one of the foregoing three methods.
  • the Gmail mailbox is obtained as the new ID of the target user, and the target user's Gmail mailbox is stored in the user ID library.
  • Step 206 Extract user information from the search result text and perform structured processing.
  • the content in the search result is user information
  • the user information is structured to obtain the user information that needs to be collected.
  • Step 207 Associate the structured user information with the corresponding first original ID or the first extended ID and store the information in the information base.
  • the structured user information is stored in the information base, and when stored, the user information is associated with the first original ID and/or the first extended ID, so as to be in the subsequent reading process.
  • the user information may be read according to the first original ID and/or the first extended ID.
  • step 207 when storing, the user information is associated with the first original ID and/or the first extended ID.
  • the user information can also be associated with the new ID of the target user.
  • the user information is associated with the mobile phone number, the MSN number, the QQ number, and the Gmail mailbox of the target user, and then stored in the database.
  • the process of obtaining user information from the information base includes the following steps 208 to 210.
  • the first original ID is obtained from the first information interaction object
  • the second original ID is obtained from the second information interaction object.
  • the first information interaction object and the second information interaction object may be the same object, or may be different objects.
  • Step 208 Obtain a second original ID of the target user.
  • the second original ID of the target user is taken as the Gmail mailbox of the target user as an example.
  • Step 209 Query the user ID library according to the second original ID of the target user, and obtain at least one second extended ID of the target user.
  • the user ID library is queried according to the target user's Gmail mailbox.
  • the following IDs of the target user have been saved in the user ID: mobile phone number, MSN number, QQ number, and Gmail mailbox.
  • the Gmail mailbox is the second original ID of the target user, and the Gmail mailbox is queried from the user ID database, and any one or more of the mobile phone number, MSN number, and QQ number of the target user can be obtained. Items, each of which acts as a second extension ID.
  • the mobile phone number is taken as an example only by acquiring the second extended ID of the target user.
  • Step 210 Obtain a second original ID and user information corresponding to each second extended ID according to the second original ID and each second extended ID search information base.
  • this step searching the information base according to the target user's Gmail mailbox and mobile phone number, according to the information database updated in step 207, the target user can be obtained through the search process.
  • the first extended ID of the target user is first obtained according to the first original ID, according to the first original.
  • the ID searches for the corresponding data source and searches for the corresponding data source according to each of the first extended IDs, so that the user information of the target user among the plurality of data sources can be collected, so that the user information collection efficiency can be improved.
  • the user may also obtain the new ID of the user according to the user information and the first original ID and the first extended ID, and update the user ID library.
  • the new ID can be obtained, which improves the accuracy and scalability of obtaining the user ID.
  • the same user can search according to more IDs, thereby Collect user information more efficiently. Further, after the user information is collected and stored in the information base, when the user information of the target user needs to be acquired, the information can be directly searched and obtained from the information base, thereby enabling It's easier to get user information.
  • the specific method for extracting the new ID of the target user from the search result text may adopt any extraction method in the prior art, and the specific method of the present invention is not limited.
  • the process of extracting a new ID from the search result text is described below by taking only a preferred implementation as an example.
  • the search result text is word-divided and the part-of-speech tag is used. Then, the user ID is identified according to the rule knowledge in the user ID rule base, and the user ID information is obtained from the search result text as a new ID.
  • the dictionary is used to perform word segmentation on the search result text.
  • the specific method of word segmentation is: first perform atomic segmentation, and then perform shortest path segmentation.
  • Atomic segmentation is the process of dividing a raw string into a sequence of word breakers.
  • the word segmentation refers to the smallest unit of processing of the word segmentation. Participle atoms can be combined into words, but they cannot be further split internally. It consists of a single Chinese character, punctuation, and a non-Chinese character string consisting of single bytes, characters, numbers, and so on.
  • the shortest path segmentation will produce the final segmentation result.
  • the process of segmenting the shortest path is: According to the dictionary, find all possible words in the string, construct a word segmentation directed acyclic graph. Each word corresponds to a directed edge in the graph and is assigned to the corresponding side length, which corresponds to the weight of the word. Finally, for the segmentation map, the path with the shortest length value is found in all the paths from the start point to the end point.
  • the second step is to perform part-of-speech tagging on the word-processed words.
  • Part of speech ambiguity refers to the ambiguity of more than one part of a word in natural language.
  • the third step is to identify the user ID based on the knowledge of the user ID rule base.
  • the user ID may include, but is not limited to: a user name, an ID card, a social security number, a mobile phone number, a fixed line telephone number, an email (eg, a Gmail mailbox), an MSN number, a QQ number, a forum account number. , facebook account, etc.
  • Different rules are constructed according to the characteristics of different kinds of user IDs. For example, according to the characteristics of email (Email), the rules are constructed as follows: Contains the "@" symbol. For Gmail mailboxes, the rules can be constructed to include: "@gmail" symbol. Different types of user IDs are identified, rules are different, and methods of identification are different.
  • the fourth step is to obtain a new ID based on the user ID recognition result.
  • the process of adding an ID is described in detail.
  • the extraction method is as follows:
  • the name recognition mainly includes three processes: role information acquisition, character annotation, and person name recognition.
  • Table 1 is a role information comparison table. According to the corresponding relationship between the role and its meaning in Table 1, the role information is obtained.
  • the process of character labeling is similar to the part-of-speech tagging, that is, finding the most probable sequence of characters in all possible character tags as the final tag result.
  • the existing Viterbi algorithm can solve such problems.
  • the recognition mode set is: ⁇ BBC, BBCC, BBY, BC, BCC, BX, BXC, BY, CC, X, XC, Y ⁇ .
  • the corresponding tag Token
  • the example sentence is: " ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ / ⁇ /Item/.,' The corresponding label is "AAFBCCGBCVAAAAAA”. After processing, the final character sequence is "AAFBCCGBCCGAAAAAA”. After the pattern is matched, the names are recognized: "Zhou Enlai” and "Deng Yingchao”. Table 1. Role information comparison table
  • the extraction method is as follows: A common method is that a text fragment similar to "email" or “Email:” is generally displayed in front of the email in the search result text. . Use three initial relationship characteristics: “previous,” (ie “previous”), "next,” (ie “next”) and "current, (ie “current”), map a token to another or The same token.
  • token 1 is in front of token2
  • a rule-based learning-based relationship extraction algorithm is used in the extraction, and preferably, a Sequence Rules with Validation (SRV) algorithm may be employed.
  • SRV considers the formal characteristics of a single token, does not involve part of speech, semantics, etc. It is a FOIL-based relation extraction algorithm.
  • the rule description form limits the target domain length to be greater than, less than, or equal to a preset value.
  • This type of text limits the length of the target domain. For example, Length( ⁇ ,4) indicates that the length of the target domain is less than 4.
  • Var is a variable name
  • Path is a set of relational features
  • Feat includes a set of token features and structural features
  • Value is a value of Feat, and some can express both the internal and context characteristics of the target domain. For example: some (? A, [], Captialized, true) means that inside the target domain, there is a token that is Capitialized; some (? B, next, Captialized, true) indicates that there is a token in the target domain, and its successor token (whether or not in the target domain) is Captialized.
  • SRV rules different variables are bound to different tokens.
  • the rule description form limits the characteristics of each tag within the target domain.
  • each text is a fragment Test every 1 token in the middle. For example: every(single-digit, false) means that each token in the fragment cannot be single-digit.
  • the rule description form limits the characteristics of each tag within the target domain. Among them, position limits the position of a specific token in the fragment.
  • the value of From has fromfirst and fromlast, which respectively indicate whether the reference from the comparison is the fragment header or the tail. For example: position (? A, fromfirst, ⁇ , 2).
  • the rule description form limits the distance of two markers with preset features in the target domain. Among them, relpos limits the distance between two specific tokens inside the fragment. For example:
  • the Email rule description is expressed as: Description some (? A, next, word, "@” ) and description some (? A, previous, word, " :” ;).
  • Description some ? A, next, word, "@”
  • description some ? A, previous, word, " :” ;
  • FIG. 3 is a flowchart of a method for collecting user information according to Embodiment 3 of the present invention.
  • the method of obtaining the user information of the target user in the subsequent process is described by taking the storage of the content of the information base as an example.
  • the method includes the following process.
  • Step 301 Obtain the original ID of the target user.
  • the original user's original ID is taken as the target user's Gmail mailbox.
  • Step 302 Query the user ID library according to the original ID of the target user, and obtain at least one extended ID of the target user.
  • step 301 the user ID database is queried according to the target user's Gmail mailbox to obtain the mobile phone number of the target user as an example, and the mobile phone number is used as the extended ID.
  • Step 303 Search the information base according to the original ID and each extended ID to obtain the original ID and the user information corresponding to each extended ID.
  • this step searching the information base according to the target user's Gmail mailbox and mobile phone number, and obtaining the target user's Gmail through the search process.
  • the user information may include registration information of the user in the data source and a record of the user's speech in the data source, for example: a blog post posted by the user on the website, an article published by the user in the web forum, a reply, and the like.
  • the third embodiment of the present invention when collecting user information for the target user according to the original ID of the target user, first acquiring a plurality of extended IDs of the target user according to the original ID, and then searching the information base according to the original ID and the extended ID. Because the user information of the user in multiple data sources is pre-stored in the information base, the user information of the target user in multiple data sources can be obtained by one search, thereby improving user information collection efficiency, and since Searching in the repository saves the operation and time of accessing multiple data sources, making it easier and easier to implement.
  • FIG. 4 is a schematic structural diagram of a user information collection system according to Embodiment 4 of the present invention. As shown in FIG. 4, the system includes at least: a user original ID obtaining unit 41, a query unit 42, a user information obtaining unit 43, a user ID library 401, and a information base 402.
  • the user original identity ID obtaining unit is configured to acquire a first original ID of the target user.
  • the query unit 42 is configured to query the user ID library 401 according to the first original ID of the target user, and obtain at least one first extended ID of the target user.
  • the user information obtaining unit 43 is configured to separately search for a corresponding data source according to the first original ID and each of the first extended IDs, acquire user information in the at least one data source, and store the information in the information base 402.
  • the user ID library 401 is used to store the first original ID and the first extended ID of the user.
  • the information base 402 is used to store user information.
  • the user information acquiring unit 43 is specifically configured to acquire a first original ID and a search result text of each first extended ID in at least one data source, and extract user information from the search result text. And performing structuring processing, and associating the structured user information with the corresponding first original ID or the first extended ID and storing the information in the information base 402.
  • the system may further include: a user added ID obtaining unit 44.
  • the user added ID obtaining unit 44 is configured to extract the new ID of the target user from the search result text and store it in the user ID library 401.
  • the user added ID obtaining unit 44 is specifically configured to divide the search result text into at least one record block according to the HTML tag, and extract the unknown in the record block from each record block.
  • ID and/or first original ID of the target user and/or first extended ID of the target user according to a preset ID comparison method, determining the unknown ID and the first original ID of the target user in the same recording block and/or Whether the target user's first extension ID belongs to the same user, and if so, Get the new ID whose unknown ID is the target user.
  • the user added ID obtaining unit 44 is specifically configured to share the unknown ID in the same recording block with the first original ID of the target user and/or the first extended ID of the target user. Refers to digestion and referencing digestion to determine whether the unknown ID is the same as the first original ID of the target user in the same record block and/or the first extended ID of the target user.
  • the user added ID obtaining unit 44 is specifically configured to compare the unknown ID in the same recording block with the first original ID of the target user and/or the basic extended ID of the target user, and determine the unknown ID and the same record. Whether the first original ID of the target user in the block and/or the first extended ID of the target user belong to the same user.
  • the user added ID obtaining unit 44 is specifically configured to perform cluster analysis on the unknown ID in the same recording block and the first original ID of the target user and/or the user information of the first extended ID of the target user, and determine the unknown ID. Whether the first original ID of the target user and/or the first extended ID of the target user in the same recording block belong to the same user.
  • the user original ID obtaining unit 41 is further configured to acquire a second original ID of the target user.
  • the query unit 42 is further configured to query the user ID library 401 according to the second original ID of the target user to obtain at least one second extended ID of the target user.
  • the user information obtaining unit 43 is further configured to acquire, according to the second original ID and each of the second extended ID search information bases 402, the second original ID and the user information corresponding to each second extended ID.
  • the user original ID obtaining unit acquires the first original ID of the target user
  • the query unit obtains the first original ID according to the first original ID.
  • the user information acquisition unit searches for a corresponding data source according to the first original ID, and searches for a corresponding data source according to each first extension ID, so that multiple data sources can be collected.
  • the user information of the target user can improve the efficiency of user information collection.
  • the user added ID obtaining unit may further acquire the added ID of the user according to the user information and the first original ID and the first extended ID, and Updating the user ID library, the next time the user obtains the first extended ID, the new ID can be obtained, which improves the accuracy and scalability of obtaining the user ID.
  • the same user can be more The ID is searched to collect user information more efficiently.
  • the user information acquiring unit may further The second original ID and each second extended ID directly search the information base, and obtain the second original ID and the user information corresponding to each second extended ID, so that the user information can be directly searched from the information base, and the user information can be obtained. Easy access to user information.
  • the user ID library may include a local address book and/or a network address book of the SNS or SAB, so that other IDs corresponding to the user ID can be obtained according to the user ID recorded in the local address book and/or the network address book.
  • Embodiment 1 of the application of the user information collection system The application of the user information collection system and the SNS in the embodiment of the present invention.
  • the social gateway provides a unified Application Programming Interface (API) that connects to at least one SNS and can serve multiple external SNSs.
  • API Application Programming Interface
  • the user information collection system acquires the ID of the user through the API of the social gateway, and the user information collection system supplements the user ID corresponding to the social gateway with the new ID corresponding to the user by collecting the network activity information of the user. And network activity information to enrich user-related information in the social gateway.
  • the user information collection system sends a request message for obtaining the user ID to the social gateway.
  • the request message includes: A condition for obtaining a user ID.
  • the criteria for obtaining a user ID are: Specify all user IDs of the user; or, the conditions for obtaining the user ID are: User IDs of the same organization, and so on.
  • the social gateway sends a user ID that satisfies the above condition to the user information collecting system according to the received condition for obtaining the user ID.
  • the user information collection system uses the user information collection method according to the first embodiment or the second embodiment of the present invention to collect the user information related to the user ID and other IDs belonging to the user.
  • the user activity information related to the user ID is recorded in the user information related to the user ID.
  • the user information collecting system sends the user information related to the user ID and other IDs belonging to the user to the social network, so that the social gateway supplements the user information stored in the user with the network activity content of the user ID and other IDs belonging to the user. .
  • the social gateway returns processing result information to the user information collection system to inform the user information collection system of the current processing status.
  • the social gateway interacts with the user information collection system of the embodiment of the present invention to obtain network activity information of a certain user ID and other new IDs corresponding to the user, so that the social gateway can be updated according to the information and the ID.
  • User related information
  • Embodiment 2 of the application of the user information collection system The application of the user information collection system and the CAB in the embodiment of the present invention.
  • the CAB is a device for providing a user with a contact information service on the network.
  • the user information collection system is combined with the CAB to obtain a user ID from a contact of a given user of the CAB.
  • the user information collection system collects the corresponding information through the user ID.
  • the network activity information and other ID identifiers, and the related information is added to the CAB, thereby enriching the information of the contacts in the CAB.
  • the user information collection system sends a request message for obtaining contact information to the CAB system.
  • the request message may include: a condition for obtaining contact information, designated CAB user information, authorization information, or group information.
  • the condition for obtaining the contact information is: all the contact IDs of the user CAB are specified; or the condition for obtaining the contact information is the user ID of the specified user CAB belonging to the designated organization; or the condition for obtaining the contact information is a public group. Group ID and so on.
  • the CAB system transmits a user ID that satisfies the condition to the user information collecting system according to the received condition for obtaining the contact information.
  • the user information collection system uses the user information collection method according to the first embodiment or the second embodiment of the present invention to collect the user information related to the user ID and other IDs belonging to the user.
  • the user activity information related to the user ID is recorded in the user information related to the user ID.
  • the user information collecting system sends the user information related to the user ID and other IDs belonging to the user to the CAB system.
  • the other ID may include an email account, an MSN account number, a QQ number, a phone number, etc. belonging to the user.
  • the CAB system is added to the contact information stored by itself to the network dynamic content of the user ID and other IDs belonging to the user.
  • CAB system returns processing result information to the user information collection system to inform the user information collection system of the current processing status.
  • the CAB system interacts with the user information collection system of the embodiment of the present invention to obtain network activity information of a certain contact and other newly added IDs corresponding to the contact, thereby
  • the information related to the contacts in the social gateway can be updated according to the above information and ID.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种用户信息采集方法和系统。获取目标用户的第一原始ID,根据所述目标用户的第一原始ID查询用户ID库,获取目标用户的至少一个第一扩展ID,根据第一原始ID和每个所述第一扩展ID分别搜索对应的数据源,获取至少一个数据源中的用户信息并存储到信息库。采用本发明提供的用户信息采集方法和系统,能够采集到目标用户在多个数据源中的用户信息,提高用户信息采集效率。

Description

用户信息釆集方法和系统
技术领域 本发明实施例涉及通信技术, 尤其涉及一种用户信息采集方法和系统。 背景技术
目前, 国际互联网的发展为用户提供了多种信息服务, 例如: 博客、 论 坛、 网络社区、 社交网络、 即时通讯、 视频分享等服务, 用户可以通过上述 多种信息服务, 在国际互联网上发表信息。
由于提供上述信息服务的网站都是相对封闭的, 因而现有的用户信息采 集方法只能在一个网站内进行采集。 采用现有的用户信息采集方法, 对一个 网站站内内容建立索引, 采用站内搜索的方式, 根据指定的内容关键词、 用 户 ID或日期进行搜索, 查找到用户在该网站内的活动情况和发表的信息。
对于同一个用户来说, 在使用上述多种信息服务时, 在各种不同的网站 上以不同注册名参与活动。 例如, 对于同一个用户, 在 Facebook网站上使用 gmail 电子邮件作为注册名参与活动, 在亚马逊(简称 Amazon ) 网站上以 hotmail电子邮件作为注册名参与活动, 在腾讯网站上以 QQ号码参与活动等 等。 采用现有的用户信息采集方法, 每次只能在一个网站内进行采集, 获得 单一网站站内的用户信息, 因此, 对于多个网站, 只能对各个网站逐一进行 用户信息采集, 用户信息采集的效率低。 发明内容
本发明实施例提供一种用户信息采集方法,用以解决现有技术中的缺陷, 提高用户信息采集效率。
本发明实施例还提供一种用户信息采集系统, 用以解决现有技术中的缺 陷, 提高用户信息采集效率。
本发明实施例提供一种用户信息采集方法, 包括:
获取目标用户的第一原始身份标识 ID; 根据所述目标用户的第一原始 ID查询用户 ID库, 获取所述目标用户的 至少一个第一扩展 ID;
根据所述第一原始 ID和每个所述第一扩展 ID分别搜索对应的数据源, 获取至少一个数据源中的用户信息并存储到信息库。
本发明实施例还提供一种用户信息采集系统, 包括:
用户原始身份标识 ID获取单元, 用于获取目标用户的第一原始 ID; 查询单元, 用于根据所述目标用户的第一原始 ID查询用户 ID库, 获取 所述目标用户的至少一个第一扩展 ID;
用户信息获取单元, 用于根据所述第一原始 ID和每个所述第一扩展 ID 分别搜索对应的数据源,获取至少一个数据源中的用户信息并存储到信息库; 用户 ID库, 用于存储所述用户的第一原始 ID和第一扩展 ID;
信息库, 用于存储所述用户信息。 由上述技术方案可知, 本发明实施例 在根据目标用户的第一原始 ID对该目标用户进行用户信息采集时,首先根据 该第一原始 ID获取该目标用户的多个第一扩展 ID,根据第一原始 ID搜索其 对应的数据源并根据每个第一扩展 ID搜索各自对应的数据源,从而能够采集 到多个数据源中该目标用户的用户信息, 因此能够提高用户信息采集效率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下 面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲, 在 不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明实施例一的用户信息采集方法的流程图;
图 2为本发明实施例二的用户信息采集方法的流程图;
图 3为本发明实施例三的用户信息采集方法的流程图;
图 4为本发明实施例四的用户信息采集系统的结构示意图。 具体实施方式
为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。
图 1为本发明实施例一的用户信息采集方法的流程图。 如图 1所示, 该 方法包括如下过程。
步骤 101 : 获取目标用户的第一原始身份标识(Identity, 简称 ID ) 。 步骤 102: 根据目标用户的第一原始 ID查询用户 ID库, 获取目标用户 的至少一个第一扩展 ID。
步骤 103:根据第一原始 ID和每个第一扩展 ID,分别搜索对应的数据源, 获取至少一个数据源中的用户信息并存储到信息库。
在本步骤中, 数据源可以采用如下数据源中的任意一种或多种的组合, 包括: 社会性网络服务(Social Networking Services, 简称 SNS ) 、 网站、 网 络数据库(Web Database, 简称 WDB ) 、 深网 (Deep Web, 简称 DW ) 、 搜 索引擎、 领域垂直引擎等。 用户信息可以包括用户的注册信息以及该用户在 该数据源中的发言记录, 例如: 用户在网站发布的博客文章、 网络论坛中用 户发布的文章、 回帖等。
在本发明实施例一中 ,在根据目标用户的第一原始 ID对该目标用户进行 用户信息采集时, 首先根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自 对应的数据源, 从而能够采集到多个数据源中该目标用户的用户信息, 因此 能够提高用户信息采集效率。
图 2为本发明实施例二的用户信息采集方法的流程图。 如图 2所示, 该 方法包括如下过程。
步骤 201 : 获取目标用户的第一原始 ID。
在本发明实施例中, 每个用户在不同的网站中有可能具有不同的 ID, 其 中, 在某一个具体的网站中, ID与用户——对应。 从而每个用户可以具有多 个在不同网站使用的 ID, 例如, 每个用户的 ID可以包括以下任意一种或几 种的组合, 包括: 用户名、 社会保险号码、 移动电话号码、 固网电话号码、 电子邮件账号、 网络论坛账号、 即时通讯工具账号等等, 其中, 电子邮件账 号例如: Gmail账号等; 网络论坛账号例如: facebook账号等; 即时通讯工具 账号例如: MSN账号、 QQ号码等。 在本步骤中, 选定某一个用户作为目标 用户, 以该目标用户的上述 ID中的一个作为第一原始 ID。 例如, 在本发明 实施例二中, 以第一原始 ID为移动电话号码为例,对预先获知目标用户的移 动电话号码, 根据该移动电话号码采集该用户的其它信息的过程予以说明。
步骤 202: 根据目标用户的第一原始 ID查询用户 ID库, 获取目标用户 的至少一个第一扩展 ID。
在本步骤中,在目标用户的多个 ID中, 除第一原始 ID以外的其它 ID均 为该目标用户的扩展 ID。 用户 ID库用户存储各个用户的 ID, 包括第一原始 ID和扩展 ID。 在本发明实施例二中, 以用户 ID库中存储了目标用户的如下 ID为例: 移动电话号码、 MSN号码、 QQ号码。 在本步骤中, 根据该目标用 户的移动电话号码查询 ID库, 获取到该目标用户的 MSN号码和 QQ号码。 用户 ID库中存储的各个用户的 ID可以通过以下来源存储到用户 ID库中,包 括: 将搜索时输入的 ID添加到用户 ID库; 将信息采集过程中对内容进行分 析获取的 ID添加到用户 ID库; 向用户 ID库中导入 ID; 从 SNS中获取已知 ID的好友的 ID并添加到用户 ID库;从融合地址簿( Converged Address Book, 简称 CAB )中获取 ID添加到用户 ID库;从用户本地通讯录和 /或网络通讯录 中记载的联系人 ID, 获取用户 ID添加到用户 ID库。
步骤 203: 根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据源。 在本步骤中, 数据源可以采用如下数据源中的任意一种或多种的组合, 包括: SNS、 网站、 网络数据库、 深网、 搜索引擎、 领域垂直引擎等。
在本步骤中, 根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据 源。 仍以上述步骤中的具体实例为例, 在本步骤中, 根据该目标用户的移动 电话号码、 MSN号码和 QQ号码分别搜索对应的数据源, 具体地, 移动电话 号码可以对应网络购物类网站等; MSN号码可以对应 MSN网站和各种论坛 网站等; QQ号码可以对应 QQ网站和各种论坛网站等。
在本步骤中, 根据第一原始 ID和每个第一扩展 ID分别搜索对应的数据 源, 通过该搜索操作, 获取至少一个数据源中的用户信息并存储到信息库。 具体地, 其中获取至少一个数据源中的用户信息并存储到信息库的过程可以 包括以下步骤 204至步骤 207。
步骤 204: 获取第一原始 ID和每个第一扩展 ID在至少一个数据源中的 搜索结果文本。
在本步骤中, 每个数据源中存储用户信息, 具体包括用户的注册信息以 及该用户在该数据源中的发言记录等, 例如: 用户在网站发布的博客文章、 网络论坛中用户发布的文章、 回帖等。 根据第一原始 ID和每个第一扩展 ID 在数据源中进行搜索, 获取到该数据源中该 ID对应的注册信息和发言记录, 保存为搜索结果文本。 仍以上述步骤中的具体实例为例, 在本步骤中, 根据 该目标用户的移动电话号码、 MSN号码和 QQ号码分别搜索对应的数据源, 具体地,移动电话号码可以对应网络购物类网站等; MSN号码可以对应 MSN 网站和各种论坛网站等; QQ号码可以对应 QQ网站和各种论坛网站等。
步骤 205: 从搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID 库。
步骤 205为可选步骤, 在步骤 204之后, 可以依次执行步骤 205和步骤 206; 也可以跳过步骤 205, 直接执行步骤 206。
在步骤 205中,从搜索结果文本中抽取目标用户的新增 ID具体可以包括 如下过程。
首先, 根据 HTML标签, 将搜索结果文本划分为至少一个记录块。
然后, 从每个记录块中抽取出该记录块中的未知 ID和 /或目标用户的第 一原始 ID和 /或目标用户的第一扩展 ID。 仍以上述步骤中的具体实例为例, 在本步骤中, 以从某一个记录块中抽取出该记录块中的未知 ID包括: Gmail 邮箱为例, 并且, 以从该记录块中还抽取到移动电话号码为例。
最后, 根据预设的 ID比较方法, 判断未知 ID与同一个记录块中的目标 用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户。如果是, 获取该未知 ID为目标用户的新增 ID。
根据预设的 ID比较方法, 判断未知 ID与同一个记录块中的目标用户的 第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户的步骤包括: 首先, 确定可能属于同一个用户的 ID。 具体地, 对搜索结果文本进行记 录块划分, 根据用户 ID规则库识别用户 ID信息, 抽取出该记录块中的 ID。 例如, 该搜索结果文本为一个网页。 首先根据万维网联盟(World wide Web Consortium, 简称 W3C )文本标记语言 ( Hypertext Markup Language, 简称 HTML )规范对网页记录块划分, 该规范定义了 93个标签, 其中 "TABLE" 、 "PDIV" 、 "SPAN" 等标签用于将网页进行布局、 划分为语义上的结构, 根据这些标签来划分记录块。 然后, 根据用户 ID规则库知识, 抽取出记录块 内所有的 ID , 具体可以采用现有技术中的任意 ID抽取方法。
然后, 选出属于同一用户的概率较大的 ID。
具体地, 判断方法可以概括为: 对于同时出现在一篇文档或文章中记录 块内的 ID, 属于同一个用户的概率较大。 其中, 同一个记录块内的 ID属于 同一用户的概率比一篇文档中出现的 ID属于同一个用户的概率大。
最后,根据预设的 ID比较方法, 判断上述选出的属于同一用户的概率大 的 ID是否属于同一个用户。
具体地, 根据文中有关联的其它实体信息和工作单位、 其它 ID信息、 年 龄、 地点、 领域等基本信息, 判断是否同属一个人所有。
其中, 预设的 ID比较方法可以采用如下方法中的任意一种。
方法一: 对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目 标用户的第一扩展 ID进行共指消解和指代消解。
具体地, 共指消解是将现实世界中同一实体的不同描述合并到一起的过 程; 指代消解用于确定代词指向哪个名词短语。 通过指代消解能够发现用户 的 ID。 例如, 在搜索结果文本中出现: "小明是项目经理, 项目需要增加人 力, 他的电话是 0755-88687863 , 。 通过指代消解方法, 可以确定用户 的 ID标识 "小明" 和用户 ID标识 "0755-88687863" 为同一个用户。
方法二: 比较同一个记录块中的未知 ID与目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID的基本信息。
具体地, 根据从搜索结果文本中抽取出来的基本信息, 来确定第一原始 ID和未知 ID是否属于同一个用户所有, 例如, 比较第一原始 ID和未知 ID 对应的基本信息中的工作单位、 地址、 发表文章等信息是否一致, 如果一致, 则确定为属于同一个用户所有。
方法三: 对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目 标用户的第一扩展 ID的用户信息进行聚类分析。
具体地, 当判断第一原始 ID和未知 ID是否属同一个用户所有时, 根据 系统中所收集的第一原始 ID和未知 ID分别对应的网络活动信息的内容, 对 该内容进行聚类分析, 如果在聚类结果方向第一原始 ID和未知 ID对应的网 络活动所在的空间接近或距离在阈值范围内,则确定上述两个 ID同属一个用 户所有; 否则, 确定上述两个 ID为不同的用户所用。
在上述三种方法的基础上, 还可以通过用户的其它 ID判断第一原始 ID 和未知 ID是否属于同一用户, 例如, 已知一个 ID1与第一原始 ID属于同一 个用户所有, 如果通过上述三种判断方法中的任意一种判断未知 ID与上述 ID1为同一个用户所有, 则可确定未知 ID与第一原始 ID为同一个用户所有。
仍以上述步骤中的具体实例为例, 在本步骤中, 采用上述三种方法中的 任意一种,判断 Gmail邮箱与同一个记录块中的移动号码是否属于同一用户, 在本实施例中,以判断为是为例,则获取到 Gmail邮箱为目标用户的新增 ID, 将目标用户的 Gmail邮箱存储到用户 ID库。
步骤 206: 从搜索结果文本中抽取用户信息并进行结构化处理。
在本步骤中, 搜索结果中的内容为用户信息, 对该用户信息进行结构化 处理, 得到所需要采集的用户信息。
步骤 207: 对结构化处理后的用户信息与对应的第一原始 ID或第一扩展 ID进行关联并存储到信息库。
在本步骤中, 将上述结构化处理后的用户信息存储到信息库中, 在存储 时, 将该用户信息与第一原始 ID和 /或第一扩展 ID进行关联, 从而在后续的 读取过程中, 可以根据第一原始 ID和 /或第一扩展 ID读取到该用户信息。 进 一步地, 如果前述过程中执行了步骤 205, 获取到该目标用户的新增 ID, 则 在步骤 207中, 在存储时, 将该用户信息与第一原始 ID和 /或第一扩展 ID进 行关联的同时,还可以将用户信息与该目标用户的新增 ID进行关联。仍以上 述步骤中的具体实例为例, 在本步骤中, 将用户信息与该目标用户的移动电 话号码、 MSN号码、 QQ号码以及 Gmail邮箱均进行关联, 然后存储到信息 库。
在上述步骤 201至步骤 207中,实现了根据目标用户的第一原始 ID从多 种数据源中采集用户信息并存储到信息库的过程, 则采集并存储的过程完成 之后, 当需要获取该目标用户的用户信息时, 就可以通过搜索该信息库, 直 接从该信息库获取所需的用户信息。 具体地, 从信息库获取用户信息的过程 包括如下步骤 208至步骤 210。 在上述步骤 201中, 从第一信息交互对象获 取第一原始 ID, 在下述步骤 208中, 从第二信息交互对象获取第二原始 ID, 第一信息交互对象与第二信息交互对象可以为同一对象, 也可以分别为不同 的对象。
步骤 208: 获取目标用户的第二原始 ID。
仍以上述步骤中的具体实例为例, 在本步骤中, 以目标用户的第二原始 ID为该目标用户的 Gmail邮箱为例。
步骤 209: 根据目标用户的第二原始 ID查询用户 ID库, 获取目标用户 的至少一个第二扩展 ID。
仍以上述步骤中的具体实例为例, 在本步骤中, 根据目标用户的 Gmail 邮箱, 查询用户 ID库。 经过上述步骤 205中的更新, 用户 ID中已经保存了 该目标用户的如下 ID:移动电话号码、 MSN号码、 QQ号码以及 Gmail邮箱。 在本步骤中, Gmail邮箱为该目标用户的第二原始 ID, 根据 Gmail邮箱从用 户 ID库中查询, 可以获取到该目标用户的移动电话号码、 MSN号码、 QQ号 码中的任意一项或多项, 其中每一项作为一个第二扩展 ID。 在本具体实施例 中, 仅以获取目标用户的第二扩展 ID为移动电话号码为例。
步骤 210: 根据第二原始 ID和每个第二扩展 ID搜索信息库, 获取第二 原始 ID和每个第二扩展 ID对应的用户信息。
仍以上述步骤中的具体实例为例, 在本步骤中, 根据目标用户的 Gmail 邮箱和移动电话号码搜索信息库, 根据步骤 207中更新的信息库, 通过该搜 索过程,能够获取该目标用户的 Gmail邮箱和移动电话号码对应的用户信息。
在本发明实施例二中 ,在根据目标用户的第一原始 ID对该目标用户进行 用户信息采集时, 首先根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自 对应的数据源, 从而能够采集到多个数据源中该目标用户的用户信息, 因此 能够提高用户信息采集效率。 并且, 在根据第一原始 ID和第一扩展 ID进行 信息采集的过程中,还可以根据用户信息以及上述第一原始 ID和第一扩展 ID 获取用户的新增 ID, 并更新用户 ID库, 则在下一次获取用户的第一扩展 ID 时, 能够获取到该新增 ID, 提高了获取用户 ID的准确度和扩展性, 在后续 采集过程中,针对同一用户能够根据更多的 ID进行搜索,从而更加高效地采 集用户信息。 进一步地, 在完成上述采集用户信息并存储到信息库之后, 当 需要获取目标用户的用户信息时, 可以直接从该信息库中搜索获取, 从而能 够更加简便地获取到用户信息。
在上述步骤 205中,从搜索结果文本中抽取目标用户的新增 ID的具体方 法可以采用现有技术中的任意抽取方法, 本发明实施例对其具体方法不做限 制。 以下仅以一种较佳的实现方式为例, 对上述从搜索结果文本中抽取新增 ID的过程进行说明。
首先, 参考词典对搜索结果文本进行分词处理并进行词性标注。 然后, 根据用户 ID规则库中的规则知识进行用户 ID识别, 从搜索结果文本中获取 用户 ID信息作为新增 ID。
其具体处理过程如下。
第一步, 运用词典对搜索结果文本进行分词处理。
分词处理的具体方法为: 先进行原子切分, 然后再进行最短路径切分。 原子切分是将原始字符串切分为分词原子序列。 分词原子指的是分词的最小 处理单元。 分词原子可以组合成词, 但内部不能做进一步拆分。 它包括单个 汉字、 标点以及由单字节、 字符、 数字等组成的非汉字串。 在原子切分的基 础上, 最短路径切分将产生最终切分结果。 最短路径切分的过程为: 根据词 典找出字串中所有可能的词, 构造词语切分有向无环图。 每个词对应图中的 一条有向边, 并赋给相应的边长, 该边长对应该词的权值。 最后针对该切分 图, 在起点到终点的所有路径中, 求出长度值最短的路径。
第二步, 对分词处理后的词进行词性标注处理。
词性标注的主要任务是消除词性歧义。 词性歧义是指自然语言中一个词 语的词性多于一个的歧义现象。
第三步, 根据用户 ID规则库的知识, 进行用户 ID识别。
在本发明实施例中, 用户 ID可以包括但不限于: 用户名、 身份证、 社会 保险号、移动电话号码、 固网电话号码、 电子邮件(例如 Gmail邮箱)、 MSN 号码、 QQ号码、 论坛账号、 facebook账号等。 根据不同种类的用户 ID的特 征, 构造不同的规则。 例如, 根据电子邮件(Email )的特点, 构造的规则为: 包含 "@" 符号。 对于 Gmail邮箱, 构造的规则可以为: 包括 "@gmail" 符 号。 不同种类的用户 ID标识, 规则的规则不同, 识别的方法也不同。
第四步, 根据用户 ID识别结果, 获取新增 ID。
以下分别以新增 ID为用户名和电子邮件为例,对从搜索结果文本中抽取 新增 ID的过程进行详细说明。
新增 ID为用户名的情况下, 抽取方法如下:
以用户名为人名为例, 人名识别主要包括三个过程: 角色信息获取、 角 色标注和人名识别。 表 1为角色信息对照表。 根据表 1中角色与其含义的对 应关系, 实现角色信息获取。 角色标注的过程类似于词性标注, 即在所有可 能的角色标注中寻找到概率最大的角色序列作为最终标注结果。 现有的 Viterbi算法能够解决这类问题。
在人名识别之前,对表 1所示的角色 U (上文和姓氏成词)和角色 V (名 字和下文成词)进行分裂处理, 相应地分裂为 FB和 CG。 识别模式集为: {BBC,BBCC,BBY,BC,BCC,BX,BXC,BY,CC,X,XC,Y}。 只要符合其中一个模 式, 就把对应的标记(简称 Token )组成一个人名。
例如, 例句为: "馆 /内 /陈列周 /恩 /来 /和 /邓 /颖 /超生 /前 /使用 /过 /的 /物品 /。,' 对应的标注为 "AAFBCCGBCVAAAAAA"。 对角色 V分裂处理后, 最终的角 色序列为" AAFBCCGBCCGAAAAAA"。 模式最大匹配后, 识别出人名: "周 恩来"和"邓颖超"。 表 1. 角色信息对照表
Figure imgf000012_0001
新增 ID为电子邮件(简称 Email ) 的情况下, 抽取方法如下: 一个通用的方法是, 搜索结果文本中在 Email的前面一般会有类似 "电 子邮箱" 或 "Email:" 这样字样的文本片段。 利用三个初始关系特征: "前一 个,, (即 "previous" )、 "后一个,, (即 "next" )和 "当前,, (即 "current" ) , 将一个 token映射到另外一个或同一个 token。
假设在网页文本中, token 1 在 token2 前面, 那么
previous(token2)=token 1
next(token 1 )=token2
current(token 1 )=token 1
^口果 token 1为第 1个 token, 贝 J pre vious(token 1 )=null; 如果 token2 为最 后一个 token, 贝1 J next(token2)=null。
在抽取时使用基于规则学习的关系抽取算法, 其中, 较佳地, 可以采用 校验序列规则 ( Sequence Rules with Validation, 简称 SRV )算法。 SRV考虑 的是单个 token 的形式特征, 不涉及词性、 语义等, 是一个基于 FOIL的关 系抽取算法。
SRV的五种规则描述形式是:
( 1 ) length(Relop,N)
该规则描述形式限制目标域长度大于、小于或等于预设数值。其中, Relop 的取值有" <"、 "="、 ">", N是一个整数。 这种文字限制目标域的长度。 比如 Length(<,4)表示目标域的长度小于 4。
( 2 ) some(Var,Path,Feat, Value)
该规则描述形式限制目标域内部或上下文中存在预设特征。 其中, Var 是一个变量名, Path的取值为关系特征集合, Feat包括 token特征和结构特 征的集合, Value为 Feat的值, some能够同时表达目标域内部和上下文的特 征。 比如: some (? A,[],Captialized,true)表示在目标域内部, 存在一个 token是 Capitialized的; some (? B,next,Captialized,true)表示目标域中存在一个 token, 它的后继 token (不论是否在目标域中)是 Captialized的。在 SRV的规则中, 不 同的变量绑定到不同的 token。
( 3 ) every(Feat, Value)
该规则描述形式限制目标域内每个标记的特征。 其中, every文字对片段 中的每 1个 token进行测试。 比如: every(single— digit,false)表示片段中的每个 token 不能是 single— digit的。
( 4 ) position(Var,From,Relop,N)
该规则描述形式限制目标域内每个标记的特征。 其中, position对片段中 特定 token的位置进行限制, From的取值有 fromfirst,fromlast两种, 分别表 示从比较的基准是片段头部还是尾部。 比如: position (? A,fromfirst,<,2)。
( 5 ) relpos(Varl ,Var2,Relop,N)
该规则描述形式限制目标域内两个具有预设特征的标记的距离。 其中, relpos对片段内部的两个特定 token之间的距离进行限制。 比如:
relpos (? A,?B,=2)表示 A所绑定的 token在 B所绑定的 token前面,且距离为 2。
例如, Email规则描述表示为: 描述 some (? A,next,word, "@" )和描述 some (? A,previous, word," :" ;)。 在寻找这样的文字时, 必须先将变量 A绑定 到 fragment中的某个 token上, 然后根据该 token的特征对变量 A进一步确 定 Email地址。
图 3为本发明实施例三的用户信息采集方法的流程图。 在本发明实施例 三中, 以已经完成了对信息库内容的存储为例, 对后续过程中获取目标用户 的用户信息的方法予以说明。 如图 3所示, 在完成信息库内容的存储之后, 该方法包括如下过程。
步骤 301 : 获取目标用户的原始 ID。
在本发明实施例中,以目标用户的原始 ID为该目标用户的 Gmail邮箱为 例。
步骤 302: 根据目标用户的原始 ID查询用户 ID库, 获取目标用户的至 少一个扩展 ID。
仍以步骤 301中的具体实例为例, 在本步骤中, 根据目标用户的 Gmail 邮箱, 查询用户 ID库, 以获取到该目标用户的移动电话号码为例, 该移动电 话号码作为扩展 ID。
步骤 303: 根据原始 ID和每个扩展 ID搜索信息库, 获取原始 ID和每个 扩展 ID对应的用户信息。
仍以上述步骤中的具体实例为例, 在本步骤中, 根据目标用户的 Gmail 邮箱和移动电话号码搜索信息库,通过该搜索过程,获取该目标用户的 Gmail 邮箱和移动电话号码对应的用户信息。 用户信息可以包括用户在数据源中的 注册信息以及该用户在数据源中的发言记录, 例如: 用户在网站发布的博客 文章、 网络论坛中用户发布的文章、 回帖等。
在本发明实施例三中,在根据目标用户的原始 ID对该目标用户进行用户 信息采集时, 首先根据该原始 ID获取该目标用户的多个扩展 ID, 然后根据 原始 ID和扩展 ID搜索信息库, 因为信息库中预先存储了该用户在多个数据 源中的用户信息, 因此可以通过一次检索获取到多个数据源中该目标用户的 用户信息, 提高用户信息采集效率, 并且由于可以直接从信息库中进行检索, 节省了访问多个数据源的操作和时间, 因此更加简便、 易于实施。
图 4为本发明实施例四的用户信息采集系统的结构示意图。如图 4所示, 该系统至少包括: 用户原始 ID获取单元 41、 查询单元 42、 用户信息获取单 元 43、 用户 ID库 401和信息库 402。
其中, 用户原始身份标识 ID获取单元用于获取目标用户的第一原始 ID。 查询单元 42用于根据目标用户的第一原始 ID查询用户 ID库 401 , 获取目标 用户的至少一个第一扩展 ID。 用户信息获取单元 43用于根据第一原始 ID和 每个第一扩展 ID分别搜索对应的数据源,获取至少一个数据源中的用户信息 并存储到信息库 402。 用户 ID库 401用于存储用户的第一原始 ID和第一扩 展 ID。 信息库 402用于存储用户信息。
在上述技术方案的基础上, 具体地, 用户信息获取单元 43具体用于获取 第一原始 ID和每个第一扩展 ID在至少一个数据源中的搜索结果文本, 从搜 索结果文本中抽取用户信息并进行结构化处理, 对结构化处理后的用户信息 与对应的第一原始 ID或第一扩展 ID进行关联并存储到信息库 402。
在上述技术方案的基础上, 进一步地, 该系统中还可以包括: 用户新增 ID获取单元 44。用户新增 ID获取单元 44用于从搜索结果文本中抽取目标用 户的新增 ID并存储到用户 ID库 401。
在上述技术方案的基础上, 具体地, 用户新增 ID获取单元 44具体用于 根据 HTML标签, 将搜索结果文本划分为至少一个记录块, 从每个记录块中 抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第 一扩展 ID, 根据预设的 ID比较方法, 判断未知 ID与同一个记录块中的目标 用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户,如果是, 获取未知 ID为目标用户的新增 ID。
在上述技术方案的基础上, 具体地, 用户新增 ID获取单元 44具体用于 对同一个记录块中的未知 ID与目标用户的第一原始 ID和 /或目标用户的第一 扩展 ID进行共指消解和指代消解, 判断未知 ID与同一个记录块中的目标用 户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户。 或者, 用 户新增 ID获取单元 44具体用于比较同一个记录块中的未知 ID与目标用户的 第一原始 ID和 /或目标用户的第一扩展 ID的基本信息, 判断未知 ID与同一 个记录块中的目标用户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于 同一用户。 或者, 用户新增 ID获取单元 44具体用于对同一个记录块中的未 知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进 行聚类分析, 判断未知 ID与同一个记录块中的目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID是否属于同一用户。
在上述技术方案的基础上, 进一步地, 用户原始 ID获取单元 41还用于 获取目标用户的第二原始 ID。 查询单元 42还用于根据目标用户的第二原始 ID查询用户 ID库 401 , 获取目标用户的至少一个第二扩展 ID。 用户信息获 取单元 43还用于根据第二原始 ID和每个第二扩展 ID搜索信息库 402, 获取 第二原始 ID和每个第二扩展 ID对应的用户信息。
在本发明实施例四中,在根据目标用户的第一原始 ID对该目标用户进行 用户信息采集时, 用户原始 ID获取单元获取目标用户的第一原始 ID, 查询 单元根据该第一原始 ID获取该目标用户的多个第一扩展 ID, 用户信息获取 单元根据第一原始 ID搜索其对应的数据源并根据每个第一扩展 ID搜索各自 对应的数据源, 从而能够采集到多个数据源中该目标用户的用户信息, 因此 能够提高用户信息采集效率。
并且, 在根据第一原始 ID和第一扩展 ID进行信息采集的过程中, 用户 新增 ID获取单元还可以根据用户信息以及上述第一原始 ID和第一扩展 ID获 取用户的新增 ID,并更新用户 ID库,则在下一次获取用户的第一扩展 ID时, 能够获取到该新增 ID, 提高了获取用户 ID的准确度和扩展性, 在后续采集 过程中,针对同一用户能够根据更多的 ID进行搜索,从而更加高效地采集用 户信息。 进一步地, 在完成上述采集用户信息并存储到信息库之后, 当需要 根据第二原始 ID获取目标用户的用户信息时,用户信息获取单元还可以根据 第二原始 ID和每个第二扩展 ID直接搜索信息库,获取第二原始 ID和每个第 二扩展 ID对应的用户信息,从而能够直接从信息库中搜索获取所需的用户信 息, 能够更加简便地获取到用户信息。
以下分别介绍本发明实施例的上述用户信息采集方法的用户信息采集系 统的两种具体应用, 即, 该系统与 SNS结合的应用以及该系统与 CAB结合 的应用。 在此应用情景下, 用户 ID库可以包括 SNS或 SAB的本地通讯录和 /或网络通讯录, 从而能够根据本地通讯录和 /或网络通讯录中记载的用户 ID, 获取用户 ID对应的其它 ID。
用户信息采集系统的应用的具体实施例一: 本发明实施例的用户信息采 集系统与 SNS结合的应用。
用户信息采集系统与 SNS结合时,该系统与 SNS的社交网关进行信息交 互。 社交网关提供一个统一的应用程序编程接口 ( Application Programming Interface, 简称 API ) , 该 API连接至少一个 SNS, 能够为多个外部 SNS服 务。 在本应用的实施例中, 用户信息采集系统通过社交网关的 API获取用户 的 ID, 用户信息采集系统通过收集用户的网络活动信息, 向社交网关对应的 用户 ID中补充该用户对应的新增 ID和网络活动信息, 从而丰富社交网关中 用户相关的信息。
首先, 用户信息采集系统向社交网关发送获取用户 ID的请求消息。 该请 求消息中包括: 获取用户 ID的条件。 例如, 获取用户 ID的条件为: 指定用 户的所有联系人 ID; 或者, 获取用户 ID的条件为: 同属指定组织的用户 ID 等等。
然后,社交网关根据接收到的上述获取用户 ID的条件, 向用户信息采集 系统发送满足上述条件的用户 ID。
然后, 用户信息采集系统根据获得的用户 ID, 采用本发明实施例一或实 施例二的用户信息采集方法,采集该用户 ID相关的用户信息和同属该用户的 其它 ID。 其中, 上述该用户 ID相关的用户信息中记载着该用户的网络活动 信息。
然后,用户信息采集系统向社交网络发送该用户 ID相关的用户信息和同 属该用户的其它 ID, 以使社交网关向自身存储的用户信息中补充用户 ID的 网络活动内容和同属该用户的其它 ID。 最后, 社交网关向用户信息采集系统返回处理结果信息, 以向用户信息 采集系统告知当前处理状态。
通过上述过程,社交网关通过与本发明实施例的用户信息采集系统交互, 获取到某一个用户 ID的网络活动信息以及该用户对应的其它新增 ID, 从而 可以根据上述信息和 ID更新社交网关中的用户相关的信息。
用户信息采集系统的应用的具体实施例二: 本发明实施例的用户信息采 集系统与 CAB结合的应用。
CAB是一种在网络上为用户提供联系人信息服务的装置, 通过用户信息 采集系统与 CAB进行结合, 从 CAB的给定用户的联系人中获取用户 ID, 用 户信息采集系统通过用户 ID收集相应的网络活动信息和其它 ID标识, 并把 相关的信息补充到 CAB中, 从而丰富 CAB中联系人的信息。
首先, 用户信息采集系统向 CAB系统发送获取联系人信息的请求消息。 该请求消息中可以包括: 获取联系人信息的条件、 指定的 CAB用户信息、授 权信息或群组信息。 例如, 获取联系人信息的条件为: 指定用户 CAB的所有 联系人 ID; 或者, 获取联系人信息的条件为指定用户 CAB同属指定组织的 用户 ID; 或者, 获取联系人信息的条件为公共群组中的群组 ID等等。
然后, CAB系统根据接收到的获取联系人信息的条件, 向用户信息采集 系统发送满足条件的用户 ID。
然后, 用户信息采集系统根据获得的用户 ID, 采用本发明实施例一或实 施例二的用户信息采集方法,采集该用户 ID相关的用户信息和同属该用户的 其它 ID。 其中, 上述该用户 ID相关的用户信息中记载着该用户的网络活动 信息。
然后, 用户信息采集系统向 CAB系统发送该用户 ID相关的用户信息和 同属该用户的其它 ID, 例如, 该其它 ID可以包括同属该用户的 Email账号、 MSN账号、 QQ号码、 电话号码等, 以使 CAB系统向自身存储的联系人信息 中补充用户 ID的网络动内容和同属该用户的其它 ID。
最后, CAB系统向用户信息采集系统返回处理结果信息到, 以向用户信 息采集系统告知当前处理状态。
通过上述过程, CAB系统通过与本发明实施例的用户信息采集系统交互, 获取到某一个联系人的网络活动信息以及该联系人对应的其它新增 ID, 从而 可以根据上述信息和 ID更新社交网关中的联系人相关的信息。
需要说明的是: 对于前述的各方法实施例, 为了简单描述, 故将其都表 述为一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描 述的动作顺序的限制, 因为依据本发明, 某些步骤可以采用其他顺序或者同 时进行。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属 于优选实施例, 所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有 详述的部分, 可以参见其他实施例的相关描述。
本领域普通技术人员可以理解: 实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成, 前述的程序可以存储于一计算机可读 取存储介质中, 该程序在执行时, 执行包括上述方法实施例的步骤; 而前述 的存储介质包括: ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介 质。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其 限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术 人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或 者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权 利 要求 书
1、 一种用户信息采集方法, 其特征在于, 包括:
获取目标用户的第一原始身份标识 ID;
根据所述目标用户的第一原始 ID查询用户 ID库, 获取所述目标用户的 至少一个第一扩展 ID;
根据所述第一原始 ID和每个所述第一扩展 ID分别搜索对应的数据源, 获取至少一个数据源中的用户信息并存储到信息库。
2、 根据权利要求 1所述的方法, 其特征在于, 所述获取至少一个数据源 中的用户信息并存储到信息库包括:
获取所述第一原始 ID和每个所述第一扩展 ID在至少一个数据源中的搜 索结果文本;
从所述搜索结果文本中抽取用户信息并进行结构化处理;
对结构化处理后的用户信息与对应的第一原始 ID或第一扩展 ID进行关 联并存储到信息库。
3、根据权利要求 2所述的方法, 其特征在于, 所述获取所述第一原始 ID 和每个所述第一扩展 ID在至少一个数据源中的搜索结果文本之后, 还包括: 从所述搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID库。
4、 根据权利要求 3所述的方法, 其特征在于, 所述从所述搜索结果文本 中抽取目标用户的新增 ID包括:
根据 HTML标签, 将所述搜索结果文本划分为至少一个记录块; 从每个所述记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一 原始 ID和 /或目标用户的第一扩展 ID;
根据预设的 ID比较方法, 判断所述未知 ID与同一个记录块中的目标用 户的第一原始 ID和 /或目标用户的第一扩展 ID是否属于同一用户;
如果是, 获取所述未知 ID为所述目标用户的新增 ID。
5、 根据权利要求 4所述的方法, 其特征在于, 所述从每个所述记录块中 抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第 一扩展 ID包括:
根据所述记录块中的带有 "电子邮箱" 字样的文本片段, 利用前一个、 后一个或当前关系特征语句进行标记映射, 使用基于规则学习的关系抽取算 法, 抽取出所述记录块中的电子邮箱信息。
6、 根据权利要求 5所述的方法, 其特征在于, 所述基于规则学习的关系 抽取算法包括: 校验序列规则 SRV算法;
所述 SRV算法的规则描述形式包括:
限制目标域长度大于、 小于或等于预设数值;
和 /或, 限制目标域内部或上下文中存在预设特征的标记;
和 /或, 限制目标域内每个标记的特征;
和 /或, 限制目标域内两个具有预设特征的标记的距离。
7、 根据权利要求 4所述的方法, 其特征在于, 所述根据预设的 ID比较 方法, 判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目 标用户的第一扩展 ID是否属于同一用户包括:
选出同时出现在同一个记录块内的 ID, 作为属于同一用户的概率大的 ID, 所述同时出现在同一个记录块内的 ID包括所述目标用户的第一原始 ID 和 /或目标用户的第一扩展 ID和所述未知 ID;
根据预设的 ID比较方法, 判断上述选出的属于同一用户的概率大的 ID 是否属于同一个用户。
8、 根据权利要求 4至 7中任意一项所述的方法, 其特征在于, 所述预设 的 ID比较方法包括:
对同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目标用 户的第一扩展 ID进行共指消解和指代消解;
或, 比较同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID的基本信息;
或,对同一个记录块中的所述未知 ID与目标用户的第一原始 ID和 /或目 标用户的第一扩展 ID的用户信息进行聚类分析。
9、 根据权利要求 1至 7中任意一项所述的方法, 其特征在于, 还包括: 获取目标用户的第二原始 ID;
根据所述目标用户的第二原始 ID查询用户 ID库, 获取所述目标用户的 至少一个第二扩展 ID;
根据所述第二原始 ID和每个所述第二扩展 ID搜索信息库, 获取所述第 二原始 ID和每个所述第二扩展 ID对应的用户信息。
10、 根据权利要求 9所述的方法, 其特征在于, 还包括:
所述获取目标用户的第一原始身份标识 ID包括:从社交网关的应用程序 编程接口 API获取目标用户的第一原始 ID,所述社交网关的 API连接至少一 个社会性网络服务 SNS;
所述获取目标用户的第二原始 ID包括:从所述社交网关的所述 API获取 目标用户的第二 ID ,所述社交网关的 API连接至少一个社会性网络服务 SNS。
11、 一种用户信息采集系统, 其特征在于, 包括:
用户原始身份标识 ID获取单元, 用于获取目标用户的第一原始 ID; 查询单元, 用于根据所述目标用户的第一原始 ID查询用户 ID库, 获取 所述目标用户的至少一个第一扩展 ID;
用户信息获取单元, 用于根据所述第一原始 ID和每个所述第一扩展 ID 分别搜索对应的数据源,获取至少一个数据源中的用户信息并存储到信息库; 用户 ID库, 用于存储所述用户的第一原始 ID和第一扩展 ID;
信息库, 用于存储所述用户信息。
12、 根据权利要求 11所述的系统, 其特征在于,
所述用户信息获取单元具体用于获取所述第一原始 ID和每个所述第一 扩展 ID在至少一个数据源中的搜索结果文本,从所述搜索结果文本中抽取用 户信息并进行结构化处理, 对结构化处理后的用户信息与对应的第一原始 ID 或第一扩展 ID进行关联并存储到信息库。
13、 根据权利要求 12所述的系统, 其特征在于, 还包括:
用户新增 ID获取单元,用于从所述搜索结果文本中抽取目标用户的新增 ID并存储到用户 ID库。
14、 根据权利要求 12所述的系统, 其特征在于,
所述用户新增 ID获取单元具体用于根据 HTML标签, 将所述搜索结果 文本划分为至少一个记录块, 从每个所述记录块中抽取出该记录块中的未知 ID和 /或目标用户的第一原始 ID和 /或目标用户的第一扩展 ID, 根据预设的 ID比较方法, 判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID 和 /或目标用户的第一扩展 ID是否属于同一用户, 如果是, 获取所述未知 ID 为所述目标用户的新增 ID。
15、 根据权利要求 14所述的系统, 其特征在于, 所述用户新增 ID获取单元具体用于根据所述记录块中的带有 "电子邮 箱" 字样的文本片段, 利用前一个、 后一个或当前关系特征语句进行标记映 射, 使用基于规则学习的关系抽取算法, 抽取出所述记录块中的电子邮箱信 自
16、 根据权利要求 14所述的系统, 其特征在于,
所述用户新增 ID获取单元具体用于选出同时出现在同一个记录块内的 ID,作为属于同一用户的概率大的 ID,所述同时出现在同一个记录块内的 ID 包括所述目标用户的第一原始 ID和 /或目标用户的第一扩展 ID和所述未知 ID, 根据预设的 ID比较方法, 判断上述选出的属于同一用户的概率大的 ID 是否属于同一个用户
17、 根据权利要求 14至 16中任意一项所述的系统, 其特征在于, 所述用户新增 ID获取单元具体用于对同一个记录块中的所述未知 ID与 目标用户的第一原始 ID和 /或目标用户的第一扩展 ID进行共指消解和指代消 解, 判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标 用户的第一扩展 ID是否属于同一用户;
或者,所述用户新增 ID获取单元具体用于比较同一个记录块中的所述未 知 ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的基本信息, 判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 /或目标用户 的第一扩展 ID是否属于同一用户;
或者,所述用户新增 ID获取单元具体用于对同一个记录块中的所述未知
ID与目标用户的第一原始 ID和 /或目标用户的第一扩展 ID的用户信息进行聚 类分析, 判断所述未知 ID与同一个记录块中的目标用户的第一原始 ID和 / 或目标用户的第一扩展 ID是否属于同一用户。
18、 根据权利要求 11至 16中任意一项所述的系统, 其特征在于, 所述用户原始 ID获取单元还用于获取目标用户的第二原始 ID;
所述查询单元还用于根据所述目标用户的第二原始 ID查询用户 ID库, 获取所述目标用户的至少一个第二扩展 ID;
所述用户信息获取单元还用于根据所述第二原始 ID和每个所述第二扩 展 ID搜索信息库,获取所述第二原始 ID和每个所述第二扩展 ID对应的用户 信息。
19、 根据权利要求 18所述的系统, 其特征在于,
用户原始身份标识 ID获取单元连接社交网关的应用程序编程接口 API, 具体用于从所述社交网关的 API获取目标用户的第一原始 ID和 /或所述目标 用户的第二 ID, 所述社交网关的 API连接至少一个社会性网络服务 SNS。
PCT/CN2011/082530 2011-11-21 2011-11-21 用户信息采集方法和系统 WO2013075275A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201180002910.8A CN103502978A (zh) 2011-11-21 2011-11-21 用户信息采集方法和系统
PCT/CN2011/082530 WO2013075275A1 (zh) 2011-11-21 2011-11-21 用户信息采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/082530 WO2013075275A1 (zh) 2011-11-21 2011-11-21 用户信息采集方法和系统

Publications (1)

Publication Number Publication Date
WO2013075275A1 true WO2013075275A1 (zh) 2013-05-30

Family

ID=48468982

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/082530 WO2013075275A1 (zh) 2011-11-21 2011-11-21 用户信息采集方法和系统

Country Status (2)

Country Link
CN (1) CN103502978A (zh)
WO (1) WO2013075275A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811780A (zh) * 2006-03-03 2006-08-02 中国移动通信集团公司 基于个性化信息的搜索系统及搜索方法
CN101247368A (zh) * 2008-03-26 2008-08-20 腾讯科技(深圳)有限公司 一种即时通讯中的用户搜索方法、系统、服务器及客户端
CN101770499A (zh) * 2009-01-07 2010-07-07 上海聚力传媒技术有限公司 搜索引擎中的信息检索方法及相应搜索引擎
US20110047616A1 (en) * 2009-08-21 2011-02-24 Fujitsu Limited Information processing apparatus and access method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094525B (zh) * 2007-07-26 2010-06-02 华为技术有限公司 生成用户属性信息的方法和装置
US8250096B2 (en) * 2008-03-31 2012-08-21 Yahoo! Inc. Access to trusted user-generated content using social networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1811780A (zh) * 2006-03-03 2006-08-02 中国移动通信集团公司 基于个性化信息的搜索系统及搜索方法
CN101247368A (zh) * 2008-03-26 2008-08-20 腾讯科技(深圳)有限公司 一种即时通讯中的用户搜索方法、系统、服务器及客户端
CN101770499A (zh) * 2009-01-07 2010-07-07 上海聚力传媒技术有限公司 搜索引擎中的信息检索方法及相应搜索引擎
US20110047616A1 (en) * 2009-08-21 2011-02-24 Fujitsu Limited Information processing apparatus and access method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065741A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 数据采集系统和数据采集方法
CN104065741B (zh) * 2014-07-04 2018-06-19 用友网络科技股份有限公司 数据采集系统和数据采集方法

Also Published As

Publication number Publication date
CN103502978A (zh) 2014-01-08

Similar Documents

Publication Publication Date Title
CN109857917B (zh) 面向威胁情报的安全知识图谱构建方法及系统
JP6612303B2 (ja) ユーザコンタクトエントリのデータ設定
US9189746B2 (en) Machine-learning based classification of user accounts based on email addresses and other account information
US10423649B2 (en) Natural question generation from query data using natural language processing system
US20090192996A1 (en) Method and apparatus for collecting entity aliases
US20150067476A1 (en) Title and body extraction from web page
CN110866091B (zh) 一种数据检索方法及装置
KR20090032305A (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
CN104516910A (zh) 在客户端服务器环境中推荐内容
US20090083266A1 (en) Techniques for tokenizing urls
Yao et al. Provenance-based indexing support in micro-blog platforms
CN105279159B (zh) 联系人的提示方法和装置
CN103886020A (zh) 一种房地产信息快速搜索方法
CN102646124A (zh) 一种自动识别地址信息的方法
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN111339784A (zh) 一种新话题的自动挖掘方法和系统
CN112000495B (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
WO2013075275A1 (zh) 用户信息采集方法和系统
CN107220249B (zh) 基于分类的全文搜索
Tabarcea et al. Framework for location-aware search engine

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11876326

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11876326

Country of ref document: EP

Kind code of ref document: A1