WO2017084179A1 - 挖掘信息模板的方法及装置 - Google Patents

挖掘信息模板的方法及装置 Download PDF

Info

Publication number
WO2017084179A1
WO2017084179A1 PCT/CN2015/099400 CN2015099400W WO2017084179A1 WO 2017084179 A1 WO2017084179 A1 WO 2017084179A1 CN 2015099400 W CN2015099400 W CN 2015099400W WO 2017084179 A1 WO2017084179 A1 WO 2017084179A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
test
pieces
encrypted
template
Prior art date
Application number
PCT/CN2015/099400
Other languages
English (en)
French (fr)
Inventor
汪平仄
张涛
陈志军
Original Assignee
小米科技有限责任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 小米科技有限责任公司 filed Critical 小米科技有限责任公司
Priority to JP2016516607A priority Critical patent/JP6405370B2/ja
Priority to MX2016005103A priority patent/MX362890B/es
Priority to RU2016114552A priority patent/RU2647628C2/ru
Priority to KR1020167005159A priority patent/KR101777069B1/ko
Publication of WO2017084179A1 publication Critical patent/WO2017084179A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • G06F21/72Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information in cryptographic circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Definitions

  • the present disclosure relates to the field of information technology, and in particular, to a method and an apparatus for mining an information template.
  • Frequent sequence mining is a commonly used method in current information template mining. This method mines information templates from massive information through preset thresholds. In practical applications, if a piece of information appears at a frequency higher than a preset threshold, the information is used as a template of information.
  • the present disclosure provides a method and apparatus for mining an information template.
  • a method for mining an information template comprising:
  • modeling information set includes multiple pieces of modeling information
  • the plurality of pieces of encrypted information are clustered to obtain at least one information template.
  • an apparatus for mining an information template comprising:
  • An obtaining module configured to acquire a modeling information set, where the modeling information set includes multiple pieces of modeling information
  • An encryption module configured to separately encrypt the numerical information included in the plurality of pieces of modeling information to obtain a plurality of pieces of encrypted information
  • a clustering module configured to cluster the plurality of pieces of encrypted information to obtain at least one information template.
  • an apparatus for mining an information template includes:
  • a memory for storing instructions executable by the processor
  • processor is configured to:
  • modeling information set includes multiple pieces of modeling information
  • the plurality of pieces of encrypted information are clustered to obtain at least one information template.
  • FIG. 1 is a flow chart showing a method of mining an information template according to an exemplary embodiment.
  • FIG. 2 is a flow chart of a method of mining an information template, according to an exemplary embodiment.
  • FIG. 3 is a schematic structural diagram of an apparatus for mining an information template according to an exemplary embodiment.
  • FIG. 4 is a block diagram of an apparatus for mining an information template, according to an exemplary embodiment.
  • FIG. 1 is a flowchart of a method for mining an information template according to an exemplary embodiment. As shown in FIG. 1 , a mining information template method is used in a server, and includes the following steps.
  • step 101 a modeling information set is obtained, the modeling information set containing a plurality of pieces of modeling information.
  • step 102 the numerical information included in the plurality of pieces of modeling information is separately encrypted to obtain a plurality of pieces of encrypted information.
  • step 103 a plurality of pieces of encrypted information are clustered to obtain at least one information template.
  • the method provided by the embodiment of the present disclosure excels the information template by learning a plurality of pieces of modeling information, and performs the template mining process to encrypt the numerical information contained in the modeling information, so as to avoid the revealed template leaking user privacy. , thus providing a more scientific method of information template mining.
  • acquiring a set of modeling information includes:
  • each piece of to-be-processed information includes at least a sender identifier
  • the first preset number of to-be-processed information is composed into a modeling information set.
  • the numerical information included in the plurality of pieces of modeling information is separately encrypted to obtain a plurality of pieces of encrypted information, including:
  • the area identifier, the first feature code, the second feature code, and the receiving time of the modeling information are combined into one piece of encrypted information.
  • clustering a plurality of pieces of encrypted information to obtain at least one information template includes:
  • Encrypting information that satisfies the first combining condition among the plurality of pieces of encrypted information is separately combined to obtain a plurality of pieces of first combining information
  • the encrypted information that satisfies the first merge condition of the plurality of pieces of encrypted information is separately combined to obtain a plurality of pieces of first merged information, including:
  • the receiving time is sorted in order from late to early;
  • the encrypted information with the latest receiving time in the first target encrypted information group is saved, and the remaining encrypted information in the first target encrypted information group is deleted, and a first merged information is obtained.
  • the encrypted information that satisfies the second merge condition of the multiple pieces of the first merge information is separately combined to obtain a plurality of pieces of second merge information, including:
  • the receiving time constitutes a second merged information.
  • the plurality of pieces of second merge information are clustered to obtain at least one information template. include:
  • any third target encrypted information group For any third target encrypted information group, obtaining the quantity of the first merged information merged by any second merged information in the third target encrypted information group, if the number of the first merged information combined by the second merged information is greater than the number a threshold, an item consisting of the information content corresponding to the second merge information, the first merge information of the second merge information, and the latest reception time of the third target encrypted information group;
  • the number of encrypted information applicable to the information template is the sum of the number of encrypted information combined by multiple entries, and the receiving time of the information template is The latest reception time for multiple entries.
  • the method further includes:
  • the actual information template is determined from at least one information template.
  • coverage verification is performed for each information template, including:
  • test information set includes multiple pieces of test information
  • Coverage verification is performed for each information template according to a plurality of first test information groups.
  • obtaining a test information set includes:
  • the second preset number of to-be-processed information is obtained from the remaining information to be processed in the information set corresponding to the sending end of the information to be processed, to obtain a test information set.
  • the plurality of pieces of test information are separately processed to obtain a plurality of first test information groups, including:
  • the plurality of third merge information is divided into a plurality of first test information groups, and the third merge information in each first test information group has the same regional identifier.
  • the plurality of pieces of test information are encrypted to obtain a plurality of pieces of test encrypted information, including:
  • the regional identifier of the test information, the first signature code, and the information content of the test information are composed
  • One test encrypts the information.
  • the plurality of pieces of test encryption information are combined to obtain a plurality of pieces of third merge information.
  • the regional identification of the second test information group, the number of test encrypted information in the second test information group, and the information content of the second test information group are combined into one test merge information.
  • the coverage verification is performed for each information template according to the plurality of first test information groups, including:
  • the ratio of the number of matched information to the number of test information included in the first test information group is obtained.
  • the actual information template is determined from the at least one information template according to the verification result, including:
  • the information template is used as an actual information template.
  • FIG. 2 is a flowchart of a method for mining an information template according to an exemplary embodiment. As shown in FIG. 2, a method for mining an information template is used in a server, and includes the following steps.
  • step 201 the server acquires a set of modeling information, the set of modeling information including a plurality of pieces of modeling information.
  • the service providers involved in different types of information are different, and the information content sent by different server servers is usually different, in order to more specifically perform template mining, the information extracted is improved.
  • the method provided in this embodiment needs to collect the same type of information when mining the information template, and then mine the information template from the information of the type.
  • the server may collect various short messages sent by the service provider server such as mobile, China Unicom, and telecommunications to the user, and then mine the information template from the collected short information; or collect the instant information sent by the different instant application servers to the user, and then Mining information templates from the collected instant messages; collecting notification emails sent to users by different mail servers, and mining information templates from the collected notification emails.
  • the service provider server such as mobile, China Unicom, and telecommunications to the user, and then mine the information template from the collected short information
  • the server may collect various short messages sent by the service provider server such as mobile, China Unicom, and telecommunications to the user, and then mine the information template from the collected short information; or collect the instant information sent by the different instant application servers to the user, and then Mining information templates from the collected instant messages; collecting notification emails sent to users by different mail servers, and mining information templates from the collected notification emails.
  • the server can obtain a collection of modeling information based on the collected information to be processed.
  • the modeling information set includes a plurality of pieces of modeling information, which is information to be processed for mining the information template.
  • the server obtains the modeling information set, and may take the following steps 2011 to 2014:
  • the server obtains multiple pieces of to-be-processed information, and each piece of to-be-processed information includes at least a sender identifier.
  • each of the to-be-processed information may include at least a sender identifier, a receiver identifier, an information receiving time, and the like. If the information to be processed is short message, the sender identifier included in each of the to-be-out messages shall be the sender number, and the receiver identifier shall be the receiver number. If the information to be processed is an email, the sender identifier included in each to-be-processed information shall be the mailbox corresponding to the mail server, and the receiver identifier shall be the mailbox of the user.
  • the identifier of the sender included in each of the to-be-processed information should be the instant messaging number corresponding to the instant application server, and the identifier of the receiver should be the instant messaging number of the user.
  • the information to be processed collected by the server may be sent to the user by the server at different times. Some of the information may be of little significance to the user due to the earlier time. Of course, the information is based on the information. Templates will also lose their value. Therefore, in order to ensure the timeliness of the excavated information templates, the server can set a specified time in advance after acquiring multiple pieces of pending information, and set the time according to the specified time.
  • the to-be-processed information is initially screened to save the to-be-processed information whose reception time is later than the specified time, and delete the to-be-processed information whose reception time is earlier than the specified time.
  • the server divides the plurality of to-be-processed information into different information sets, and the to-be-processed information in each information set has the same sender identifier.
  • the server divides the to-be-processed information with the same sender ID into one information set according to the sender identifier, and the to-be-processed information in each information set has the same sender identifier.
  • each information set and the sender ID are in one-to-one correspondence. For example, the information to be processed whose sender is identified as 10086 can be divided into the information set A, and the information to be processed whose sender is identified as 10011 is divided into the information set B and the like.
  • the server obtains a first preset number of to-be-processed information from the corresponding information set according to the identifier of the sending end of any piece of information to be processed.
  • the information set is in one-to-one correspondence with the sender identifier, and the server may obtain the corresponding information set according to any sender identifier.
  • the information provided in this embodiment can be obtained from the method provided in this embodiment.
  • the part of the pending information is selected to form a modeling information set.
  • the first preset number may be 1000, 2000, 3000, etc., and the first preset number is not specifically limited in this embodiment.
  • the server combines the first preset number of to-be-processed information into a modeling information set.
  • the server may compose the first preset number of to-be-processed information into a modeling information set.
  • the information to be processed is divided into modeling information and test information according to different uses of the information to be processed.
  • the modeling information is mainly used to mine the information template, and the test information is mainly used to verify the mined information template.
  • step 202 the server encrypts the numerical information included in the plurality of pieces of modeling information to obtain a plurality of pieces of encrypted information.
  • the information received by the user often contains some private information, such as name, mobile phone number, date of birth, bank card number, membership card number, spending amount, verification code, order number, and so on.
  • name is text-type private information
  • mobile phone number, date of birth, bank card number, membership card number, consumption amount, verification code, order number, etc. are numerical privacy information, which is simply referred to as numerical information.
  • Text-based privacy information is distinguishable for users. Different text-based private information is generally different or not identical for different users. For non-discriminatory text-type information, for example, the text "respected customer" often appearing in the short message, etc., based on the information, the user's identity information cannot be inferred, and thus the information does not belong to the private information. For discriminative text-type information, such as Zhang San, Li Si, etc., such information can be used to infer the identity of the user and other related information. Therefore, in order to prevent the user's privacy from being compromised, the server can select the appropriate wildcard to replace this information.
  • the server may encrypt the information by using an encryption algorithm to obtain a plurality of pieces of encrypted information for the numerical information contained in the modeling information.
  • an encryption algorithm For the specific process, the following steps 2021 to 2024 can be used:
  • the server obtains, for any piece of modeling information, a regional identifier of the modeling information according to the identifier of the receiving end of the modeling information.
  • the server can obtain the regional identifier of the modeling information according to the receiving end identifier of the modeling information.
  • the area identifier can be represented by a place, and the area identifiers corresponding to different geographical locations are also different. For example, the regional identifier of Beijing is “beijing”, and the geographical identifier of Shanghai is “shanghai”.
  • the server encrypts the identifier of the receiving end of the modeling information to obtain a first feature code of the modeling information.
  • the server may perform encryption by using a preset encryption algorithm, and the preset encryption algorithm is determined by the server.
  • the ciphertext corresponding to the identifier of the receiving end of the modeling information is obtained by using a preset encryption algorithm to encrypt the identifier of the receiving end of the modeling information, and the ciphertext is referred to as a first signature.
  • the first feature code can be represented by ciphertext, and the ciphertext of the different receiving end identifiers is different.
  • the ciphertext of the receiving end identifier 123456 is a
  • the ciphertext of the receiving end identifier 258369 is b, and the like.
  • the first identifier is different, and the first signature corresponding to each receiver identifier is unique, that is, There is a one-to-one correspondence between the receiver identifier and the first signature.
  • the server encrypts the numerical information in the modeling information according to the type of the numerical information included in the modeling information, to obtain a second characteristic code of the modeling information.
  • the ciphertext corresponding to the different types of numerical information is also different.
  • the ciphertext corresponding to the numerical information may be ⁇ Phone Number>; if the type of the numerical information If the date is the date, the cipher text corresponding to the value information may be ⁇ Time>; if the type of the second information is a number, the ciphertext corresponding to the value information may be ⁇ Number>.
  • the server When the server encrypts the numerical information included in the modeling information, the ciphertext corresponding to the type of the numerical information may be used to replace the corresponding numerical information in the modeling information, thereby obtaining the second characteristic code of the modeling information.
  • the second feature code can be represented by contentNew.
  • the type of the numerical information of the modeling information is the phone number 10086
  • the second feature code ⁇ Phone Number> corresponding to the phone number is substituted 10086, and the second special feature code ⁇ Phone Number> of the modeling information is obtained.
  • the server combines the area identifier, the first feature code, the second feature code, and the receiving time of the modeling information into one encrypted information.
  • the server combines the area identifier, the first feature code, the second feature code, and the receiving time of the modeling information into one piece of encrypted information.
  • the reception time can be represented by datetime.
  • the encrypted information is a quaternary information represented by ⁇ place, ciphertext, contentNew, datetime>.
  • the encryption of any modeling information in the modeling information set is taken as an example.
  • the encryption process of other modeling information is the same as the encryption process of the modeling information.
  • the encryption process of the modeling information will not be described here.
  • the short information 1, the short message 2, and the short message 3 are explained in detail below as an example.
  • short message 1 [Bank] Dear Mr. Liu Fei / Ms., you have changed the original mobile phone number 0102 to the mobile phone number with the ending number 0988 on August 21, 2014. Please use the new mobile phone number for electronic Banking business, please call 95580 if you have any questions.
  • Short message 3 [Bank] Dear Mr. Wang Changjiang / Ms., you have changed the original mobile phone number 0109 to the mobile phone number with the ending number of 1234 on August 7, 2014. Please use the new mobile phone number for e-banking business. If you have any questions, please call 95580.
  • the short message 1, the short message 2, and the short message 3 involve user privacy information such as time, mobile phone number, and telephone number, in order to protect the privacy of the user, the method provided in this embodiment may be used, and the numerical information in the short message may be used. Encryption, after encryption, can get the following encryption information:
  • Encrypted Information 1 [Bank] Dear Mr. Liu Fei/Ms., you have changed the original mobile number No. ⁇ Number> to the mobile number with the ending number ⁇ Number> at ⁇ Time>. Please use the new mobile number for e-banking. Business, if you have any questions, please call ⁇ Phone Number>.
  • Encrypted Information 2 [Bank] Dear Mr. Zhang Jie/Ms., you have modified the original mobile phone number ⁇ Number> to the mobile number with the ending number ⁇ Number> at ⁇ Time>. Please use the new mobile phone number for e-banking. If you have any questions, please call ⁇ Phone Number>.
  • Encrypted Information 3 [Bank] Dear Mr. Wang Changjiang/Ms., you have changed the original mobile number No. ⁇ Number> to the mobile number with the ending number ⁇ Number> at ⁇ Time>. Please use the new mobile number for e-banking. If you have any questions, please call ⁇ Phone Number>.
  • the server may compose a plurality of pieces of encrypted information into a set of encrypted information.
  • the encrypted information set may be represented by corpus1, which contains a plurality of encrypted information of the quads represented by ⁇ place, ciphertext, contentNew, datetime>.
  • step 203 the server clusters the plurality of pieces of encrypted information to obtain at least one information template.
  • the server may cluster multiple pieces of encrypted information to obtain at least one information template.
  • the process of clustering multiple pieces of encrypted information by the server to obtain at least one information template can be referred to the following steps 2031-2033.
  • the server separately merges the encrypted information that satisfies the first merge condition among the plurality of pieces of encrypted information, to obtain a plurality of pieces of first merge information.
  • the first combining condition is that the same area identifier, the first feature code, the second feature code, and the like are included.
  • the server combines the encrypted information that satisfies the first merge condition among the plurality of pieces of encrypted information to obtain a plurality of pieces of the first merged information.
  • the server combines the encrypted information that satisfies the first merge condition among the plurality of pieces of encrypted information to obtain a plurality of pieces of the first merged information.
  • the server obtains multiple first target encrypted information groups from the plurality of pieces of encrypted information, and the encrypted information in each first target encrypted information group has the same regional identifier, the first feature code, and the second feature code.
  • each piece of encrypted information can be represented as quaternion information consisting of a geographical identifier, a first signature, a second signature, and a reception time
  • the server can obtain the quaternion representation of each piece of encrypted information.
  • the encrypted information having the same area identifier, the first feature code, and the second feature code further comprises the encrypted information having the same area identifier, the first feature code, and the second feature code into the first target encrypted information group.
  • the server obtains multiple pieces of encrypted information, wherein the encrypted information 1 may be ⁇ beijing, a, Number, 2015/06/01/12:00:00>, and the encrypted information 2 may be ⁇ beijing, a, Number, 2015. /01/04/07:00:00>, encrypted information 3 can be ⁇ beijing, a, Number, 2015/02/01/08:30>, encrypted information 4 can be ⁇ tianjin, c, PhoneNumber, 2015/04 /04/10:15:00>, encrypted information 5 can be ⁇ tianjin,c,PhoneNumber,2015/07/14/10:15:00>, encrypted information 6 can be ⁇ tianjin,c,PhoneNumber,2015/07 /12/06:20:00>.
  • the encrypted information 1 may be ⁇ beijing, a, Number, 2015/06/01/12:00:00>
  • the encrypted information 2 may be ⁇ beijing, a, Number, 2015. /01/04/07:00:00>
  • encrypted information 3 can be ⁇ beijing
  • the server identifies the area as beijing, the first feature code is a, and the second feature code is a number of encrypted information 1, the encrypted information 2, and the encrypted information 3 constitute a first target encrypted information group.
  • the server identifies the area as tianjin, the first feature code is b, the second feature code is PhoneNumber encrypted information 4, the encrypted information 5, and the encrypted information 6 constitutes another first target encrypted information group.
  • the server receives the time according to the receiving time from late to early. Sort the order.
  • the server may also sort the encrypted information in the first target encrypted information group according to the receiving time from late to early.
  • the server sorts the receiving time in the order of late to early, and obtains the encrypted information 1 and the encrypted information 2. Encrypt information 3.
  • the server saves the latest encrypted information in the first target encrypted information group, and deletes the remaining encrypted information in the first target encrypted information group to obtain a first merged information.
  • the information that usually has the same area identifier, the first identifier code, and the second identifier code is the notification information that the service provider server sends to the same user with the same information content, and the information is repeatedly sent multiple times due to server failure during the sending process.
  • the server may save the encrypted information with the latest receiving time in the first target encrypted information group, and delete the remaining encrypted information in the first target encrypted information group.
  • the encrypted information with the latest reception time is the first merged information.
  • the encrypted information 1 in the first target encrypted information group is ⁇ beijing, a, Number, 2015/06/01/12:00:00>
  • the encrypted information 2 is ⁇ beijing, a, Number, 2015/01/04/ 07:00:00>
  • the encrypted information 3 is ⁇ beijing, a, Number, 2015/02/01/08:30>
  • the encrypted information 4 is ⁇ tianjin, c, PhoneNumber, 2015/04/04/10:15: 00>
  • the server can save the encrypted information 1 and delete the encrypted information 2 and the encrypted information 3.
  • the server combines the encrypted information that meets the second merge condition among the multiple pieces of the first merge information, to obtain multiple pieces of second merge information.
  • the second merge condition has the same area identifier, the second feature code, and the like.
  • the server when the server merges the encrypted information that satisfies the second merge condition in the multiple pieces of the first merge information, and obtains the multiple pieces of the second merge information, the following steps 20321 to 30323 may be adopted.
  • the server obtains multiple second target encrypted information groups from the plurality of first merge information, and the first merge information in each second target encrypted information group has the same regional identifier and the second feature code.
  • each piece of the first merge information can be represented as a quad group consisting of a region identifier, a first feature code, a second feature code, and a receiving time
  • the server can identify the quad group according to each piece of the first merge information. Forming, acquiring first merge information having the same area identifier and the second feature code, and then combining the first merge information having the same area identifier and the second feature code into the second target encrypted information group.
  • the server obtains multiple pieces of first merge information by combining the encrypted information that satisfies the first merge condition among the plurality of pieces of encrypted information, wherein the first merged information 1 is ⁇ shanghai, c, Number, 2015/07/ 03/10:00:00>, the first merged information 2 is ⁇ shanghai, a, Number, 2015/01/08/07:00:00>, and the first merged information 3 is ⁇ beijing, b, PhoneNumber, 2015/ 02/01/08:30:12>, the first merged information 4 is ⁇ shanghai, b, PhoneNumber, 2014/07/18/09:00:02>, and the first merged information 5 is ⁇ beijing, b, PhoneNumber, 2015/201704/10:20:00>, the first merged information 6 is ⁇ tianjin, c, PhoneNumber, 2015/07/12/06:20:00>.
  • the server identifies the area as shanghai, and the first merged information of the second feature code is Number 1.
  • the first merged information 2 Forming a second target encrypted information group; identifying the area as beijing, the first merged information 3 in which the second feature code is PhoneNumber, and the first merged information 5 to form a second target encrypted information group.
  • the server acquires the number of the first merged information in the second target encrypted information group and the latest receiving time of the first merged information in the second target encrypted information group.
  • the number of the first merged information in the second target encrypted information group may be two, three, or the like. In this embodiment, the number of the first merged information in the second target encrypted information group is not specifically limited. In this embodiment, the number of the first merge information in the second target encrypted information group can be represented by c1.
  • the server further sorts the first merge information in the second target encrypted information group according to the receiving time from late to early, and obtains the second encrypted information group according to the sorting result.
  • the latest receiving time of the first merged information in the second encrypted information group may be represented by latestdatetime1.
  • the number of the first merged information in the second target encrypted information group that the server can obtain is two. Since the reception time of the first merged information 3 is ⁇ 2015/02/01/08:30:12>, the reception time of the first merged information 5 is ⁇ 015/201704/10:20:00>, therefore, the server The latest receiving time of the first merged information in the second target encrypted information group is 2015/01/04/10:20:00.
  • the server merges the area identifier of the second target encrypted information group, the quantity of the first merged information in the second target encrypted information group, the second feature code of the second target encrypted information group, and the second merged in the second target encrypted information group.
  • the latest reception time of the information constitutes a second merged information.
  • each piece of second merge information is a quad information that can be represented by ⁇ place, c1, contentNew, latest datetime1>.
  • the server In order to facilitate management of the plurality of second merge information, the server also forms a plurality of second merge information into a set corpus2.
  • the server clusters multiple pieces of second merge information to obtain at least one information template.
  • the server can obtain at least one information template by clustering the plurality of second merge information.
  • the server when the server clusters the plurality of pieces of second merge information to obtain at least one information template, the following steps 20331 to 20333 may be adopted.
  • the server divides the multiple second merge information into multiple third target encrypted information groups, and the second merge information in each third target encrypted information group has the same regional identifier.
  • the server may divide the plurality of second merge information into a plurality of third target encrypted information groups according to the regional identifier of the second merged information, and each third target encrypted information group The second merged information in the middle has the same geographical identifier.
  • the server may divide the collection corpus2 into n disjoint subsets according to the geographical identifier of the second merge information contained in corpus2, such as corpus2 (place1), corpus2 (place2), corpus2 (place3).... ., corpus2 (placen).
  • corpus2 place1
  • corpus2 place2
  • corpus2 place3
  • corpus2 placen
  • the region identifier corresponding to each second merge information in the corpus2 (placei) is placei
  • each second merge information in corpus2 (placei) is a usable ⁇ count,countcountNew,datetime > Indicates the triplet information.
  • the server acquires the number of encrypted information combined by any second merge information in the third target encrypted information group, if the number of the encrypted information combined by the second merged information is greater than the first threshold. And an item consisting of the information content corresponding to the second merge information, the number of encrypted information combined by the second merge information, and the latest reception time of the second merge information.
  • the server may preset a first threshold for any third target encrypted information group, and the first threshold may be 10, 20, 30, etc., and the method based on frequent subsequence mining , mining the information template from the target encrypted information group.
  • the server may compare the number of the encrypted information combined by any second merge information in the third target encrypted information group with the regional threshold, if the number of the encrypted information combined by the second merged information is greater than the first
  • the threshold value is used to form an entry for the information content corresponding to the second merge information, the number of encrypted information combined by the second merge information, and the latest reception time of the third target encrypted information group, and the entry may be ⁇ pat, c2, latestDatetime2 >, where pat is the information content, c2 is the number of information combined by the second merged information, and latestDatetime2 is the latest receiving time of the second merged information.
  • the server combines multiple entries of the third target encrypted information group with the information content to obtain an information template.
  • the number of the encrypted information applicable to the information template is the sum of the number of encrypted information combined by the multiple entries, and the information template.
  • the receiving time is the latest receiving time of multiple entries.
  • the server combines the multiple entries having the same information content in the third target encrypted information group to obtain a template information, where the number of encrypted information applicable to the information template is the sum of the number of encrypted information combined by multiple entries, and the information template
  • the receiving time is the latest receiving time of multiple entries.
  • the mining process of the information template in the embodiment of the present disclosure essentially abstracts the intermediate template and covers the private information such as the name of the person, the place name, and the like, as well as the bank card number and the mobile phone number.
  • the process of waiting for numerical information Taking the information template mining of the short message 1, the short message 2, and the short message 3 in the above step 2024 as an example, the following information template can be obtained by using the method provided by the embodiment of the present disclosure:
  • step 204 the server performs coverage verification for each information template.
  • the information template mining process can ensure that the user's private information is completely blocked in the template. However, in order to prevent program bugs, the information template does not completely block the user's private information. Coverage verification for all excavated information templates.
  • the coverage verification refers to the coverage ratio of the calculation information template in the test information set, that is, the proportion of the matching information in all the information.
  • the expected value of the coverage of the mined information template pat on other information sets should also be rate.
  • the expected value has fluctuations of ⁇ , that is, the coverage of the information template pat on other information sets should be expected. Between [rate- ⁇ , rate+ ⁇ ].
  • the coverage is small and can be deleted from the corresponding information template.
  • the mining process of the information template is a process of summarizing the information template from the information to be processed
  • the coverage verification is a process of matching the test information with the template
  • the two are two opposite processes, which can be from the positive and negative aspects. Ensure that the excavated information template does not contain the user's private information.
  • the coverage verification process does not intersect with the information set used by the template mining process, and is randomly selected from the original information set. The two sets of different information sets with similar distributions further ensure the mined information template. The user's private information is not included.
  • the server may adopt the following steps 2041 to 2043 when performing coverage verification on each information template.
  • the server acquires a test information set, where the test information set includes multiple pieces of test information.
  • the server obtains a second preset number of to-be-processed information from the remaining information to be processed in the information set corresponding to the sending end of the information to be processed, and sets a second preset number of to-be-processed information.
  • the processing information constitutes a test information set.
  • the second preset number may be 100, 200, 300, etc., and the second preset number is not specifically limited in this embodiment.
  • the server processes the multiple pieces of test information separately to obtain a plurality of first test information groups.
  • the server processes the plurality of pieces of test information separately to obtain a plurality of first test information groups, the following steps 20421 to 20423 may be used.
  • the server encrypts multiple test information to obtain multiple test encryption information.
  • the server When the server encrypts a plurality of pieces of test information to obtain a plurality of pieces of test encrypted information, the following steps 204211 to 204213 may be used.
  • the server obtains the area identifier of the test information according to the identifier of the receiving end of the test information.
  • the receiving end identifier can locate the location area where the different users are located. Therefore, according to the receiving end identifier of the test information, the server can obtain the regional identifier of the test information.
  • the area identifier can be represented by a place, and the area identifiers corresponding to different geographical locations are also different. For example, the regional identifier of Beijing is “beijing”, and the geographical identifier of Shanghai is “shanghai”.
  • the server encrypts the identifier of the receiving end of the test information, and obtains a first feature code of the test information.
  • the server may perform encryption by using a preset encryption algorithm, and the preset encryption algorithm is determined by the server.
  • the ciphertext corresponding to the identifier of the receiving end of the test information is obtained by using a preset encryption algorithm to encrypt the identifier of the receiving end of the test information, and the ciphertext is also referred to as a first feature code.
  • the first feature code may also be represented by ciphertext, and the ciphertexts of different receivers are different.
  • the ciphertext of the receiver identifier 123456 is a
  • the ciphertext of the receiver identifier 258369 is c, and so on.
  • the first identifier is different, and the first signature corresponding to each receiver identifier is unique, that is, There is a one-to-one correspondence between the receiver identifier and the first signature.
  • the server combines the regional identifier of the test information, the first signature, and the information content of the test information into a test encryption information.
  • the server combines the geographical identifier of the test information, the first feature code, and the information content of the test information into an encrypted message.
  • the information content of the test information can be represented by content.
  • the test encrypted information is a triplet information that can be represented by ⁇ place, ciphertext, content>.
  • the above is an example of encrypting any one of the test information in the test information set.
  • the encryption process of the other test information is the same as the encryption process of the test information.
  • the encryption process is not described here.
  • the server combines the test encryption information that satisfies the third merge condition among the plurality of test encryption information, respectively, to obtain a plurality of third merge information.
  • the server combines the multiple pieces of test encryption information to obtain a plurality of pieces of third merge information, and the following steps 204221 to 204223 may be used.
  • the server obtains multiple second test information groups from the plurality of pieces of test encryption information, where the test encrypted information in each second test information group has the same area identifier and information content.
  • each test encrypted information can be represented as a triplet information composed of a geographical identifier, a first signature, and information content of the test information
  • the server can obtain the triplet representation of each test encrypted information.
  • the test encrypted information has the same geographical indication and information content, and the encrypted information having the same geographical indication and information content is composed of the second test information group.
  • the server obtains multiple pieces of test encryption information, wherein the test encryption information 1 is ⁇ beijing, a, content1>, the test encryption information 2 is ⁇ beijing, b, content 1>, and the test encryption information 3 is ⁇ beijing, c, Content 1>, test the encrypted information 4 to ⁇ tianjin, d, content2>, and test the encrypted information 5 to ⁇ tianjin, c, content 2>.
  • Service The server identifies the region as beijing, the test encrypted information 1 with the content of content 1, the test encrypted information 2, and the test encrypted information 3 to form a second test information group; the encrypted information of the region is identified as tianjin and the information content is content 2 4.
  • the encrypted information 5 constitutes another second test information group.
  • the server obtains the quantity of test encryption information in any second test information group.
  • the number of the test encryption information in the second test information group may be two, three, and the like. In this embodiment, the number of the test encrypted information in the second test information group is not specifically limited. In this embodiment, the number of test encrypted information in the second test information group can be represented by c3.
  • the server combines the area identifier of the second test information group, the number of test encryption information in the second test information group, and the information content of the second test information group into one test merge information.
  • each second merged information is one available ⁇ place, c3, content>.
  • test encryption information in any second test information group is described by taking the test encryption information in any second test information group as an example.
  • the process of testing the encrypted information for merging is not described here.
  • the server In order to facilitate the management of multiple test merge information, the server also combines multiple test merge information into one set corpus3.
  • the server divides the multiple pieces of third merge information into multiple first test information groups, and the third merge information in each first test information group has the same area identifier.
  • the server may divide the plurality of third merge information into a plurality of first test information groups, and the third merge information in each first test information group has the same regional identifier. .
  • the server may divide the collection corpus3 into n disjoint subsets according to the geographical identifier of the second merge information included in corpus3, such as validate corpus3 (place1), validate corpus3 (place2), validate corpus3 (place3) whereas, validate corpus3(placen).
  • the geographic identifier corresponding to each third merge information in the validate corpus3 (placei) is placei, and each third merge information in validate corpus3 (placei) is a usable ⁇ place,
  • c4 is the number of third merge information included in each first test information group.
  • the server performs coverage verification on each information template according to multiple first test information groups.
  • the server may perform the following steps 20431 to 20432 when performing coverage verification on each information template according to the plurality of first test information groups.
  • the server obtains the quantity of information that each first test information group matches the information template.
  • the server also matches the information template with each of the first test information groups in the first test information group.
  • the template content of the information template may be The information content of each third merge information included in each first test information is matched, when the template content of the information template is associated with any first
  • the information content of any third merge information included in the test information is identical or the degree of similarity is greater than a specific value, it is determined that the information template matches any third merge information included in any of the first test information.
  • the excavated information template is "[Bank] Dear ⁇ *>Mr./Ms., you have changed the phone number ⁇ Number> to the phone number with the ending number ⁇ Number> at ⁇ Time>, please use the new one.
  • the mobile phone number handles the e-banking business. If you have any questions, please call ⁇ PhoneNumber>.
  • the test information contained in the first test information group is short message 1, short message 2, short message 3, short message 4, and short message 5, among which Short message 1 is "[Bank] Dear Mr. Liu Fei/Ms. You have changed the original mobile phone number 0102 to the mobile phone number with the ending number 0988 on August 21, 2014.
  • Short message 2 is “[Bank] Dear Mr. Zhang Jie/Ms. You have changed the original mobile phone number 0209 to the mobile phone with the ending number of 0898 on July 13, 2014. No. Please use the new mobile phone number for e-banking business. If you have any questions, please call 95580.”
  • Short Message 3 “[Bank] Dear Mr. Wang Changjiang/Ms. You have already signed the original mobile phone number on August 07, 2014. 0109 is modified into a mobile phone number with a tail number of 1234, please make The new mobile phone number handles the e-banking business.
  • Short message 4 is “Respected customer, please use the 186 number of mobile phone reserved by your system to call ID 2 or card number. Say goodbye to cumbersome, simple life.”
  • Short message 5 is "Respected customer, your order 10142389122 has been shipped out of the warehouse, in the delivery, please wait patiently. This mall will not ask for bank card information on the ground of invalid order. Action refund, beware of fraud!
  • the information template is matched with the 5 short messages in the first test information group, it can be found that the short message 1, the short message 2, the short message 3 match the information template, and the short message 4.
  • the short message 5 does not match the information template.
  • the server obtains a ratio of the number of matched information to the number of test information included in the first test information group.
  • the second threshold may be 3, 5, 8, etc., and the size of the second threshold is not specifically limited in this embodiment.
  • the server matches the information template with any of the first test information groups
  • the number of information that the information template matches the first test information group is 100
  • the second threshold is set to 120
  • step 205 the server determines the actual information template from the at least one information template according to the verification result.
  • the information may be Template For the actual information template.
  • the preset range may be [50%, 100%], [70%, 100%], etc., and the preset range is not specifically limited.
  • the server will provide the actual information template obtained by the verification to the auditor, and the auditor will conduct a manual audit.
  • the information template approved by the audit is provided to the appropriate technical staff for use.
  • the method provided by the embodiment of the present disclosure excels the information template by learning a plurality of pieces of modeling information, and performs the template mining process to encrypt the numerical information contained in the modeling information, so as to avoid the revealed template leaking user privacy. , thus providing a more scientific method of information template mining.
  • FIG. 3 is a schematic diagram of an apparatus for mining an information template according to an exemplary embodiment.
  • the apparatus includes an acquisition module 301, an encryption template 302, and a clustering module 303.
  • the obtaining module 301 is configured to acquire a modeling information set, where the modeling information set includes multiple pieces of modeling information;
  • the encryption module 302 is configured to encrypt the numerical information included in the plurality of pieces of modeling information to obtain a plurality of pieces of encrypted information;
  • the clustering module 303 is configured to cluster a plurality of pieces of encrypted information to obtain at least one information template.
  • the obtaining module 301 is configured to acquire a plurality of pieces of to-be-processed information, where each piece of to-be-processed information includes at least a sender-side identifier; and the plurality of pieces of to-be-processed information are divided into different sets of information, each The information to be processed in the information set has the same identifier of the sender; the first preset number of to-be-processed information is obtained from the corresponding information set according to the identifier of the sender of the information to be processed;
  • the processing information constitutes a collection of modeling information.
  • the encryption module 302 is configured to acquire, for any piece of modeling information, a regional identifier of the modeling information according to the identifier of the receiving end of the modeling information; and perform the identifier of the receiving end of the modeling information. Encrypting to obtain a first feature code of the modeling information; and encrypting the numerical information in the modeling information according to the type of the numerical information included in the modeling information to obtain a second feature code of the modeling information; The area identifier, the first feature code, the second feature code, and the receiving time form an encrypted information.
  • the clustering module 303 is configured to separately merge the encrypted information that satisfies the first merge condition among the plurality of pieces of encrypted information to obtain a plurality of pieces of first merged information;
  • the encrypted information satisfying the second merge condition in the information is separately combined to obtain a plurality of second merge information; and the plurality of second merge information are clustered to obtain at least one information template.
  • the clustering module 303 is configured to acquire a plurality of first target encrypted information groups from the plurality of pieces of encrypted information, and the encrypted information in each of the first target encrypted information groups has the same area.
  • the identifier, the first feature code, and the second feature code; the encrypted information in any of the first target encrypted information groups is sorted in order from the late to the early according to the receiving time; and the receiving time in the first target encrypted information group is saved at the latest.
  • the encrypted information is deleted, and the remaining encrypted information in the first target encrypted information group is deleted, and a first merged information is obtained.
  • the clustering module 303 is configured to obtain from a plurality of pieces of first merge information. a plurality of second target encrypted information groups, the first merged information in each second target encrypted information group has the same regional identifier and the second signature; and the second target encrypted information is acquired for any second target encrypted information group.
  • the second feature code of the second target encrypted information group and the latest receiving time of the first merged information in the second target encrypted information group form a second merged information.
  • the clustering module 303 is configured to divide the plurality of pieces of second merge information into a plurality of third target encrypted information groups, and the second merge information in each third target encrypted information group Having the same geographical identifier; for any third target encrypted information group, obtaining the first merged information combined by any second merged information in the third target encrypted information group, when the second merged information is merged first When the number of the merged information is greater than the first threshold, an information consisting of the information content corresponding to the second merged information, the first merged information of the second merged information, and the latest receiving time of the third target encrypted information set; The plurality of entries having the information content in the third target encrypted information group are combined to obtain an information template, and the number of encrypted information applicable to the information template is the sum of the number of encrypted information combined by the plurality of entries, and the receiving time of the information template is more The latest receipt time for entries.
  • the apparatus further includes: a verification module and a determination module.
  • the verification module is configured to perform coverage verification on each information template
  • the determining module is configured to determine an actual information template from the at least one information template according to the verification result.
  • the verification module is configured to acquire a test information set, where the test information set includes a plurality of pieces of test information, and separately process the plurality of pieces of test information to obtain a plurality of first test information groups; The first test information group performs coverage verification for each information template.
  • the verification module is configured to obtain a second preset number of to-be-processed information from the remaining information to be processed in the information set corresponding to the sending end of the information to be processed, to obtain test information. set.
  • the verification module is configured to perform encryption processing on the plurality of pieces of test information to obtain a plurality of pieces of test encryption information; and separately merge the test encryption information that satisfies the third merge condition among the plurality of pieces of test encryption information And obtaining a plurality of pieces of third merge information; dividing the plurality of pieces of third merge information into a plurality of first test information groups, and the third merged information in each first test information group has the same area identifier.
  • the verification module is configured to acquire the regional identifier of the test information according to the identifier of the receiving end of the test information for any piece of test information, and encrypt the identifier of the receiving end of the test information to obtain test information.
  • One test encrypts the information.
  • the verification module is configured to obtain a plurality of second test information groups from the plurality of pieces of test encryption information, and the test encryption information in each second test information group has the same regional identifier. And information content; obtaining the number of test encryption information in any second test information group; composing the regional identification of the second test information group, the number of test encryption information in the second test information group, and the information content of the second test information group A test merge information.
  • the verification module is configured to acquire each first for any information template The number of information that the test information group matches the information template; when the number of information that the information template matches any of the first test information groups is greater than the second threshold, the number of matched information and the test information included in the first test information group are obtained. The ratio of the number.
  • the determining module is configured to use the information template as an actual information template when a ratio of the number of matched information to the number of test information included in the first test information group is within a preset range.
  • the device provided by the embodiment of the present disclosure excels the information template by learning a plurality of pieces of modeling information, and performs the template mining process to encrypt the numerical information contained in the modeling information, so as to avoid the revealed template leaking user privacy. , thus providing a more scientific method of information template mining.
  • FIG. 4 is a block diagram of an apparatus 400 for mining an information template, according to an exemplary embodiment.
  • device 400 can be provided as a server.
  • apparatus 400 includes a processing component 422 that further includes one or more processors, and memory resources represented by memory 432 for storing instructions executable by processing component 422, such as an application.
  • An application stored in memory 432 may include one or more modules each corresponding to a set of instructions.
  • processing component 422 is configured to execute instructions to perform the method of mining the information template described above.
  • acquiring a set of modeling information includes:
  • each piece of to-be-processed information includes at least a sender identifier
  • the first preset number of to-be-processed information is composed into a modeling information set.
  • the numerical information included in the plurality of pieces of modeling information is separately encrypted to obtain a plurality of pieces of encrypted information, including:
  • the area identifier, the first feature code, the second feature code, and the receiving time of the modeling information are combined into one piece of encrypted information.
  • clustering a plurality of pieces of encrypted information to obtain at least one information template, the package include:
  • Encrypting information that satisfies the first combining condition among the plurality of pieces of encrypted information is separately combined to obtain a plurality of pieces of first combining information
  • the encrypted information that satisfies the first merge condition of the plurality of pieces of encrypted information is separately combined to obtain a plurality of pieces of first merged information, including:
  • the receiving time is sorted in order from late to early;
  • the encrypted information with the latest receiving time in the first target encrypted information group is saved, and the remaining encrypted information in the first target encrypted information group is deleted, and a first merged information is obtained.
  • the encrypted information that satisfies the second merge condition of the multiple pieces of the first merge information is separately combined to obtain a plurality of pieces of second merge information, including:
  • the receiving time constitutes a second merged information.
  • clustering the plurality of pieces of second merge information to obtain at least one information template includes:
  • any third target encrypted information group For any third target encrypted information group, obtaining the quantity of the first merged information merged by any second merged information in the third target encrypted information group, if the number of the first merged information combined by the second merged information is greater than the number a threshold, an item consisting of the information content corresponding to the second merge information, the first merge information of the second merge information, and the latest reception time of the third target encrypted information group;
  • the number of encrypted information applicable to the information template is the sum of the number of encrypted information combined by multiple entries, and the receiving time of the information template is The latest reception time for multiple entries.
  • the actual information template is determined from at least one information template.
  • coverage verification is performed for each information template, including:
  • test information set includes multiple pieces of test information
  • Coverage verification is performed for each information template according to a plurality of first test information groups.
  • obtaining a test information set includes:
  • the second preset number of to-be-processed information is obtained from the remaining information to be processed in the information set corresponding to the sending end of the information to be processed, to obtain a test information set.
  • the plurality of pieces of test information are separately processed to obtain a plurality of first test information groups, including:
  • the plurality of third merge information is divided into a plurality of first test information groups, and the third merge information in each first test information group has the same regional identifier.
  • the plurality of pieces of test information are encrypted to obtain a plurality of pieces of test encrypted information, including:
  • the regional identifier of the test information, the first signature code, and the information content of the test information are composed
  • One test encrypts the information.
  • the plurality of pieces of test encryption information are combined to obtain a plurality of pieces of third merge information, including:
  • the regional identification of the second test information group, the number of test encrypted information in the second test information group, and the information content of the second test information group are combined into one test merge information.
  • the coverage verification is performed for each information template according to the plurality of first test information groups, including:
  • the ratio of the number of matched information to the number of test information included in the first test information group is obtained.
  • the actual information template is determined from the at least one information template according to the verification result, including:
  • the information template is used as an actual information template.
  • Device 400 may also include a power supply component 426 configured to perform power management of device 400, a wired or wireless network interface 450 configured to connect device 400 to the network, and an input/output (I/O) interface 458.
  • Device 400 may operate based on an operating system stored in the memory 432, for example, Windows Server TM, Mac OS X TM , Unix TM, Linux TM, FreeBSD TM or the like.
  • the device provided by the embodiment of the present disclosure excels the information template by learning a plurality of pieces of modeling information, and performs the template mining process to encrypt the numerical information contained in the modeling information, so as to avoid the revealed template leaking user privacy. , thus providing a more scientific method of information template mining.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种挖掘信息模板的方法及装置,属于信息技术领域。该方法包括:获取建模信息集合,建模信息集合包含多条建模信息(101);分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息(102);对多条加密信息进行聚类,得到至少一个信息模板(103)。通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。

Description

挖掘信息模板的方法及装置
本申请基于申请号为201510791533.0、申请日为2015年11月17日的中国专利申请提出,并要求该中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
技术领域
本公开涉及信息技术领域,尤其涉及一种挖掘信息模板的方法及装置。
背景技术
现代生活中,用户每天都会接收到大量的通知类信息,这些信息常以短信息、邮件、即时消息等方式发送。在对这些大量的信息进行研究时发现,这些信息通常具有相似的文本架构,而基于这些文本架构所挖掘出的信息模板,在提高用户体验、促进自然语言处理技术等方面具有十分重要的意义。
频繁序列挖掘作为当前信息模板挖掘中一种常用的方法,该方法通过预先设定的阈值,从海量信息中挖掘出信息模板。在实际应用中,如果某条信息出现的频率高于预先设定的阈值,则将该信息作为信息模板。
发明内容
本公开提供一种挖掘信息模板的方法及装置。
根据本公开实施例的第一方面,提供一种挖掘信息模板的方法,所述方法包括:
获取建模信息集合,所述建模信息集合包含多条建模信息;
分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
对所述多条加密信息进行聚类,得到至少一个信息模板。
根据本公开实施例的第二方面,提供一种挖掘信息模板的装置,所述装置包括:
获取模块,用于获取建模信息集合,所述建模信息集合包含多条建模信息;
加密模块,用于分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
聚类模块,用于对所述多条加密信息进行聚类,得到至少一个信息模板。
根据本公开实施例的第三方面,提供一种挖掘信息模板的装置,包括:
处理器;
用于存储处理器可执行的指令的存储器;
其中,所述处理器被配置为:
获取建模信息集合,所述建模信息集合包含多条建模信息;
分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
对所述多条加密信息进行聚类,得到至少一个信息模板。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并组成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。
图2是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图。
图3是根据一示例性实施例示出的一种挖掘信息模板的装置的结构示意图。
图4是根据一示例性实施例示出的一种挖掘信息模板的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图,如图1所示,挖掘信息模板方法用于服务器中,包括以下步骤。
在步骤101中,获取建模信息集合,该建模信息集合包含多条建模信息。
在步骤102中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息。
在步骤103中,对多条加密信息进行聚类,得到至少一个信息模板。
本公开实施例提供的方法,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
在本公开的另一个实施例中,获取建模信息集合,包括:
获取多条待处理信息,每条待处理信息至少包括发送端标识;
将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;
根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;
将第一预设数量的待处理信息组成建模信息集合。
在本公开的另一个实施例中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息,包括:
对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识;
对建模信息的接收端标识进行加密,得到建模信息的第一特征码;
根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码;
将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板,包括:
对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;
对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;
对多条第二合并信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施例中,对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,包括:
从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;
对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;
保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
在本公开的另一个实施例中,对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息,包括:
从多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;
对于任一第二目标加密信息组,获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间;
将第二目标加密信息组的地域标识、第二目标信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
在本公开的另一个实施例中,对多条第二合并信息进行聚类,得到至少一个信息模板, 包括:
将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;
对于任一第三目标加密信息组,获取第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,如果第二合并信息所合并的第一合并信息的数量大于第一阈值,则将第二合并信息对应的信息内容、第二合并信息合并的第一合并信息的数量、第三目标加密信息组的最晚接收时间组成的一个条目;
将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板之后,还包括:
对每个信息模板进行覆盖率验证;
根据验证结果,从至少一个信息模板中,确定出实际信息模板。
在本公开的另一个实施例中,对每个信息模板进行覆盖率验证,包括:
获取测试信息集合,测试信息集合包括多条测试信息;
对多条测试信息分别进行处理,得到多个第一测试信息组;
根据多个第一测试信息组,对每个信息模板进行覆盖率验证。
在本公开的另一个实施例中,获取测试信息集合,包括:
从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到测试信息集合。
在本公开的另一个实施例中,对多条测试信息分别进行处理,得到多个第一测试信息组,包括:
对多条测试信息进行加密处理,得到多条测试加密信息;
对多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;
将多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
在本公开的另一个实施例中,对多条测试信息进行加密处理,得到多条测试加密信息,包括:
对于任一条测试信息,根据测试信息的接收端标识,获取测试信息的地域标识;
对测试信息的接收端标识进行加密,得到测试信息的第一特征码;
将测试信息的地域标识、第一特征码及测试信息的信息内容组成
一条测试加密信息。
在本公开的另一个实施例中,对多条测试加密信息进行合并,得到多条第三合并信息, 包括:
从多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;
获取任一第二测试信息组中测试加密信息的数量;
将第二测试信息组的地域标识、第二测试信息组中测试加密信息的数量、第二测试信息组的信息内容组成一条测试合并信息。
在本公开的另一个实施例中,根据多个第一测试信息组,对每个信息模板进行覆盖率验证,包括:
对于任一信息模板,获取每个第一测试信息组与信息模板相匹配的信息数量;
如果信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,则获取相匹配的信息数量与第一测试信息组包含的测试信息数量的比值。
在本公开的另一个实施例中,根据验证结果,从至少一个信息模板中,确定出实际信息模板,包括:
如果相匹配的信息数量与第一测试信息组包含的测试信息数量的比值在预设范围内,则将信息模板作为实际信息模板。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图2是根据一示例性实施例示出的一种挖掘信息模板的方法的流程图,如图2所示,挖掘信息模板的方法用于服务器中,包括以下步骤。
在步骤201中,服务器获取建模信息集合,该建模信息集合包含多条建模信息。
在现代生活中,用户每天都会接收到服务商发送的通知类信息,这些信息以短信息、邮件、即时消息等形式发送。通常这些信息在发送时,会采用统一的信息模板,由相应的服务商服务器填充用户的相关信息后,自动地发送给每个用户。通过对这些信息进行研究,可挖掘出这些信息所应用的信息模板。这些信息模板不仅能够帮助用户了解服务商的最新动态,提高体验效果,而且能够促进自然语言处理技术的发展。
需要说明的是,由于不同类型的信息所涉及的服务商是不同的,而不同服务商服务器所发送的信息内容通常是不同的,因此,为了更有针对性进行模板挖掘,提高挖掘出的信息模板的准确性,本实施例提供的方法在挖掘信息模板时,需要收集同一类型的信息,进而从该类型的信息中挖掘信息模板。
例如,服务器可收集移动、联通、电信等服务商服务器发送给用户的各种短信息,进而从收集到的短信息中挖掘信息模板;也可以收集不同即时应用服务器发给用户的即时信息,进而从收集到的即时信息中挖掘信息模板;还可以收集不同邮件服务器发送给用户的通知邮件,进而从收集到的通知邮件中挖掘信息模板等等。
由于收集到的待处理信息数量较大,如果根据收集到的所有待处理信息挖掘信息模 板,信息模板挖掘速度将会很慢,为此,服务器可根据收集到的待处理信息,获取建模信息集合。该建模信息集合中包含多条建模信息,该建模信息为用于挖掘信息模板的待处理信息。示例性地,服务器在获取建模信息集合,可采取如下步骤2011~2014:
2011、服务器获取多条待处理信息,每条待处理信息至少包括发送端标识。
服务器在获取多条待处理信息时,可从各个服务商服务器上收集发送给多个用户的信息,进而将收集到的信息,作为获取到的多条待处理信息。在一实施例中,每条待处理信息中可以至少包括发送端标识、接收端标识、信息接收时间等。如果待处理信息为短信息,则每条待出信息所包括的发送端标识应为发送方号码、接收端标识应为接收方号码。如果待处理信息为邮件,则每条待处理信息所包括的发送端标识应为邮件服务器对应的邮箱、接收端标识应为用户的邮箱。如果待处理信息为即时消息,则每条待处理信息所包括的发送端标识应为即时应用服务器对应的即时通讯号、接收端标识应为用户的即时通讯号等。
通常服务器收集到的待处理信息可能是各个服务商服务器在不同时间内发给用户的,这些信息中有些信息因时间较早,对用户而言可能没有任何意义,当然基于这些信息挖掘出的信息模板,也将失去应有的价值,因此,为了确保挖掘出的信息模板具有时效性,服务器在获取多条待处理信息后,可预先设定一个指定时间,并按照该指定设时间,对多条待处理信息进行初步筛选,以保存接收时间晚于该指定时间的待处理信息,并删除接收时间早于该指定时间的待处理信息。
2012、服务器将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识。
服务器根据发送端标识,将具有相同发送端标识的待处理信息划分为一个信息集合,每个信息集合中的待处理信息具有相同的发送端标识。通过对多条待处理信息进行划分,每个信息集合与发送端标识将一一对应。例如,可将发送端标识为10086的待处理信息划分为信息集合A,将发送端标识为10011的待处理信息划分为信息集合B等。
2013、服务器根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息。
在本实施例中,信息集合与发送端标识是一一对应的,根据任一发送端标识,服务器可获取到相应的信息集合。由于每个信息集合中均包含大量的待处理新,如果根据全部的待处理信息进行信息模板挖掘,操作复杂度较高,因此,为了提高信息模板挖掘速度,本实施例提供的方法可从获取到的信息集合中,选取部分待处理信息组成一个建模信息集合。以选取第一预设数量的待处理信息为例,该第一预设数量可以为1000条、2000条、3000条等等,本实施例不对第一预设数量作具体的限定。
2014、服务器将第一预设数量的待处理信息组成建模信息集合。
基于获取到的第一预设数量的待处理信息,服务器可将该第一预设数量的待处理信息组成建模信息集合。
需要说明的是,由于本实施例中涉及到多种待处理信息,为了便于对多种待处理信息 进行区分,本实施例可根据待处理信息的不同用途,将待处理信息分为建模信息及测试信息。其中,建模信息主要用于挖掘信息模板,测试信息主要用于对挖掘出的信息模板进行验证。
在步骤202中,服务器分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息。
一般情况下,用户接收到的信息中常会包含一些隐私信息,例如姓名、手机号码、出生日期、银行卡号、会员卡号、消费金额、验证码、订单号等等。在本实施例中,姓名为文字型隐私信息,手机号码、出生日期、银行卡号、会员卡号、消费金额、验证码、订单号等属于数值型隐私信息,简称为数值信息。
文字型隐私信息对用户而言是有区分性的,不同的文字型隐私信息对不同用户而言,一般是不同或不完全相同的。对于不具有区分性的文字型信息,例如,短信息中常常出现的文字“尊敬的客户”等,根据该信息无法推测出用户的身份信息,因而该信息不属于隐私信息。对于具有区分性的文字型信息,例如张三、李四等,通过这些信息能够推测出用户的身份等相关信息。因此,为了避免用户的隐私被泄露,服务器可选取适合的通配符,将这些信息替换掉。
为了更好地保护用户的隐私,对于建模信息中包含的数值信息,服务器可采用加密算法对这些信息进行加密,得到多条加密信息。具体过程,可采用如下步骤2021~2024:
2021、服务器对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识。
通常情况下,针对不同的区域特点,不同服务商在不同位置地区内使用的信息模板不同的。由于接收端标识可定位出不同用户所在的位置区域,因此,根据该建模信息的接收端标识,服务器可获取建模信息的地域标识。在本实施例中地域标识可用place表示,且地域位置不同对应的地域标识place也是不同的,比如北京的地域标识为“beijing”、上海的地域标识为“shanghai”等。
2022、服务器对建模信息的接收端标识进行加密,得到建模信息的第一特征码。
服务器对该建模信息的接收端标识进行加密时,可采用预设的加密算法进行加密,该预设的加密算法由服务器确定。通过采用预设的加密算法对该建模信息的接收端标识进行加密,可得到该建模信息的接收端标识对应的密文,该密文称为第一特征码。在本实施例中,第一特征码可用ciphertext表示,不同接收端标识的ciphertext是不同的,比如,接收端标识123456的ciphertext为a,接收端标识258369的ciphertext为b等等。
需要注意的是,采用预设的加密算法对不同的接收端标识进行加密,得到的第一特征码是不同的,且每个接收端标识对应的第一特征码是唯一的,也即是,接收端标识与第一特征码之间是一一对应的。
2023、服务器根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码。
在本实施例中,不同类型的数值信息对应的密文也是不同的,例如,如果数值信息的类型为电话号码,则该数值信息对应的密文可以为<Phone Number>;如果数值信息的类型为日期,则该数值信息对应的密文可以为<Time>;如果第二信息的类型为数字,则该数值信息对应的密文可以为<Number>。
服务器在对建模信息中包含的数值信息进行加密时,可采用该数值信息的类型对应的密文替换建模信息中相应的数值信息,从而得到建模信息的第二特征码。在本实施例中,第二特征码可用contentNew表示。
例如,如果该建模信息的数值信息的类型为电话号码10086,则采用电话号码对应的第二特征码<Phone Number>替换10086,得到该建模信息的第二特特征码<Phone Number>。
2024、服务器将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
服务器将该建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。在本实施例中,接收时间可用datetime表示。此时加密信息为一条可用<place,ciphertext,contentNew,datetime>表示的四元组信息。
需要说明的是,上述以对建模信息集合中任一条建模信息进行加密为例,在实际应用中,对其他建模信息的加密过程与对该建模信息的加密过程相同,具体参见上述对该建模信息的加密过程,此处不再赘述。
为了直观地展现服务器对多条建模信息所包含的数值信息进行的过程,下面以对短信息1、短信息2、短信息3为例进行详细地解释说明。
例如,短信息1:【银行】尊敬的刘飞先生/女士,您已经于2014年08月21日将原手机号尾号0102修改成尾号为0988的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。
短信息2:【银行】尊敬的张杰先生/女士,您已经于2014年07月13日将原手机号尾号0209修改成尾号为0898的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。
短信息3:【银行】尊敬的王长江先生/女士,您已经于2014年08月07日将原手机号尾号0109修改成尾号为1234的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。
由于短信息1、短信息2、短信息3中涉及到时间、手机号、电话号码等用户隐私信息,为了保护用户的隐私,可采用本实施例提供的方法,对这些短信息中的数值信息进行加密,加密后可得到如下加密信息:
加密信息1:【银行】尊敬的刘飞先生/女士,您已经于<Time>将原手机号尾号<Number>修改成尾号为<Number>的手机号,请使用新手机号办理电子银行业务,如有疑问请致电<Phone Number>。
加密信息2:【银行】尊敬的张杰先生/女士,您已经于<Time>将原手机号尾号<Number>修改成尾号为<Number>的手机号,请使用新手机号办理电子银行业务,如有疑问请致电<Phone Number>。
加密信息3:【银行】尊敬的王长江先生/女士,您已经于<Time>将原手机号尾号<Number>修改成尾号为<Number>的手机号,请使用新手机号办理电子银行业务,如有疑问请致电<Phone Number>。
另外,为了便于对加密信息进行管理,服务器可将多条加密信息组成加密信息集合。在本实施例中,加密信息集合可用corpus1表示,该corpus1中包含多条可用<place,ciphertext,contentNew,datetime>表示的四元组的加密信息。
在步骤203中,服务器对多条加密信息进行聚类,得到至少一个信息模板。
为了降低信息模板挖掘过程的复杂度,提高信息模板的挖掘效率,基于所得到的多条加密信息,服务器可对多条加密信息进行聚类,得到至少一个信息模板。
在本实施例中,服务器对多条加密信息进行聚类,得到至少一个信息模板的过程,可参见如下步骤2031~2033。
2031、服务器对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息。
其中,第一合并条件为具有相同地域标识、第一特征码、第二特征码等。
示例性地,服务器对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,可参见如下步骤20311~20313。
20311、服务器从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码。
由于每条加密信息均可表示成由地域标识、第一特征码、第二特征码及接收时间组成的四元组信息,因此,服务器可根据每条加密信息的四元组表示形式,获取到具有相同的地域标识、第一特征码、第二特征码的加密信息,进而将具有相同的地域标识、第一特征码、第二特征码的加密信息组成第一目标加密信息组。
例如,服务器获取到多条加密信息,其中,加密信息1可以为<beijing,a,Number,2015/06/01/12:00:00>,加密信息2可以为<beijing,a,Number,2015/01/04/07:00:00>,加密信息3可以为<beijing,a,Number,2015/02/01/08:30>,加密信息4可以为<tianjin,c,PhoneNumber,2015/04/04/10:15:00>、加密信息5可以为<tianjin,c,PhoneNumber,2015/07/14/10:15:00>、加密信息6可以为<tianjin,c,PhoneNumber,2015/07/12/06:20:00>。在本实施例中,服务器将地域标识为beijing、第一特征码为a,第二特征码为Number的加密信息1、加密信息2、加密信息3组成一个第一目标加密信息组。服务器将地域标识为tianjin、第一特征码为b、第二特征码为PhoneNumber的加密信息4、加密信息5、加密信息6组成另一个第一目标加密信息组。
20312、对于任一第一目标加密信息组中的加密信息,服务器按照接收时间由晚到早 的顺序进行排序。
以任一第一目标加密信息组中的加密信息为例,服务器还可以按照接收时间由晚到早的顺序,对该第一目标加密信息组中的加密信息进行排序。
以上述例子中由加密信息1、加密信息2及加密信息3组成的第一目标加密信息组为例,服务器按照接收时间由晚到早的顺序进行排序,可得到加密信息1、加密信息2、加密信息3。
20313、服务器保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
通常具有相同地域标识、第一标识码及第二标识码的信息为服务商服务器发给同一用户的具有相同信息内容的通知信息,这些信息在发送过程中因服务器故障被多次重复发送。在进行信息模板挖掘时,为了减少信息模板挖掘的计算量,服务器可保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息。该接收时间最晚的加密信息即为第一合并信息。
例如,第一目标加密信息组中加密信息1为<beijing,a,Number,2015/06/01/12:00:00>,加密信息2为<beijing,a,Number,2015/01/04/07:00:00>,加密信息3为<beijing,a,Number,2015/02/01/08:30>,加密信息4为<tianjin,c,PhoneNumber,2015/04/04/10:15:00>,则服务器可保存加密信息1,并删除加密信息2和加密信息3。
2032、服务器对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息。
在一实施例中,第二合并条件为具有相同的地域标识及第二特征码等。
示例的,服务器在对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息时,可采用如下步骤20321~30323。
20321、服务器从多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码。
由于每条第一合并信息均可表示成由地域标识、第一特征码、第二特征码及接收时间组成的四元组,因此,服务器器可根据每条第一合并信息的四元组标识形式,获取具有相同的地域标识、第二特征码的第一合并信息,进而将具有相同的地域标识、第二特征码的第一合并信息组成第二目标加密信息组。
例如,服务器通过对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到的多条第一合并信息,其中,第一合并信息1为<shanghai,c,Number,2015/07/03/10:00:00>,第一合并信息2为<shanghai,a,Number,2015/01/08/07:00:00>,第一合并信息3为<beijing,b,PhoneNumber,2015/02/05/08:30:12>,第一合并信息4为<shanghai,b,PhoneNumber,2014/07/18/09:00:02>,第一合并信息5为<beijing,b,PhoneNumber,2015/05/04/10:20:00>、第一合并信息6为<tianjin,c,PhoneNumber,2015/07/12/06:20:00>。服务器将地域标识为shanghai、第二特征码为Number的第一合并信息1、第一合并信息2 组成一个第二目标加密信息组;将地域标识为beijing、第二特征码为PhoneNumber的第一合并信息3、第一合并信息5组成一个第二目标加密信息组。
20322、对于任一第二目标加密信息组,服务器获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间。
在本实施例中,第二目标加密信息组中第一合并信息的数量可以为2个、3个等,本实施例不对第二目标加密信息组中第一合并信息的数量作具体的限定。在本实施例中,第二目标加密信息组中第一合并信息的数量可用c1表示。
在本实施例中,服务器还将按照接收时间由晚到早的顺序,对该第二目标加密信息组中的第一合并信息进行排序,并根据排序结果,获取该第二加密信息组中第一合并信息的最晚接收时间。在本实施例中,第二加密信息组中第一合并信息的最晚接收时间可用latestdatetime1表示。
以上述由第一合并信息3、第一合并信息5组成的第二目标加密信息组为例,服务器可获取到该第二目标加密信息组中的第一合并信息的数量为2个。由于第一合并信息3的接收时间为<2015/02/05/08:30:12>,第一合并信息5的接收时间为<015/05/04/10:20:00>,因此,服务器可获取到该第二目标加密信息组中第一合并信息的最晚接收时间为2015/05/04/10:20:00。
20323、服务器将第二目标加密信息组的地域标识、第二目标加密信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第二合并信息的最晚接收时间组成一条第二合并信息。
在一实施例中,每条第二合并信息为一条可用<place,c1,contentNew,latestdatetime1>表示的四元组信息。
需要说明的是,上述以对一个第二目标加密信息组中的多条第一合并信息进行合并为例进行说明的,对于其他的第二目标加密信息组中多条第一合并信息的合并过程,可参考上述对任一第二目标加密信息组中的多条第一合并信息进行合并的过程,此处不再赘述。
为了便于对多条第二合并信息进行管理,服务器还将多条第二合并信息组成一个集合corpus2。
2033、服务器对多条第二合并信息进行聚类,得到至少一个信息模板。
虽然通过上述过程,已将建模信息组中的多条建模信息合并成多条第二合并信息,但合并后得到的第二合并信息的数量仍然较多,且这些第二合并信息中的中部分第二合并信息仍然具有相同的特征,因此,服务器可通过对多条第二合并信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施例中,服务器对多条第二合并信息进行聚类,得到至少一个信息模板时,可采用如下步骤20331~20333。
20331、服务器将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识。
通常根据不同的地域特点,通常服务商服务器向用户发送的信息内容是不同,当然,根据不同的信息内容,服务器挖掘出的信息模板也是不一样的。因此,为了更有针对性地挖掘出信息模板,服务器可根据第二合并信息的地域标识,将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识。
在具体实施时,服务器可根据corpus2中包含的第二合并信息的地域标识,将集合corpus2划分为n个不相交的子集合,如corpus2(place1)、corpus2(place2)、corpus2(place3)…..、corpus2(placen)。对于任一corpus2(placei),该corpus2(placei)中每个第二合并信息对应的地域标识均为placei,且corpus2(placei)中的每个第二合并信息为一条可用<count,countentNew,datetime>表示的三元组信息。
20332、对于任一第三目标加密信息组,服务器获取第三目标加密信息组中任一第二合并信息所合并的加密信息数量,如果第二合并信息所合并的加密信息的数量大于第一阈值,则将第二合并信息对应的信息内容、第二合并信息合并的加密信息的数量、第二合并信息的最晚接收时间组成的一个条目。
为了保证所挖掘的信息模板的准确性,对于任一第三目标加密信息组,服务器可预先设置第一阈值,该第一阈值可以为10、20、30等,进而基于频繁子序列挖掘的方法,从该目标加密信息组中挖掘信息模板。该过程中,服务器可将该第三目标加密信息组中的任一第二合并信息所合并的加密信息数量与地域阈值进行比较,如果该第二合并信息所合并的加密信息的数量大于第一阈值,则将该第二合并信息对应的信息内容、第二合并信息合并的加密信息的数量、第三目标加密信息组的最晚接收时间组成一个条目,该条目可以用<pat、c2、latestDatetime2>,其中,pat为信息内容,c2为信息第二合并信息所合并的信息数量,latestDatetime2为第二合并信息的最晚接收时间。
20333、服务器将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
服务器将该第三目标加密信息组中具有相同信息内容的多个条目进行合并,得到一条模板信息,该信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
需要说明的是,上述以对任一第三目标加密信息组进行聚类得到一个信息模板为例进行说明的,对于将其他第三目标加密信息组进行聚类得到信息模板的过程,可参见上述步骤2033,本实施例不再赘述。
由上述步骤201至203可以看出,本公开实施例的信息模板的挖掘过程,实质上是对中间模板进行抽象,并覆盖其中的人名、地名等文字类型的隐私信息,以及银行卡号、手机号等数值信息的过程。以对上述步骤2024中的短信1、短信2、短信3进行信息模板挖掘为例,采用本公开实施例提供的方法,可得到如下的信息模板:
【银行】尊敬的<*>先生/女士,您已经于<Time>将原手机号尾号<Number>修改成尾号为<Number>的手机号,请使用新手机号办理电子银行业务,如有疑问请致电<PhoneNumber>。
在步骤204中,服务器对每个信息模板进行覆盖率验证。
一般情况下,通过上述信息模板挖掘过程,已经可以保证用户的隐私信息在模板中被完全屏蔽,但为了防止程序bug,导致信息模板没有完全屏蔽用户的隐私信息,本实施例提供的方法还将对挖掘出的全部信息模板进行覆盖率验证。其中,覆盖率验证是指计算信息模板在测试信息集合中的覆盖比例,也即是,匹配信息的数量在所有信息中所占的比例。
对于每个信息模板的三元组pat、c2、latestDatetime2>,理论上,每个信息模板在对应的corpus2(placei)中待处理信息的最小覆盖率为c,设定corpus2(placei)中包含的待处理信息为N,则pat在corpus2(placei)中的覆盖率rate=c/N。
通常,挖掘出的信息模板pat在其他信息集合上的覆盖率的期望值也应为rate,一般该期望值会有ε的波动,也就是说,该信息模板pat在其他信息集合上的覆盖率期望应该在[rate-ε,rate+ε]之间。对于覆盖率位于[0,rate-ε)的pat,因覆盖率较小,可从对应的信息模板删除。给定覆盖数阈值m,对于覆盖数小于m的pat,也应从对应的信息模板删除,从而使得实际信息模板的覆盖率均在[rate-ε,1],且具有一定的绝对覆盖数量。
需要说明的是,信息模板的挖掘过程是从待处理信息中归纳信息模板的过程,而覆盖率验证是用模板匹配测试信息的过程,两者为两个相反的过程,可从正反量方面保证挖掘出的信息模板中不包含用户的隐私信息。另外,覆盖率验证过程与模板挖掘过程使用的信息集合并没有交集,都是从原始信息集合中随机抽取的,用这两组具有类似分布的不同信息集合,进一步地保证了挖掘出的信息模板中不包含用户的隐私信息。
示例性地,服务器在对每个信息模板进行覆盖率验证时,可采用如下步骤2041~2043。
2041、服务器获取测试信息集合,该测试信息集合包括多条测试信息。
为提高验证结果的准确性,服务器将从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,并将第二预设数量的待处理信息组成测试信息集合。其中,第二预设数量可以为100、200、300等,本实施例不对第二预设数量作具体的限定。
2042、服务器对多条测试信息分别进行处理,得到多个第一测试信息组。
服务器在对多条测试信息分别进行处理,得到多个第一测试信息组时,可采用如下步骤20421~20423。
20421、服务器对多条测试信息进行加密处理,得到多条测试加密信息。
服务器在对多条测试信息进行加密处理,得到多条测试加密信息时,可采用如下步骤204211~204213。
204211、对于任一条测试信息,服务器根据测试信息的接收端标识,获取测试信息的地域标识。
通常情况下,针对不同的区域特点,不同服务商在不同位置地区内使用的信息模板不同的。由于接收端标识可定位出不同用户所在的位置区域,因此,根据该测试信息的接收端标识,服务器可获取测试信息的地域标识。在本实施例中地域标识可用place表示,且地域位置不同对应的地域标识place也是不同的,比如北京的地域标识为“beijing”、上海的地域标识为“shanghai”等。
204212、服务器对测试信息的接收端标识进行加密,得到测试信息的第一特征码。
服务器对测试信息的接收端标识进行加密时,可采用预设的加密算法进行加密,该预设的加密算法由服务器确定。通过采用预设的加密算法对该测试信息的接收端标识进行加密,可得到该测试信息的接收端标识对应的密文,该密文也称为第一特征码。在本实施例中,该第一特征码也可用ciphertext表示,不同接收端标识的ciphertext是不同的,比如,接收端标识123456的ciphertext为a,接收端标识258369的ciphertext为c等等。
需要注意的是,采用预设的加密算法对不同的接收端标识进行加密,得到的第一特征码是不同的,且每个接收端标识对应的第一特征码是唯一的,也即是,接收端标识与第一特征码之间是一一对应的。
204213、服务器将测试信息的地域标识、第一特征码及测试信息的信息内容组成一条测试加密信息。
服务器将测试信息的地域标识、第一特征码及测试信息的信息内容组成一条加密信息。在本实施例中,测试信息的信息内容可用content表示。此时测试加密信息为一条可用<place,ciphertext,content>表示的三元组信息。
需要说明的是,上述以对测试信息集合中任一条测试信息进行加密为例,在实际应用中,对其他测试信息的加密过程与该测试信息的加密过程相同,具体参见上述对该测试信息的加密过程,此处不再赘述。
20422、服务器对多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息。
在具体实施时,服务器对多条测试加密信息进行合并,得到多条第三合并信息,可采用如下步骤204221~204223。
204221、服务器从多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容。
由于每条测试加密信息均可表示成由地域标识、第一特征码及测试信息的信息内容组成的三元组信息,因此,服务器可根据每条测试加密信息的三元组表示形式,获取到具有相同的地域标识及信息内容的测试加密信息,并将具有相同的地域标识及信息内容的加密信息组成第二测试信息组。
例如,服务器获取到多条测试加密信息,其中,测试加密信息1为<beijing,a,content1>,测试加密信息2为<beijing,b,content 1>,测试加密信息3为<beijing,c,content 1>,测试加密信息4为<tianjin,d,content2>、测试加密信息5为<tianjin,c,content 2>。服 务器将地域标识为beijing、信息内容为content 1的测试加密信息1、测试加密信息2、测试加密信息3组成一个第二测试信息组;将地域标识为tianjin、信息内容为content 2的加密信息4、加密信息5组成另一个第二测试信息组。
204222、服务器获取任一第二测试信息组中测试加密信息的数量。
其中,第二测试信息组中测试加密信息的数量可以为2个、3个等,本实施例不对第二测试信息组中测试加密信息的数量作具体的限定。在本实施例中,第二测试信息组中测试加密信息的数量可用c3表示。
204223、服务器将第二测试信息组的地域标识、第二测试信息组中测试加密信息的数量、第二测试信息组的信息内容组成一条测试合并信息。
其中,每条第二合并信息为一条可用<place,c3,content>。
上述以对任一第二测试信息组中测试加密信息进行合并为例进行说明的,对于其他的第二测试信息组中测试加密信息的合并过程,可参考上述对任一任一第二测试信息组中测试加密信息进行合并的过程,此处不再赘述。
为了便于对多条测试合并信息进行管理,服务器还将多条测试合并信息组成一个集合corpus3。
20423、服务器将多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
通常根据不同的地域特点,通常服务商服务器向用户发送的信息内容是不同,当然,根据不同的信息内容,服务器所能验证的信息模板也是不同的。因此,为了更有针对性地验证信息模板,服务器可将多条第三合并信息划分为多个第一测试信息组,且每个第一测试信息组中的第三合并信息具有相同的地域标识。具体实施时,服务器可根据corpus3中包含的第二合并信息的地域标识,将集合corpus3划分为n个不相交的子集合,如validate corpus3(place1)、validate corpus3(place2)、validate corpus3(place3)…..、validate corpus3(placen)。对于任一validate corpus3(placei),该validate corpus3(placei)中每个第三合并信息对应的地域标识均为placei,且validate corpus3(placei)中的每个第三合并信息为一条可用<place,c4,content>表示的三元组信息。其中,c4为每个第一测试信息组中包含的第三合并信息的数量。
2043、服务器根据多个第一测试信息组,对每个信息模板进行覆盖率验证。
服务器根据多个第一测试信息组,对每个信息模板进行覆盖率验证时,可采用如下步骤20431~20432。
20431、对于任一信息模板,服务器获取每个第一测试信息组与信息模板相匹配的信息数量。
以挖掘出的任一信息模板为例,服务器还将该信息模板与多个第一测试信息组中的每个第一测试信息组进行匹配,具体匹配时,可将该信息模板的模板内容与每个第一测试信息中包含的每个第三合并信息的信息内容进行匹配,当该信息模板的模板内容与任一第一 测试信息中包含的任一第三合并信息的信息内容完全相同或相似度大于特定数值时,确定该信息模板与任一第一测试信息中包含的任一第三合并信息相匹配。通过采用该种方式进行匹配,可获取信息模板与多个第一测试信息组中的每个第一测试信息组相匹配的信息数量。
对于上述过程,为了便于理解,下面以将一信息模板与一第一测试信息组进行匹配为例,进行详细地解释说明。
例如,挖掘出的信息模板为“【银行】尊敬的<*>先生/女士,您已经于<Time>将手机尾号<Number>修改成尾号为<Number>的手机号,请使用新的手机号办理电子银行业务,如有疑问请致电<PhoneNumber>。”第一测试信息组中包含的测试信息分别为短信息1、短信息2、短信息3、短信息4、短信息5,其中,短信息1为“【银行】尊敬的刘飞先生/女士,您已经于2014年08月21日将原手机号尾号0102修改成尾号为0988的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。”短信息2为“【银行】尊敬的张杰先生/女士,您已经于2014年07月13日将原手机号尾号0209修改成尾号为0898的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。”短信息3:“【银行】尊敬的王长江先生/女士,您已经于2014年08月07日将原手机号尾号0109修改成尾号为1234的手机号,请使用新手机号办理电子银行业务,如有疑问请致电95580。”短信息4为“尊敬的客户,请使用您系统预留的186尾号为1234的手机致电即可免输入身份证号或卡号,告别繁琐,简单生活。”短信息5为“尊敬的客户,您的订单10142389122已出库发货,正在配送中,请您耐性等待。本商城不会以订单无效为由主动要求提供银行卡信息操作退款,谨防诈骗!”在将该信息模板与该第一测试信息组中的5条短信息进行匹配时,可以发现短信1、短信2、短信息3与该信息模板相匹配,短信息4、短信息5与该信息模板不匹配。
20432、如果信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,则服务器获取相匹配的信息数量与第一测试信息组包含的测试信息数量的比值。
其中,第二阈值可以为3、5、8等等,本实施例不对第二阈值的大小作具体的限定。当该信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,服务器还将获取相匹配的数量与第一测试信息组包含的测试信息数量的比值。例如,信息模板与任一第一测试信息组相匹配的信息数量为t,第一测试信息组包含的测试信息数量为o,则可得到相匹配的数量与第一测试信息组包含的测试信息数量的比值=t/o。
例如,服务器在将信息模板与任一第一测试信息组相匹配时,获取该信息模板与该第一测试信息组相匹配的信息数量为100个,若设定第二阈值为120,则服务器可获取到相匹配的信息数量与该第一测试信息组包含的测试信息数量的比值为100/120=83.3%。
在步骤205中,服务器根据验证结果,从至少一个信息模板中,确定出实际信息模板。
当采用上述步骤204所述的方法对挖掘出的任一信息模板进行验证时,如果相匹配的信息数量与第一测试信息组包含的测试信息数量的比值在预设范围内,则可将信息模板作 为实际信息模板。其中,预设范围可以[50%,100%]、[70%,100%]等等,本实施例不对预设范围作具体的限定。
另外,为了确保用户隐私信息的100%,服务器在对信息模板进行覆盖率验证之后,还会将验证得到的实际信息模板提供给审核人员,由审核人员进行人工审核,当审核通过后,方将审核通过的信息模板提供给相应的技术人员进行使用。
本公开实施例提供的方法,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
图3是根据一示例性实施例示出的一种挖掘信息模板的装置示意图。参照图3,该装置包括:获取模块301、加密模板302和聚类模块303。
该获取模块301被配置为获取建模信息集合,建模信息集合包含多条建模信息;
该加密模块302被配置为分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息;
该聚类模块303被配置为对多条加密信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施例中,该获取模块301被配置为获取多条待处理信息,每条待处理信息至少包括发送端标识;将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;将第一预设数量的待处理信息组成建模信息集合。
在本公开的另一个实施例中,该加密模块302被配置为对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识;对建模信息的接收端标识进行加密,得到建模信息的第一特征码;根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码;将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
在本公开的另一个实施例中,该聚类模块303被配置为对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;对多条第二合并信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施中,该聚类模块303被配置为从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
在本公开的另一个实施例中,该聚类模块303被配置为从多条第一合并信息中,获取 多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;对于任一第二目标加密信息组,获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间;将第二目标加密信息组的地域标识、第二目标加密信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
在本公开的另一个实施例中,该聚类模块303被配置为将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;对于任一第三目标加密信息组,获取第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,当第二合并信息所合并的第一合并信息的数量大于第一阈值时,将第二合并信息对应的信息内容、第二合并信息合并的第一合并信息的数量、第三目标加密信息组的最晚接收时间组成的一个条目;将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
在本公开的另一个实施例中,该装置还包括:验证模块和确定模块。
该验证模块被配置为对每个信息模板进行覆盖率验证;
该确定模块被配置为根据验证结果,从至少一个信息模板中,确定出实际信息模板。
在本公开的另一个实施例中,该验证模块被配置为获取测试信息集合,测试信息集合包括多条测试信息;对多条测试信息分别进行处理,得到多个第一测试信息组;根据多个第一测试信息组,对每个信息模板进行覆盖率验证。
在本公开的另一个实施例中,该验证模块被配置为从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到测试信息集合。
在本公开的另一个实施中,该验证模块被配置为对多条测试信息进行加密处理,得到多条测试加密信息;对多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;将多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
在本公开的另一个实施例中,该验证模块被配置为对于任一条测试信息,根据测试信息的接收端标识,获取测试信息的地域标识;对测试信息的接收端标识进行加密,得到测试信息的第一特征码;将测试信息的地域标识、第一特征码及测试信息的信息内容组成
一条测试加密信息。
在本公开的另一个实施例中,该验证模块被配置为从多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;获取任一第二测试信息组中测试加密信息的数量;将第二测试信息组的地域标识、第二测试信息组中测试加密信息的数量、第二测试信息组的信息内容组成一条测试合并信息。
在本公开的另一个实施例中,该验证模块被配置为对于任一信息模板,获取每个第一 测试信息组与信息模板相匹配的信息数量;当信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值时,获取相匹配的信息数量与第一测试信息组包含的测试信息数量的比值。
在本公开的另一个实施例中,该确定模块被配置为当相匹配的信息数量与第一测试信息组包含的测试信息数量的比值在预设范围内时,将信息模板作为实际信息模板。
本公开实施例提供的装置,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种挖掘信息模板的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述挖掘信息模板的方法。
获取建模信息集合,建模信息集合包含多条建模信息;
分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息;
对多条加密信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施例中,获取建模信息集合,包括:
获取多条待处理信息,每条待处理信息至少包括发送端标识;
将多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;
根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;
将第一预设数量的待处理信息组成建模信息集合。
在本公开的另一个实施例中,分别对多条建模信息所包含的数值信息进行加密,得到多条加密信息,包括:
对于任一条建模信息,根据建模信息的接收端标识,获取建模信息的地域标识;
对建模信息的接收端标识进行加密,得到建模信息的第一特征码;
根据建模信息中包含的数值信息的类型,对建模信息中的数值信息进行加密,得到建模信息的第二特征码;
将建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板,包 括:
对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;
对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;
对多条第二合并信息进行聚类,得到至少一个信息模板。
在本公开的另一个实施例中,对多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,包括:
从多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;
对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;
保存第一目标加密信息组中接收时间最晚的加密信息,并删除第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
在本公开的另一个实施例中,对多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息,包括:
从多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;
对于任一第二目标加密信息组,获取第二目标加密信息组中第一合并信息的数量及第二目标加密信息组中第一合并信息的最晚接收时间;
将第二目标加密信息组的地域标识、第二目标信息组中第一合并信息的数量、第二目标加密信息组的第二特征码及第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
在本公开的另一个实施例中,对多条第二合并信息进行聚类,得到至少一个信息模板,包括:
将多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;
对于任一第三目标加密信息组,获取第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,如果第二合并信息所合并的第一合并信息的数量大于第一阈值,则将第二合并信息对应的信息内容、第二合并信息合并的第一合并信息的数量、第三目标加密信息组的最晚接收时间组成的一个条目;
将第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,信息模板的接收时间为多个条目的最晚接收时间。
在本公开的另一个实施例中,对多条加密信息进行聚类,得到至少一个信息模板之后, 还包括:
对每个信息模板进行覆盖率验证;
根据验证结果,从至少一个信息模板中,确定出实际信息模板。
在本公开的另一个实施例中,对每个信息模板进行覆盖率验证,包括:
获取测试信息集合,测试信息集合包括多条测试信息;
对多条测试信息分别进行处理,得到多个第一测试信息组;
根据多个第一测试信息组,对每个信息模板进行覆盖率验证。
在本公开的另一个实施例中,获取测试信息集合,包括:
从待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到测试信息集合。
在本公开的另一个实施例中,对多条测试信息分别进行处理,得到多个第一测试信息组,包括:
对多条测试信息进行加密处理,得到多条测试加密信息;
对多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;
将多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
在本公开的另一个实施例中,对多条测试信息进行加密处理,得到多条测试加密信息,包括:
对于任一条测试信息,根据测试信息的接收端标识,获取测试信息的地域标识;
对测试信息的接收端标识进行加密,得到测试信息的第一特征码;
将测试信息的地域标识、第一特征码及测试信息的信息内容组成
一条测试加密信息。
在本公开的另一个实施例中,对多条测试加密信息进行合并,得到多条第三合并信息,包括:
从多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;
获取任一第二测试信息组中测试加密信息的数量;
将第二测试信息组的地域标识、第二测试信息组中测试加密信息的数量、第二测试信息组的信息内容组成一条测试合并信息。
在本公开的另一个实施例中,根据多个第一测试信息组,对每个信息模板进行覆盖率验证,包括:
对于任一信息模板,获取每个第一测试信息组与信息模板相匹配的信息数量;
如果信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,则获取相匹配的信息数量与第一测试信息组包含的测试信息数量的比值。
在本公开的另一个实施例中,根据验证结果,从至少一个信息模板中,确定出实际信息模板,包括:
如果相匹配的信息数量与第一测试信息组包含的测试信息数量的比值在预设范围内,则将信息模板作为实际信息模板。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供的装置,通过对多条建模信息进行学习,挖掘出信息模板,同时在进行模板挖掘过程,对建模信息中包含的数值信息进行加密,避免挖掘出的模板泄露用户隐私,从而提供了一种更为科学的信息模板挖掘方法。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (31)

  1. 一种挖掘信息模板的方法,其特征在于,所述方法包括:
    获取建模信息集合,所述建模信息集合包含多条建模信息;
    分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
    对所述多条加密信息进行聚类,得到至少一个信息模板。
  2. 根据权利要求1所述的方法,其特征在于,所述获取建模信息集合,包括:
    获取多条待处理信息,每条待处理信息至少包括发送端标识;
    将所述多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;
    根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;
    将所述第一预设数量的待处理信息组成所述建模信息集合。
  3. 根据权利要求1所述的方法,其特征在于,所述分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息,包括:
    对于任一条建模信息,根据所述建模信息的接收端标识,获取所述建模信息的地域标识;
    对所述建模信息的接收端标识进行加密,得到所述建模信息的第一特征码;
    根据所述建模信息中包含的数值信息的类型,对所述建模信息中的数值信息进行加密,得到所述建模信息的第二特征码;
    将所述建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
  4. 根据权利要求1所述的方法,其特征在于,所述对所述多条加密信息进行聚类,得到至少一个信息模板,包括:
    对所述多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;
    对所述多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;
    对所述多条第二合并信息进行聚类,得到至少一个信息模板。
  5. 根据权利要求4所述的方法,其特征在于,所述对所述多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息,包括:
    从所述多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;
    对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;
    保存所述第一目标加密信息组中接收时间最晚的加密信息,并删除所述第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
  6. 根据权利要求4所述的方法,其特征在于,所述对所述多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息,包括:
    从所述多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;
    对于任一第二目标加密信息组,获取所述第二目标加密信息组中第一合并信息的数量及所述第二目标加密信息组中第一合并信息的最晚接收时间;
    将所述第二目标加密信息组的地域标识、所述第二目标信息组中第一合并信息的数量、所述第二目标加密信息组的第二特征码及所述第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
  7. 根据权利要求4所述的方法,其特征在于,所述对所述多条第二合并信息进行聚类,得到至少一个信息模板,包括:
    将所述多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;
    对于任一第三目标加密信息组,获取所述第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,如果所述第二合并信息所合并的第一合并信息的数量大于第一阈值,则将所述第二合并信息对应的信息内容、所述第二合并信息合并的第一合并信息的数量、所述第三目标加密信息组的最晚接收时间组成的一个条目;
    将所述第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,所述信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,所述信息模板的接收时间为多个条目的最晚接收时间。
  8. 根据权利要求2所述的方法,其特征在于,所述对所述多条加密信息进行聚类,得到至少一个信息模板之后,还包括:
    对每个信息模板进行覆盖率验证;
    根据验证结果,从所述至少一个信息模板中,确定出实际信息模板。
  9. 根据权利要求8所述的方法,其特征在于,所述对每个信息模板进行覆盖率验证,包括:
    获取测试信息集合,所述测试信息集合包括多条测试信息;
    对所述多条测试信息分别进行处理,得到多个第一测试信息组;
    根据所述多个第一测试信息组,对每个信息模板进行覆盖率验证。
  10. 根据权利要求9所述的方法,其特征在于,所述获取测试信息集合,包括:
    从所述待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到所述测试信息集合。
  11. 根据权利要求9所述的方法,其特征在于,所述对所述多条测试信息分别进行处理,得到多个第一测试信息组,包括:
    对所述多条测试信息进行加密处理,得到多条测试加密信息;
    对所述多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;
    将所述多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
  12. 根据权利要求11所述的方法,其特征在于,所述对所述多条测试信息进行加密处理,得到多条测试加密信息,包括:
    对于任一条测试信息,根据所述测试信息的接收端标识,获取所述测试信息的地域标识;
    对所述测试信息的接收端标识进行加密,得到所述测试信息的第一特征码;
    将所述测试信息的地域标识、第一特征码及所述测试信息的信息内容组成
    一条测试加密信息。
  13. 根据权利要求11所述的方法,其特征在于,所述对所述多条测试加密信息进行合并,得到多条第三合并信息,包括:
    从所述多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;
    获取任一第二测试信息组中测试加密信息的数量;
    将所述第二测试信息组的地域标识、所述第二测试信息组中测试加密信息的数量、所述第二测试信息组的信息内容组成一条测试合并信息。
  14. 根据权利要求9所述的方法,其特征在于,所述根据所述多个第一测试信息组,对每个信息模板进行覆盖率验证,包括:
    对于任一信息模板,获取每个第一测试信息组与所述信息模板相匹配的信息数量;
    如果所述信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值,则获取所 述相匹配的信息数量与所述第一测试信息组包含的测试信息数量的比值。
  15. 根据权利要求14所述的方法,其特征在于,所述根据验证结果,从所述至少一个信息模板中,确定出实际信息模板,包括:
    如果所述相匹配的信息数量与所述第一测试信息组包含的测试信息数量的比值在预设范围内,则将所述信息模板作为实际信息模板。
  16. 一种挖掘信息模板的装置,其特征在于,所述装置包括:
    获取模块,用于获取建模信息集合,所述建模信息集合包含多条建模信息;
    加密模块,用于分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
    聚类模块,用于对所述多条加密信息进行聚类,得到至少一个信息模板。
  17. 根据权利要求16所述的装置,其特征在于,所述获取模块,用于获取多条待处理信息,每条待处理信息至少包括发送端标识;将所述多条待处理信息划分为不同的信息集合,每个信息集合中的待处理信息具有相同发送端标识;根据任一条待处理信息的发送端标识,从对应的信息集合中,获取第一预设数量的待处理信息;将所述第一预设数量的待处理信息组成所述建模信息集合。
  18. 根据权利要求16所述的装置,其特征在于,所述加密模块,用于对于任一条建模信息,根据所述建模信息的接收端标识,获取所述建模信息的地域标识;对所述建模信息的接收端标识进行加密,得到所述建模信息的第一特征码;根据所述建模信息中包含的数值信息的类型,对所述建模信息中的数值信息进行加密,得到所述建模信息的第二特征码;将所述建模信息的地域标识、第一特征码、第二特征码及接收时间组成一条加密信息。
  19. 根据权利要求16所述的装置,其特征在于,所述聚类模块,用于对所述多条加密信息中满足第一合并条件的加密信息分别进行合并,得到多条第一合并信息;对所述多条第一合并信息中满足第二合并条件的加密信息分别进行合并,得到多条第二合并信息;对所述多条第二合并信息进行聚类,得到至少一个信息模板。
  20. 根据权利要求19所述的装置,其特征在于,所述聚类模块,还用于从所述多条加密信息中,获取多个第一目标加密信息组,每个第一目标加密信息组中的加密信息具有相同的地域标识、第一特征码及第二特征码;对于任一第一目标加密信息组中的加密信息,按照接收时间由晚到早的顺序进行排序;保存所述第一目标加密信息组中接收时间最晚的加密信息,并删除所述第一目标加密信息组中其余的加密信息,得到一条第一合并信息。
  21. 根据权利要求19所述的装置,其特征在于,所述聚类模块,还用于从所述多条第一合并信息中,获取多个第二目标加密信息组,每个第二目标加密信息组中的第一合并信息具有相同的地域标识及第二特征码;对于任一第二目标加密信息组,获取所述第二目标加密信息组中第一合并信息的数量及所述第二目标加密信息组中第一合并信息的最晚接收时间;将所述第二目标加密信息组的地域标识、所述第二目标加密信息组中第一合并信息的数量、所述第二目标加密信息组的第二特征码及所述第二目标加密信息组中第一合并信息的最晚接收时间组成一条第二合并信息。
  22. 根据权利要求19所述的装置,其特征在于,所述聚类模块,还用于将所述多条第二合并信息划分为多个第三目标加密信息组,每个第三目标加密信息组中的第二合并信息具有相同的地域标识;对于任一第三目标加密信息组,获取所述第三目标加密信息组中任一第二合并信息所合并的第一合并信息的数量,当所述第二合并信息所合并的第一合并信息的数量大于第一阈值时,将所述第二合并信息对应的信息内容、所述第二合并信息合并的第一合并信息的数量、所述第三目标加密信息组的最晚接收时间组成的一个条目;将所述第三目标加密信息组中具有相信息内容的多个条目进行合并,得到一个信息模板,所述信息模板适用的加密信息数量为多个条目所合并的加密信息数量之和,所述信息模板的接收时间为多个条目的最晚接收时间。
  23. 根据权利要求17所述的装置,其特征在于,所述装置还包括:
    验证模块,用于对每个信息模板进行覆盖率验证;
    确定模块,用于根据验证结果,从所述至少一个信息模板中,确定出实际信息模板。
  24. 根据权利要求23所述的装置,其特征在于,所述验证模块,还用于获取测试信息集合,所述测试信息集合包括多条测试信息;对所述多条测试信息分别进行处理,得到多个第一测试信息组;根据所述多个第一测试信息组,对每个信息模板进行覆盖率验证。
  25. 根据权利要求24所述的装置,其特征在于,所述验证模块,用于从所述待处理信息的发送端标识对应的信息集合中剩余的待处理信息中,获取第二预设数量的待处理信息,得到所述测试信息集合。
  26. 根据权利要求24所述的装置,其特征在于,所述验证模块,用于对所述多条测试信息进行加密处理,得到多条测试加密信息;对所述多条测试加密信息中满足第三合并条件的测试加密信息分别进行合并,得到多条第三合并信息;将所述多条第三合并信息划分为多个第一测试信息组,每个第一测试信息组中的第三合并信息具有相同的地域标识。
  27. 根据权利要求24所述的装置,其特征在于,所述验证模块,用于对于任一条测试信息,根据所述测试信息的接收端标识,获取所述测试信息的地域标识;对所述测试信息的接收端标识进行加密,得到所述测试信息的第一特征码;将所述测试信息的地域标识、第一特征码及所述测试信息的信息内容组成
    一条测试加密信息。
  28. 根据权利要求24所述的装置,其特征在于,所述验证模块,用于从所述多条测试加密信息中,获取多个第二测试信息组,每个第二测试信息组中的测试加密信息具有相同的地域标识及信息内容;获取任一第二测试信息组中测试加密信息的数量;将所述第二测试信息组的地域标识、所述第二测试信息组中测试加密信息的数量、所述第二测试信息组的信息内容组成一条测试合并信息。
  29. 根据权利要求24所述的装置,其特征在于,所述验证模块,用于对于任一信息模板,获取每个第一测试信息组与所述信息模板相匹配的信息数量;当所述信息模板与任一第一测试信息组相匹配的信息数量大于第二阈值时,获取所述相匹配的信息数量与所述第一测试信息组包含的测试信息数量的比值。
  30. 根据权利要求29所述的装置,其特征在于,所述确定模块,用于当所述相匹配的信息数量与所述第一测试信息组包含的测试信息数量的比值在预设范围内时,将所述信息模板作为实际信息模板。
  31. 一种挖掘信息模板的装置,其特征在于,包括:
    处理器;
    用于存储处理器可执行的指令的存储器;
    其中,所述处理器被配置为:
    获取建模信息集合,所述建模信息集合包含多条建模信息;
    分别对所述多条建模信息所包含的数值信息进行加密,得到多条加密信息;
    对所述多条加密信息进行聚类,得到至少一个信息模板。
PCT/CN2015/099400 2015-11-17 2015-12-29 挖掘信息模板的方法及装置 WO2017084179A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016516607A JP6405370B2 (ja) 2015-11-17 2015-12-29 情報テンプレートをマイニングする方法、その装置、プログラム、及び記録媒体
MX2016005103A MX362890B (es) 2015-11-17 2015-12-29 Método y dispositivo para extraer plantilla de información.
RU2016114552A RU2647628C2 (ru) 2015-11-17 2015-12-29 Способ и устройство для извлечения шаблона данных
KR1020167005159A KR101777069B1 (ko) 2015-11-17 2015-12-29 정보 템플릿 마이닝 방법, 장치, 프로그램 및 컴퓨터 판독가능한 기록매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510791533.0A CN105468694B (zh) 2015-11-17 2015-11-17 挖掘信息模板的方法及装置
CN201510791533.0 2015-11-17

Publications (1)

Publication Number Publication Date
WO2017084179A1 true WO2017084179A1 (zh) 2017-05-26

Family

ID=55606395

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/099400 WO2017084179A1 (zh) 2015-11-17 2015-12-29 挖掘信息模板的方法及装置

Country Status (8)

Country Link
US (1) US10180976B2 (zh)
EP (1) EP3171285A1 (zh)
JP (1) JP6405370B2 (zh)
KR (1) KR101777069B1 (zh)
CN (1) CN105468694B (zh)
MX (1) MX362890B (zh)
RU (1) RU2647628C2 (zh)
WO (1) WO2017084179A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468694B (zh) 2015-11-17 2019-10-15 小米科技有限责任公司 挖掘信息模板的方法及装置
CN106548083B (zh) * 2016-11-25 2019-10-15 维沃移动通信有限公司 一种便签加密方法及终端
CN111309858B (zh) * 2020-01-20 2023-03-07 腾讯科技(深圳)有限公司 信息识别方法、装置、设备及介质
CN113486398B (zh) * 2021-07-13 2024-03-29 华控清交信息科技(北京)有限公司 一种信息比对方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布系统和信息发布方法
WO2012070931A1 (en) * 2010-11-24 2012-05-31 Greenflower Intercode Holding B.V. Method and system for compiling a unique sample code for an existing digital sample
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN104991955A (zh) * 2015-07-17 2015-10-21 科大讯飞股份有限公司 一种自动构建模板库的方法及系统
CN105468694A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 挖掘信息模板的方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09223129A (ja) * 1996-02-16 1997-08-26 Toshiba Corp 文書処理支援方法および文書処理支援装置
US6748367B1 (en) * 1999-09-24 2004-06-08 Joonho John Lee Method and system for effecting financial transactions over a public network without submission of sensitive information
US7249048B1 (en) * 2000-06-30 2007-07-24 Ncr Corporation Incorporating predicrive models within interactive business analysis processes
JP2006268378A (ja) * 2005-03-23 2006-10-05 Mitsui Sumitomo Insurance Co Ltd 情報保護システム、情報保護装置およびそのプログラム
US20070214136A1 (en) * 2006-03-13 2007-09-13 Microsoft Corporation Data mining diagramming
US7801836B2 (en) * 2006-09-27 2010-09-21 Infosys Technologies Ltd. Automated predictive data mining model selection using a genetic algorithm
US7908656B1 (en) * 2007-04-23 2011-03-15 Network Appliance, Inc. Customized data generating data storage system filter for data security
US20110231384A1 (en) * 2009-12-09 2011-09-22 Evtext, Inc. Evolutionary tagger
US8401875B2 (en) * 2010-03-12 2013-03-19 Os - New Horizons Personal Computing Solutions Ltd. Secured personal data handling and management system
US8897820B2 (en) * 2010-11-16 2014-11-25 Jack L. Marovets System, method, and apparatus for storing, transmitting, receiving, and using structured data using un-structured text message bodies
US9754230B2 (en) * 2010-11-29 2017-09-05 International Business Machines Corporation Deployment of a business intelligence (BI) meta model and a BI report specification for use in presenting data mining and predictive insights using BI tools
US9244952B2 (en) * 2013-03-17 2016-01-26 Alation, Inc. Editable and searchable markup pages automatically populated through user query monitoring
JP5948291B2 (ja) * 2013-08-13 2016-07-06 日本電信電話株式会社 監視情報分析装置及び方法
JP2015138343A (ja) * 2014-01-21 2015-07-30 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
KR20150089116A (ko) 2014-01-27 2015-08-05 (주)케이사인 개인정보 관리 센터 및 이를 포함하는 개인정보 관리 시스템
JP6263420B2 (ja) * 2014-03-12 2018-01-17 株式会社デンソーアイティーラボラトリ テンプレート生成装置及びテンプレート生成プログラム
JP2015179399A (ja) * 2014-03-19 2015-10-08 株式会社ニコン テキスト生成装置、テキスト生成プログラム及びテキスト生成方法
KR101538745B1 (ko) * 2015-01-02 2015-07-24 디에이치이노시스 주식회사 전자영수증 발행 시스템
CN104951432B (zh) * 2015-05-21 2019-01-11 腾讯科技(深圳)有限公司 一种对信息进行处理的方法及装置
CN105120440B (zh) * 2015-08-26 2019-05-07 小米科技有限责任公司 信息处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布系统和信息发布方法
WO2012070931A1 (en) * 2010-11-24 2012-05-31 Greenflower Intercode Holding B.V. Method and system for compiling a unique sample code for an existing digital sample
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN104991955A (zh) * 2015-07-17 2015-10-21 科大讯飞股份有限公司 一种自动构建模板库的方法及系统
CN105468694A (zh) * 2015-11-17 2016-04-06 小米科技有限责任公司 挖掘信息模板的方法及装置

Also Published As

Publication number Publication date
MX2016005103A (es) 2017-08-09
JP2018503145A (ja) 2018-02-01
MX362890B (es) 2019-02-22
US10180976B2 (en) 2019-01-15
JP6405370B2 (ja) 2018-10-17
US20170140026A1 (en) 2017-05-18
CN105468694A (zh) 2016-04-06
CN105468694B (zh) 2019-10-15
RU2016114552A (ru) 2017-10-19
KR101777069B1 (ko) 2017-09-08
RU2647628C2 (ru) 2018-03-16
EP3171285A1 (en) 2017-05-24

Similar Documents

Publication Publication Date Title
WO2017084179A1 (zh) 挖掘信息模板的方法及装置
US9131341B2 (en) System and method for locating a mobile device
CN111970236B (zh) 跨网数据传输方法和装置
US20160021035A1 (en) Creating a user group
WO2019109817A1 (zh) 短信验证方法、装置、存储介质、短信验证系统及终端
EP3164793A1 (en) Dual channel identity authentication
WO2014190738A1 (en) System and method for locating a mobile device
CN109218168A (zh) 敏感邮件信息的阻断方法和装置
CN113098852B (zh) 一种日志处理方法及装置
CN103763181A (zh) 自动设置属性的装置和方法
WO2016037489A1 (zh) Rcs垃圾消息的监控方法、装置及系统
CN103841006A (zh) 云计算系统中拦截垃圾邮件的方法和装置
CN108924653B (zh) 弹幕消息分发方法、装置、设备和存储介质
CN108512803A (zh) 提醒更改账号绑定电话号码的方法及装置
CN116308236A (zh) 邮件处理方法、装置、电子设备及存储介质
US20230413054A1 (en) Systems and methods for providing a secure notification service for mobile applications
CN108234471B (zh) 入群验证方法、装置、计算机装置及计算机可读存储介质
SG10201803964RA (en) Systems and methods for authenticating network messages
CN110943921B (zh) 一种智能路由配置的方法
CN107026739A (zh) 短信签名认证方法及装置
US20210006557A1 (en) Sensor-based authentication, notification, and assistance systems
CN108932156A (zh) 一种信息获取方法及装置
CN110647757A (zh) 基于智能合约的数据处理方法及相关装置
US11641331B2 (en) System and method for blocking distribution of non-acceptable attachments
CN113783847B (zh) 消息交互方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2016516607

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2016114552

Country of ref document: RU

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2016/005103

Country of ref document: MX

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15908675

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15908675

Country of ref document: EP

Kind code of ref document: A1