WO2017092601A1 - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
WO2017092601A1
WO2017092601A1 PCT/CN2016/107018 CN2016107018W WO2017092601A1 WO 2017092601 A1 WO2017092601 A1 WO 2017092601A1 CN 2016107018 W CN2016107018 W CN 2016107018W WO 2017092601 A1 WO2017092601 A1 WO 2017092601A1
Authority
WO
WIPO (PCT)
Prior art keywords
data object
data
candidate
traffic
user
Prior art date
Application number
PCT/CN2016/107018
Other languages
English (en)
French (fr)
Inventor
应倩岚
郑苏杭
徐萧萧
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Publication of WO2017092601A1 publication Critical patent/WO2017092601A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present application relates to the field of Internet technologies, and in particular, to a data processing method and apparatus.
  • the major websites mainly perform the similarity calculation on the resource data provided by the data object, and judge whether the two data objects are similar by judging whether the resource data provided by the two data objects are similar. For the user, this method of judgment can help the user to find more similar resource data, but from the perspective of the data object, the data object providing similar resource data does not necessarily have a competitive relationship, and the resource data does not determine two data. Whether there is a unique factor of competition between objects, so existing methods are not suitable for discovering data objects that have a competitive relationship.
  • aspects of the present application provide a data processing method and apparatus for discovering a data object in which a competition relationship exists.
  • An aspect of the present application provides a data processing method, including:
  • a data processing apparatus including:
  • An initial acquisition module configured to acquire, from the network system, an initial data object having similar resource data with the first data object, where the resource data is used to implement a service requirement of the user;
  • a candidate obtaining module configured to acquire, from the initial data object, a candidate data object that has a service offloading effect on the first data object
  • a determining module configured to determine, according to the traffic distribution of the first data object by the candidate data object, a data object that competes with the first data object.
  • an initial data object having similar resource data with the first data object is first acquired from the network system, and then a candidate data object having a service shunting effect on the first data object is obtained from the initial data object, and then The candidate data object divides the traffic of the first data object, and determines a data object that has a competitive relationship with the first data object.
  • the present application not only considers the similarity of the resource data provided by the data object, but also considers the data object with the similar resource data and the service shunting function as the data object having the competitive relationship, which solves the problem that the prior art cannot be found. There is a problem with competing data objects, and the discovered data objects with competitive relationships are highly accurate.
  • FIG. 1 is a schematic flowchart diagram of a data processing method according to an embodiment of the present application
  • FIG. 2 is a schematic structural diagram of a data processing apparatus according to another embodiment of the present disclosure.
  • FIG. 1 is a schematic flowchart diagram of a data processing method according to an embodiment of the present application. As shown in Figure 1, the method package include:
  • the embodiment provides a data processing method, which can be executed by a data processing device to discover a data object in which a competition relationship exists, and to ensure accuracy of the discovered data object having a competitive relationship.
  • the method provided in this embodiment can be applied to any application scenario that needs to discover a data object in which a contention relationship exists.
  • a network store having a competitive relationship on the e-commerce platform can be found.
  • a video resource publisher having a competitive relationship on the resource downloading website can be found.
  • a take-away provider having a competitive relationship can be found based on clients of each take-out provider installed on a user terminal (for example, a mobile phone or a computer).
  • the network system, the users in the network system, the data objects, and the resource data provided by the data objects in the present embodiment may be different.
  • This embodiment does not limit the implementation forms of resource data and the like provided by users, data objects, and data objects in the network system and the network system.
  • the network system may be a network system with each e-commerce website as its core; correspondingly, the data object in the network system may be a network service provider on the e-commerce website, such as a store; correspondingly, resource data provided by the data object It may be product object data provided by each network service provider, such as clothes, food, electronic products and the like sold in the store; correspondingly, the network behavior of the user in the network system may include browsing, collecting, adding a shopping cart, purchasing, and paying And at least one of the comments.
  • the network system may be a network system with a resource downloading website as a core; correspondingly, the data object in the network system may be a resource advertisement/uploader; correspondingly, the resource data provided by the data object may be a specific resource, for example, The video resource, the text resource, and the like; correspondingly, the network behavior of the user in the network system may include at least one of previewing, downloading, playing, and the like.
  • the data objects in this embodiment mainly refer to service providers that provide services to users through the network, and may be service providers in various application fields such as e-commerce, e-government, and electronic company business processes.
  • the resource data provided by the data object is mainly used to implement the user's business requirements.
  • any data object in the network system that has a competitive relationship can be found.
  • the present embodiment is described by taking as an example a data object that finds a competition relationship with the first data object.
  • the first data object can be any data object in the network system.
  • a data object that competes with the first data object may be periodically determined, so that each time later or when the first data is received may be received.
  • the data processing apparatus may execute the method flow provided by the embodiment to determine a data object having a competition relationship with the first data object.
  • each data object provides multiple resource data, and different resource data is used to implement different business requirements of the user.
  • the store may provide clothing, maternity products, casual snacks and other merchandise objects, and the top of the garment includes tops, pants, shoes, and the tops are divided into windbreakers, sweaters, sweaters, and bottoming shirts. and many more.
  • the data object In order to facilitate the management of resource data, the data object generally manages various resource data hierarchically through the resource category, for example, it may include a primary resource category, a secondary resource category, a tertiary resource category, and a leaf resource category. Etc. Different resource data categories include different resource data. For example, the above clothing, maternity products, casual snacks, etc. can be used as a primary resource category, while the tops, pants, and shoes under the garment can be used as secondary resource categories, and the like.
  • the resource data provided by the two data objects differ greatly, it is not easy to form a competitive relationship. For example, one shop sells and another shop sells electronic products. Since the two groups are not the same user group, it is not easy to form a competitive relationship between the two. Conversely, if the resource data provided by the two data objects are similar, it is easy to form a competitive relationship. For example, if one store sells sweaters and another store sells sweaters, the two stores are oriented to the same user group, and the users who buy sweaters are competing for users, so there will be a competitive relationship between the two stores.
  • the data processing apparatus may first obtain an initial data object having similar resource data from the first data object from the network system.
  • the data processing apparatus may determine, according to the traffic volume data of each primary resource category in the specified time period, the primary data resource category of the first data object. For example, the data processing apparatus may collect basic information of the first data object, where the basic information includes: a resource category of each level of the first data object, a summary of the traffic volume data within a specified time period, and each resource category. Traffic data; then, based on these traffic data, determine the primary resource class of the first data object.
  • the traffic data under each primary resource category provided by the first data object itself is compared, and the primary resource category with the largest traffic data is used as the primary primary resource category.
  • the traffic data under each primary resource category provided by the first data object may be considered from a vertical perspective, and other Compare the traffic data under the same resource category or the industry average/historical highest traffic data provided by the data object, and compare the traffic data in each primary resource category provided by the first data object to the same resource provided by other data objects.
  • the primary resource category under the category of business volume data or industry average/historical highest volume of business data is the primary level one resource category.
  • the traffic volume data in the same resource category provided by each resource object in the network system may be obtained, and the traffic volume data in the same resource category provided by each resource object obtained may be averaged, and the average value is taken as the industry average service. Volume data.
  • the traffic volume data under the same resource category provided by each resource object in the network system in the specified historical time period can be obtained, and the acquired traffic data under the same resource category provided by each resource object is compared and obtained.
  • the highest volume of business data is the highest business volume data in the industry.
  • the above-listed methods for determining the main level of resource categories may be used alone or in combination.
  • the first data object may be one primary resource category or multiple.
  • the specified time period may be determined according to a specific application scenario, and may be, for example, but not limited to: 7 days, 30 days, and the like. Similarly, the specified historical time period may also be determined according to a specific application scenario, such as, but not limited to, 30 days, 60 days, and the like.
  • the business volume here mainly refers to the transaction amount, the volume of the commodity, and the average transaction volume.
  • a method for determining the main resource category of the primary level includes: the data processing device may use the primary resource category with the largest transaction amount as the primary primary resource category, and the transaction amount may not be in the store. The largest, but the highest level of resources in the industry as the main level of resources. Specifically, assume that the xx official subsidiary store sells different products such as mobile phones, boxes, bracelets, purifiers, etc., because the transaction volume of the mobile phones sold by the xx official subsidiary store is the largest, and the mobile phone category can be used as the main primary resource class.
  • the transaction amount of the bracelet sold by the official subsidiary store of xx is smaller than the transaction amount of the mobile phone, but the transaction amount of the bracelet in the same industry store is the largest, that is, ranking first, so the bracelet category is also Can be the main resource category of the xx official subsidiary store.
  • the above is only one implementation method for determining the main level resource category, and is not limited thereto.
  • the data processing apparatus may determine the main resource class of the other data object according to the traffic volume data of each data object in the first time resource category in the network system except the first data object. Head.
  • the data processing apparatus may collect basic information of other data objects, the basic information includes: resource categories of other data object main activities, summary of traffic data within a specified time period, and traffic volume under each resource category. Data; then based on these traffic data, determine the main primary resource category of other data objects.
  • the traffic under each primary resource category provided by the non-first data object itself can be from a horizontal perspective.
  • the data is compared, and the primary resource category with the largest volume of business data is used as the main primary resource category. Or, from the vertical angle, it will be non-first
  • the traffic data under each primary resource category provided by the data object is compared with the traffic data or the industry average traffic data under the same resource category provided by other data objects, and each of the non-first data objects is provided.
  • the first-level resource category in which the traffic data in the level resource category is larger than the traffic data or the industry average traffic data under the same resource category provided by other data objects is used as the main-level resource category.
  • the above-listed methods for determining the main level of resource categories may be used alone or in combination.
  • the specified time period may be determined according to a specific application scenario, and may be, for example, but not limited to: 7 days, 30 days, and the like.
  • the business volume here mainly refers to the transaction amount, the volume of the commodity, and the average transaction volume.
  • the data processing device may use the primary resource category with the largest transaction amount as the primary primary resource category.
  • the data processing device selects, from among other data objects, the main data of the primary resource class and the first data object, and the traffic data and the traffic data of the first data object are in the same level as the first data.
  • An object has an initial data object with similar resource data.
  • the data processing device filters other data objects according to the main level resource category and the traffic data of each data object under the main level resource category to obtain similarity with the first data object.
  • the specific implementation manner of the data object that determines that the traffic volume data is at the same level as the traffic volume data of the first data object includes:
  • the traffic data of the first data object under the main primary resource category and the traffic data of other data objects under the primary primary resource category is divided into several levels from low to high, for example, 7 levels, and then determines the level of the traffic data of the first data object under the main level resource category, and then obtains other levels at the same level as the first data object.
  • Data object For example, suppose that for the last 30 days, the transaction amount is located in the top 1% of the main resource category, and it is divided into the 7th level under the primary resource category. If a store is at the 7th level, It is considered that the goods objects provided by the stores located at the seventh level are similar.
  • the preset blacklist filtering rule may be used to remove the abnormality of the specified service indicator in the initial data object.
  • the blacklist filtering rule is set in advance. After the initial data object is obtained, the initial data object may be filtered according to the preset blacklist filtering rule, so that the data object with the specified service indicator abnormality is removed to prevent some cheating behavior. Improve data accuracy.
  • the blacklist filtering rule can define a fake service and define a filtering requirement corresponding to the traffic volume data generated by the fake service.
  • the process of filtering the initial data object according to the blacklist filtering rule is specifically: determining the existence of a false service in the initial data object according to the fake service defined in the blacklist filtering rule.
  • the data object determines whether the traffic data generated by the fake service of the suspicious data object satisfies the filtering requirement defined in the blacklist filtering rule; if the judgment result is yes, the suspicious data object is removed from the initial data object.
  • the data processing device can continue to consider from the business perspective, and obtain the first from the initial data object.
  • the data object has a candidate data object for service offloading; thereafter, the data object that competes with the first data object is determined according to the traffic distribution of the candidate data object to the first data object. That is, from a data object that provides similar resource data with the first data object and has an influence on the first data object in the service, determines a data object that has a competitive relationship with the first data object, which is consistent with the perspective of the data object.
  • the defined concept of competition also helps to ensure the accuracy of the acquired data objects with competitive relationships.
  • the data processing apparatus may perform traffic offload analysis on the first data object and the initial data object from at least one of a keyword drainage angle, a user churn angle, and a traffic similarity angle, thereby obtaining a A data object has a candidate data object that functions as a traffic offload.
  • each store will provide keywords to the user, on the one hand, the user can search after entering the store, and on the other hand, the key information for draining the user to the store.
  • the keyword is the first step for users to enter the store, so in the natural search, the good or bad keyword setting will have a significant impact on the store's user visit (Unique Visitor, UV).
  • UV Unique Visitor
  • sorting the main drainage keywords of two Tmall brand stores selling similar umbrellas for the last 7 days you can find: "sun umbrella”, “small black umbrella”, “sun protection umbrella” and “sun umbrella” Keywords such as keywords occupy important positions in the rankings of the two stores.
  • Common keywords will cause users to be diverted. If the number of users entering the store at the beginning is large, it will affect the business volume data of the store to a certain extent, which means that the drainage effect of the keyword can affect the business volume data of the store to a certain extent.
  • the data processing apparatus considers the traffic offload analysis for the first data object and the initial data object from the keyword drainage angle to obtain a candidate data object having a service offloading effect on the first data object. Specifically, the data processing apparatus may acquire, according to the keyword provided by the first data object to the user and the keyword provided by the initial data object, from the initial data object, acquire a data object that shares at least one keyword with the first data object. Candidate data object.
  • the candidate data object may be filtered according to the traffic data of each candidate data object under the first specified resource category, for example, may be obtained under the first specified resource category.
  • At least one candidate data object having the largest traffic data for example, obtaining the top N candidate data objects with the largest traffic data under the first specified resource category, where N is a natural number, which can reduce the number of candidate data objects, which is beneficial to Save computing resources and improve subsequent calculation speed.
  • determining the existence of the first data object according to the traffic distribution of the obtained candidate data object to the first data object includes:
  • an implementation manner of acquiring at least one target data object includes: comparing a user access amount of the first data object under the keyword and a user access amount of the candidate data object under the keyword, to the first data object and The candidate data objects are sorted, the sorting result is segmented, the target fragment in which the first data object is located is determined, and the candidate data object in the target fragment and the adjacent fragment of the target fragment is acquired as at least one target data object.
  • each keyword has different user access amounts for different data objects
  • different data objects are given according to each keyword.
  • Come The number of user visits, filtering the candidate data objects, thereby obtaining a target data object whose user access amount is close to the first data object.
  • the user traffic similarity between the first data object and the target data object is calculated based on the user access amount of the first data object under the keyword and the user access amount of the target data object under the keyword.
  • the user of the user's traffic similarity reflects the similarity of the user's drainage effect under the first data object and the target data object.
  • the data object having a competition relationship with the first data object can be acquired from the target data object according to the user drainage similarity between the first data object and the target data object.
  • a data object that satisfies a preset percentage may be selected from the target data objects in descending order of user drainage similarity according to a preset percentage as a data object that competes with the first data object.
  • a user traffic similarity threshold may be set, and a data object whose user traffic similarity is greater than the threshold is selected from the target data object as a data object that competes with the first data object.
  • the obtained data object information may be output, for example, the name, id of the data object, each resource category, and traffic data under each resource category. Wait.
  • determining that the first data object competes with the first data object according to the obtained candidate data object for the service traffic of the first data object includes:
  • the data object is a candidate data object.
  • determining that the first data object competes with the first data object according to the obtained candidate data object for the service traffic of the first data object includes:
  • the candidate data object Calculating a total traffic loss of the first data object caused by the candidate data object; wherein, the total traffic loss of the first data object caused by the candidate data object represents a service traffic of the candidate data object to the first data object, and a service
  • a data object that satisfies a preset percentage may be selected from the candidate data objects in descending order of total traffic loss according to a preset percentage as a data object that competes with the first data object.
  • a total traffic loss threshold may be set, and a data object that causes a total traffic loss of the first data object to be greater than the threshold is selected from the candidate data objects as a data object that competes with the first data object.
  • the obtained data object information may be output, for example, the name, id of the data object, each resource category, and traffic data under each resource category. Wait.
  • the common meaning of the lost user is that a certain user accesses the resource data under the data object A but acquires the resource data under the other data object B.
  • the user is lost. user.
  • This embodiment does not limit the relationship between the resource data under the data object A accessed by the user and the resource data under the data object B acquired by the user. However, it is preferable that the two resource data are similar resource data.
  • the data object as a store as an example, suppose a certain user watches the goods sold in the first store but orders the goods that the first store is selling at the store of another person. For the first store, The user is the lost user. This kind of user loss will undoubtedly cause strong stimulation to the nerves of the operators of the first store, and the store where the user flows will undoubtedly cause the first store to lose business volume, which is equivalent to the business diversion of the first store.
  • the user needs to go directly from the data object A to the data object B without passing through other data objects, and needs to be within a certain time range, for example, within one day. If the user does not jump from data object A to data object B within a specified time range (eg, two days later), the user does not meet the definition of the churned user.
  • the method for calculating the total loss of the service of the first data object by the candidate data object is specifically: calculating that the lost user jumps from the first data object to the candidate data object and obtains the candidate data object.
  • the sum of the traffic generated by the resource data For example, suppose that after the user accesses the product a under the first store, and directly jumps to the second store to purchase the product b and the commodity c, the second store causes the first store business.
  • the total amount of loss can be expressed as: the sum of the transaction price of commodity b and the transaction price of commodity c.
  • determining, according to the obtained traffic data, the service traffic of the first data object is determined to exist with the first data object.
  • One implementation of a data object of a competitive relationship includes:
  • the object acts as a candidate data object.
  • the second specified category herein may be a secondary resource category, but is not limited thereto.
  • determining, according to the obtained traffic data, the service traffic of the first data object is determined to exist with the first data object.
  • One implementation of a data object of a competitive relationship includes:
  • the traffic similarity between the first data object and the candidate data object represents the service traffic of the candidate data object to the first data object, and the traffic similarity is greater, which means that the candidate data object is the first data object.
  • the greater the traffic volume of the business the greater the competitiveness between the candidate data object and the first data object.
  • a data object having a competition relationship with the first data object can be determined from the candidate data objects according to the traffic similarity between the first data object and the candidate data object.
  • the data objects satisfying the preset percentage may be selected from the candidate data objects in descending order of traffic similarity according to a preset percentage as a data object having a competition relationship with the first data object.
  • a traffic similarity threshold may be set, and a data object whose traffic similarity is greater than the threshold is selected from the candidate data objects as a data object that competes with the first data object.
  • the obtained data object information may be output, for example, the name, id of the data object, each resource category, and traffic data under each resource category. Wait.
  • the similarity can be calculated by using an algorithm such as cosine similarity, Pearson correlation coefficient and Jaccard similarity coefficient.
  • the present application not only considers the similarity of the resource data provided by the data object, but also considers the data object with the similar resource data and the service shunting function as the data object having the competitive relationship.
  • the prior art cannot find the problem of a data object having a competitive relationship, and the data object found to have a competitive relationship is highly accurate.
  • FIG. 2 is a schematic structural diagram of a data processing apparatus according to another embodiment of the present disclosure. As shown in FIG. 2, the apparatus includes an initial acquisition module 21, a candidate acquisition module 22, and a determination module 23.
  • the initial acquisition module 21 is configured to obtain, from the network system, an initial data object having similar resource data with the first data object, where the resource data is used to implement a service requirement of the user.
  • the candidate obtaining module 22 is configured to obtain, from the initial data object, a candidate data object that has a service offloading effect on the first data object.
  • the determining module 23 is configured to determine, according to the service traffic of the first data object by the candidate data object, a data object that has a competitive relationship with the first data object.
  • the initial acquisition module 21 is specifically configured to:
  • the data object whose main level resource category is the same as the first data object and whose traffic data is at the same level as the traffic data of the first data object is selected as the initial data object.
  • the initial acquisition module 21 can also be used to:
  • the candidate acquisition module 22 acquires a traffic diversion effect on the first data object from the initial data object. Before the candidate data object, the data object with the abnormality of the specified service indicator in the initial data object is removed according to the preset blacklist filtering rule.
  • the initial acquisition module 21 is specifically configured to:
  • the suspicious data object is removed from the initial data object.
  • the candidate obtaining module 22 is specifically configured to: perform traffic offload analysis on the first data object and the initial data object from at least one of a keyword drainage angle, a user churn angle, and a traffic similarity angle. To obtain candidate data objects.
  • the candidate obtaining module 22 is specifically configured to: obtain, according to the keyword provided by the first data object to the user and the keyword provided by the initial data object, from the initial data object, acquire at least one keyword shared with the first data object.
  • the data object is a candidate data object.
  • the determining module 23 is specifically applicable to:
  • a data object having a competition relationship with the first data object is determined from the at least one target data object.
  • the determining module 23 acquires at least one target data object that is closest to the user access amount of the first data object under the keyword from the candidate data object, the determining module 23 is specifically configured to:
  • the target fragment is located, and the candidate data object in the target fragment and the adjacent fragment of the target fragment is acquired as at least one target data object.
  • the candidate obtaining module 22 is specifically configured to: determine, according to the network behavior data of each user in the user group of the first data object, from the user group of the first data object, the lost user that meets the preset lost user definition, from the initial data.
  • a data object including a churned user in the user group is obtained as a candidate data object.
  • the determining module 23 is specifically applicable to:
  • a data object having a competition relationship with the first data object is determined from the candidate data objects based on the total amount of traffic loss of the first data object caused by the candidate data object.
  • the lost user is defined as a user who directly accesses the resource data under the data object A and then jumps to another data object B and acquires the resource data under the data object B within a specified time range. Based on this, when determining the total amount of traffic loss of the first data object caused by the candidate data object, the determining module 23 is specifically configured to: calculate, by the lost user, jump from the first data object to the candidate data object and obtain the candidate The sum of the traffic generated by the resource data under the data object.
  • the candidate obtaining module 22 is specifically configured to: obtain, according to the traffic data of the first data object in the second specified resource category, the service from the initial data object to the first data object in the second specified resource category. At least one data object closest to the quantity data is used as a candidate data object.
  • the determining module 23 is specifically applicable to:
  • a data object having a competition relationship with the first data object is determined from the candidate data objects according to the traffic similarity between the first data object and the candidate data object.
  • the data processing apparatus first acquires an initial data object having similar resource data from the first data object from the network system, and then obtains candidate data having a service offloading effect on the first data object from the initial data object.
  • the object determines a data object that competes with the first data object based on the traffic distribution of the candidate data object to the first data object.
  • the data processing apparatus provided by the embodiment not only considers the similarity of the resource data provided by the data object, but also considers, as a service, a data object having similar resource data and having a service shunting function as a data object having a competitive relationship. The problem that the prior art cannot find the data object in which the competition relationship exists is solved, and the accuracy of the discovered data object with the competition relationship is high.
  • the disclosed system, apparatus, and method may be implemented in other manners.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored or not executed.
  • Another The coupling or direct coupling or communication connection between the points shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be in electrical, mechanical or other form.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the software functional unit described above is stored in a storage medium and includes instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor to perform the methods described in various embodiments of the present application. Part of the steps.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like, which can store program codes. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法及装置。数据处理方法包括:从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,资源数据用于实现用户的业务需求;从初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象;根据候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象。本申请可以从数据对象的角度考虑,发现存在竞争关系的数据对象。

Description

数据处理方法及装置
本申请要求2015年12月04日递交的申请号为201510891973.3、发明名称为“数据处理方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着互联网技术的发展,用户可以从网站上获取的资源数据越来越多,相应的,提供资源数据的数据对象(例如网店等)的数量也越来越多。各大网站除了可以向用户推荐资源数据之外,还可以向用户推荐提供相似资源数据的数据对象,以便于用户获取更多更好的资源数据。可见,数据对象之间存在着竞争关系。
对于数据对象来说,一定程度上希望能够获得与其存在一定竞争关系的其它数据对象的信息。在现有技术中,各大网站主要是将数据对象所提供的资源数据进行相似度计算,通过判断两个数据对象所提供的资源数据是否相似来判断两个数据对象是否相似。对用户来说,这种判断方法可以帮助用户发现更多相近的资源数据,但是从数据对象的角度来看,提供相似资源数据的数据对象不一定存在竞争关系,资源数据并不是决定两个数据对象之间是否存在竞争的唯一因素,所以现有方法并不适用于发现存在竞争关系的数据对象。
发明内容
本申请的多个方面提供一种数据处理方法及装置,用以发现存在竞争关系的数据对象。
本申请的一方面,提供一种数据处理方法,包括:
从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,所述资源数据用于实现用户的业务需求;
从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象;
根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象。
本申请的另一方面,提供一种数据处理装置,包括:
初始获取模块,用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,所述资源数据用于实现用户的业务需求;
候选获取模块,用于从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象;
确定模块,用于根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象。
在本申请中,首先从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,然后再从初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象,进而根据候选数据对象对第一数据对象的业务分流量,确定与第一数据对象具有竞争关系的数据对象。本申请不仅考虑数据对象所提供资源数据的相似度,而且从业务上考虑,将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象,解决了现有技术无法发现存在竞争关系的数据对象的问题,而且所发现的存在竞争关系的数据对象的精准度较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的数据处理方法的流程示意图;
图2为本申请另一实施例提供的数据处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的数据处理方法的流程示意图。如图1所示,该方法包 括:
101、从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,这里的资源数据用于实现用户的业务需求。
102、从上述初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象。
103、根据上述候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象。
本实施例提供一种数据处理方法,可由数据处理装置来执行,用以发现存在竞争关系的数据对象,并且保证所发现的存在竞争关系的数据对象的精准度。
本实施例提供的方法可用于任何需要发现存在竞争关系的数据对象的应用场景。举例说明,采用本实施例提供的方法可以发现电商平台上存在竞争关系的网络店铺。又例如,采用本实施例提供的方法可以发现资源下载网站上存在竞争关系的视频资源发布者。又例如,采用本实施例提供的方法可以基于用户终端(例如手机或电脑)上安装的各外卖提供商的客户端发现存在竞争关系的外卖提供商。
根据应用场景的不同,本实施例的网络系统、网络系统中的用户、数据对象以及数据对象提供的资源数据等均会有所不同。本实施例不对网络系统、网络系统中的用户、数据对象及数据对象提供的资源数据等的实现形式进行限定。
例如,网络系统可以是以各电商网站为核心的网络系统;相应的,网络系统中的数据对象可以是电商网站上的网络服务提供商,例如店铺;相应的,数据对象提供的资源数据可以是各网络服务提供商提供的商品对象数据,例如店铺内销售的衣服、食品、电子产品等数据;相应的,网络系统中用户的网络行为可以包括浏览、收藏、加购物车、购买、支付以及评论中的至少一种。
又例如,网络系统可以是以资源下载网站为核心的网络系统;相应的,网络系统中的数据对象可以是资源发布/上传者;相应的,数据对象提供的资源数据可以是具体的资源,例如视频资源、文本资源等;相应的,网络系统中用户的网络行为可以包括预览、下载、播放等中的至少一种。
由上述举例可见,本实施例中的数据对象主要是指一些通过网络面向用户提供服务的服务提供者,可以是电子商务、电子政务、公司业务流程电子化等各应用领域中的服务提供者。相应的,数据对象提供的资源数据主要用于实现用户的业务需求。
采用本实施例提供的方法,可以发现网络系统中任何存在竞争关系的数据对象。为 了便于描述和区分,本实施例以发现与第一数据对象存在竞争关系的数据对象为例进行说明。第一数据对象可以是网络系统中的任意数据对象。
当确定需要发现与第一数据对象存在竞争关系的数据对象时,例如可以周期性的确定与第一数据对象存在竞争关系的数据对象,因此可以在每个后期达到时时或者在接收到第一数据对象的请求时,数据处理装置可以执行本实施例提供的方法流程,以确定与第一数据对象存在竞争关系的数据对象。
在实际应用中,每个数据对象提供多种资源数据,不同资源数据用于实现用户的不同业务需求。举例说明,对于店铺,店铺内可能同时提供服装、母婴用品、休闲零食等多种商品对象,而服装下面又包括上衣、裤子、鞋子,上衣又会分为风衣、卫衣、毛衣、打底衫等等。为了便于对资源数据进行管理,数据对象一般会通过资源类目对各种资源数据进行分级管理,例如可以包括一级资源类目、二级资源类目、三级资源类目以及叶子资源类目等,不同级别的资源类目下包括不同的资源数据。例如,上面的服装、母婴用品、休闲零食等可以作为一级资源类目,而服装下面的上衣、裤子、鞋子可以作为二级资源类目,等等。
如果两个数据对象提供的资源数据相差较大,则不易形成竞争关系。例如一个店铺售卖服务,另一店铺售卖电子产品,由于这两个店铺面向的用户群体不太相同,所以两者之间不太容易形成竞争关系。相反,如果两个数据对象提供的资源数据比较相近,则容易形成竞争关系。例如,若一个店铺销售毛衣,另一店铺也销售毛衣,则这两个店铺面向的用户群体相同,都是从购买毛衣的用户中争取用户,所以这两个店铺之间就会形成竞争关系。
基于上述,数据处理装置首先可以从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象。
具体的,数据处理装置可以根据第一数据对象在指定时间段内各一级资源类目下的业务量数据,确定第一数据对象的主营一级资源类目。例如,数据处理装置可以采集第一数据对象的基础信息,基础信息包括:第一数据对象主营的各级资源类目、在指定时间段内业务量数据汇总以及在每个资源类目下的业务量数据;然后根据这些业务量数据,确定第一数据对象的主营一级资源类目。
例如,可以从横向角度考虑,将第一数据对象自身提供的各一级资源类目下的业务量数据进行比较,将业务量数据最大的一级资源类目作为主营一级资源类目。或者,也可以从纵向角度考虑,将第一数据对象提供的各一级资源类目下的业务量数据,与其它 数据对象提供的相同资源类目下的业务量数据或行业平均/历史最高业务量数据进行比较,将第一数据对象提供的各一级资源类目中业务量数据比其它数据对象提供的相同资源类目下的业务量数据或行业平均/历史最高业务量数据大的一级资源类目作为主营一级资源类目。其中,可以获取网络系统中各资源对象提供的相同资源类目下的业务量数据,对所获取的各资源对象提供的相同资源类目下的业务量数据求平均,将平均值作为行业平均业务量数据。相应的,可以获取指定历史时间段内网络系统中各资源对象提供的相同资源类目下的业务量数据,将所获取的各资源对象提供的相同资源类目下的业务量数据进行比较,获取最高业务量数据作为行业历史最高业务量数据。另外,上述列举的确定主营一级资源类目的方式可以单独使用,也可以结合使用。第一数据对象主营一级资源类目可以是一个,也可以是多个。
上述指定时间段可以根据具体应用场景而定,例如可以是但不限于:7天、30天等。同理,上述指定历史时间段也可以根据具体应用场景而定,例如可以是但不限于:30天、60天等。
以第一数据对象为电商平台上的店铺为例,则这里的业务量主要是指交易金额、商品成交量、平均成交量等。举例说明,一种确定主营一级资源类目的方式包括:数据处理装置可以将交易金额最大的一级资源类目作为主营一级资源类目,同时,也可以将交易金额不是店铺内最大,但是在行业内是最高的一级资源类目作为主营一级资源类目。具体的,假设xx官方旗舰店主售手机、盒子、手环、净化器等不同商品,因为xx官方旗舰店售出的手机的交易额是最大的,可以将手机类目作为主营一级资源类目,同时,xx官方旗舰店售出的手环的交易金额小于手机的交易金额,但是在同行业店铺中该手环的交易金额是最大的,即排名第一,因此该手环类目也可以作为该xx官方旗舰店的主营一级资源类目。上述仅是确定主营一级资源类目的一种实施方式,并不限于此。
同理,数据处理装置可以根据网络系统中除第一数据对象之外的其它数据对象在指定时间段内在各一级资源类目下的业务量数据,确定其它数据对象的主营一级资源类目。例如,数据处理装置可以采集其它数据对象的基础信息,基础信息包括:其它数据对象主营的各级资源类目、在指定时间段内业务量数据汇总以及在每个资源类目下的业务量数据;然后根据这些业务量数据,确定其它数据对象的主营一级资源类目。例如,对于每个其它数据对象,为便于描述和区分,这里将其称为非第一数据对象,可以从横向角度,将非第一数据对象自身提供的各一级资源类目下的业务量数据进行比较,将业务量数据最大的一级资源类目作为主营一级资源类目。或者,也可以从纵向角度,将非第一 数据对象提供的各一级资源类目下的业务量数据,与其它数据对象提供的相同资源类目下的业务量数据或行业平均业务量数据进行比较,将非第一数据对象提供的各一级资源类目中业务量数据比其它数据对象提供的相同资源类目下的业务量数据或行业平均业务量数据大的一级资源类目作为主营一级资源类目。另外,上述列举的确定主营一级资源类目的方式可以单独使用,也可以结合使用。所述指定时间段可以根据具体应用场景而定,例如可以是但不限于:7天、30天等。以第一数据对象为电商平台上的店铺为例,则这里的业务量主要是指交易金额、商品成交量、平均成交量等。例如,数据处理装置可以将交易金额最大的一级资源类目作为主营一级资源类目。
之后,数据处理装置从其它数据对象中,选择主营一级资源类目与第一数据对象相同,且业务量数据与第一数据对象的业务量数据位于同一层级的数据对象作为与第一数据对象具有相似资源数据的初始数据对象。
简单来说就是,数据处理装置根据主营一级资源类目以及各数据对象在主营一级资源类目下的业务量数据,对其它数据对象进行筛选,以获得与第一数据对象具有相似资源数据的初始数据对象。其中,一种确定业务量数据与第一数据对象的业务量数据位于同一层级的数据对象的具体实施方式包括:
根据第一数据对象在主营一级资源类目下的业务量数据以及其它数据对象在一级主营资源类目下的业务量数据,按照在一级主营资源类目下的业务量数据从低到高划分为若干个层级,例如7个层级,然后确定第一数据对象在主营一级资源类目下的业务量数据所在的层级,进而获取与第一数据对象处于同一层级的其它数据对象。例如,假设对于最近30天交易金额位于主营一级资源类目下前百分之一的店铺,将其划分为一级资源类目下的第7层级,若某一店铺位于第7层级,则认为同时位于第7层级的店铺所提供的商品对象相似。
在一可选实施方式中,在初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象之前,可以按照预设的黑名单过滤规则,去除初始数据对象中指定业务指标存在异常的数据对象。预先设置黑名单过滤规则,当获取到初始数据对象之后,可以根据预设的黑名单过滤规则,对初始数据对象进行过滤处理,从而将指定业务指标存在异常的数据对象去除,以防止一些作弊行为,提高数据准确性。
具体的,在黑名单过滤规则中可以定义虚假业务,并定义虚假业务产生的业务量数据对应的过滤要求。基于此,根据黑名单过滤规则对初始数据对象进行过滤的过程具体为:根据黑名单过滤规则中定义的虚假业务,确定初始数据对象中存在虚假业务的可疑 数据对象;判断可疑数据对象的虚假业务产生的业务量数据是否满足黑名单过滤规则中定义的过滤要求;若判断结果为是,则将可疑数据对象从初始数据对象中去除。
以网络购物系统中的店铺为例,如果商铺的商品交易中存在商品客单价在对应叶子资源类目上的平均客单价的指定倍数(例如5、10或100倍)以上的商品交易,则认为这些商品交易是虚假交易商品,同时,确定该店铺存在虚假交易(即虚假业务),这些店铺即为可疑店铺。然后,统计这些可疑店铺的虚假交易产生的交易金额占该店铺总交易金额的比例是否达到指定比例(例如50%或60%等),若是,将这些可疑店铺从初始确定的店铺中去除。或者,也可以统计这些可疑店铺的虚假交易产生的交易金额占该店铺总交易金额的比例是否达到指定比例(例如50%或60%等),若是,继续统计这些可疑店铺的用户访问量(UV),若这些可疑店铺的UV小于指定门限(例如50、500或300等),则将这些可疑店铺从初始确定的店铺中去除。
除上述过滤规则之外,还可以统计各店铺的支付转化率,将支付转化率大于指定比例(1000%)、且用户访问量(UV)小于指定门限的店铺作为可疑店铺,将可疑店铺从初始确定的店铺中去除。
具有相似资源数据并不是判断两个数据对象之间是否存在竞争关系的唯一因素,因此在获得初始数据对象之后,可以数据处理装置继续从业务角度来考虑,从初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象;之后,根据候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象。即,从与第一数据对象提供相似资源数据,且在业务上对第一数据对象有影响的数据对象中,确定与第一数据对象存在竞争关系的数据对象,这符合从数据对象的角度所定义的竞争概念,同时也有利于保证所获取的存在竞争关系的数据对象的精准度。
在一具体实施方式中,数据处理装置可以从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度,针对第一数据对象和初始数据对象进行业务分流分析,从而获得对第一数据对象具有业务分流作用的候选数据对象。
以数据对象为店铺为例,各店铺都会面向用户提供关键词,一方面供用户进入店铺后进行搜索,另一方面,也是将用户引流到该店铺的关键信息。关键词是用户进入店铺的第一步,所以自然搜索中,关键词设置的好与坏将会对店铺的用户访问量(Unique Visitor,UV)造成显著的影响。例如,按照UV对两家销售相似太阳伞的天猫品牌店铺最近7天的主要引流关键词进行排序,可以发现:“太阳伞”、“小黑伞”、“防晒伞”以及“遮阳伞”等关键词在两家店铺的引流关键词排行榜上都占据着重要的位置,这些 共同关键词都会造成用户的分流。如果一开始进入店铺的用户数量较多,则一定程度上会影响该店铺的业务量数据,这意味着,关键词的引流作用一定程度上可以影响该店铺的业务量数据。
基于上述分析,数据处理装置考虑到从关键词引流角度,针对第一数据对象和初始数据对象进行业务分流分析,以获得对第一数据对象具有业务分流作用的候选数据对象。具体的,数据处理装置可以根据第一数据对象面向用户提供的关键词和初始数据对象面向对象提供的关键词,从初始数据对象中,获取与第一数据对象共用至少一个关键词的数据对象作为候选数据对象。
进一步可选的,在获得候选数据对象之后,可以根据各候选数据对象在第一指定资源类目下的业务量数据,对候选数据对象进行过滤,例如,可以获取在第一指定资源类目下的业务量数据最大的至少一个候选数据对象,例如获取在第一指定资源类目下的业务量数据最大的前N个候选数据对象,N是自然数,这样可以减少候选数据对象的数量,有利于节约计算资源,提高后续计算速度。
在仅从关键词引流角度,针对第一数据对象和所述初始数据对象进行业务分流分析的情况下,根据获得的候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括:
对于第一数据对象面向用户提供的每个关键词,从候选数据对象中,获取与第一数据对象在该关键词下的用户访问量最接近的至少一个目标数据对象;根据第一数据对象在关键词下的用户访问量和至少一个目标数据对象在该关键词下的用户访问量,计算第一数据对象与至少一个目标数据对象之间的用户引流相似度;根据第一数据对象与至少一个目标数据对象之间的用户引流相似度,从至少一个目标数据对象中确定与第一数据对象存在竞争关系的数据对象。
具体的,一种获取至少一个目标数据对象的实施方式包括:按照第一数据对象在上述关键词下的用户访问量和候选数据对象在上述关键词下的用户访问量,对第一数据对象和候选数据对象进行排序,对排序结果进行分片,确定第一数据对象所在的目标分片,获取目标分片以及该目标分片的相邻分片中的候选数据对象作为至少一个目标数据对象。
在上述实施方式中,考虑到每个关键词对不同数据对象来说所带来的用户访问量是不同的,为了便于发现竞争力度更大的数据对象,根据每个关键词给不同数据对象带来 的用户访问量,对候选数据对象进行过滤,从而获得用户访问量与第一数据对象相近的目标数据对象。之后,基于第一数据对象在关键词下的用户访问量和目标数据对象在该关键词下的用户访问量,计算第一数据对象与目标数据对象之间的用户引流相似度。其中,该用户引流相似度用户反映该关键词在第一数据对象和目标数据对象下的用户引流效果的相似程度,如果该用户引流相似度越大,意味着目标数据对象与第一数据对象的竞争强度越强,也就意味着目标数据对象对第一数据对象的业务分流量会越大。因此,可以根据第一数据对象与目标数据对象之间的用户引流相似度,从目标数据对象中获取与第一数据对象存在竞争关系的数据对象。
例如,可以按照预设的百分比,按照用户引流相似度由大到小的顺序从目标数据对象中选择满足预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。
又例如,可以设定一用户引流相似度门限,从目标数据对象中选择用户引流相似度大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。
在获得与第一数据对象存在竞争关系的数据对象之后,可以输出所获得的数据对象的信息,例如可是该数据对象的名称、id、各资源类目以及各资源类目下的业务量数据等等。
在仅从用户流失角度,针对第一数据对象和所述初始数据对象进行业务分流分析的情况下,根据获得的候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括:
根据第一数据对象的用户群体中各用户的网络行为数据,从第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户,从初始数据对象中,获取用户群体中包括流失用户的数据对象作为候选数据对象。
在仅从用户流失角度,针对第一数据对象和所述初始数据对象进行业务分流分析的情况下,根据获得的候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括:
计算由候选数据对象引起的第一数据对象的业务总流失量;其中,由候选数据对象引起的第一数据对象的业务总流失量表征该候选数据对象对第一数据对象的业务分流量,业务总流失量越大,意味着候选数据对象对第一数据对象的业务分流量越大,也就意味着,候选数据对象与第一数据对象之间的竞争力度越大;于是,可以根据由候选数据对象引起的第一数据对象的业务总流失量,从候选数据对象中确定与第一数据对象存 在竞争关系的数据对象。
例如,可以按照预设的百分比,按照业务总流失量由大到小的顺序从候选数据对象中选择满足预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。
又例如,可以设定一业务总流失量门限,从候选数据对象中选择引起第一数据对象的业务总流失量大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。
在获得与第一数据对象存在竞争关系的数据对象之后,可以输出所获得的数据对象的信息,例如可是该数据对象的名称、id、各资源类目以及各资源类目下的业务量数据等等。
在上述实施方式中,流失用户的通俗意思就是:某个用户访问了数据对象A下的资源数据但却获取了另一数据对象B下的资源数据,对于数据对象A来说,该用户就是流失用户。本实施例并不限定用户访问的数据对象A下的资源数据与用户获取的数据对象B下的资源数据之间的关系,但较为优选的,这两种资源数据是相似资源数据。
以数据对象为店铺为例,假设某一用户看了第一店铺在卖的商品却在别人家的店铺下单了买了该第一店铺也在卖的商品,对于第一店铺来说,该用户即为流失用户。这种用户流失无疑会对第一店铺的经营者敏感的神经造成强刺激,而用户流向的店铺无疑会给第一店铺造成业务量流失,相当于对第一店铺进行了业务分流。
但是在实际应用中,如果将访问过一店铺,然后在另一店铺购买商品的所有用户全部定义为流失用户,那么流失用户的数量会相当多,并且也不太合理,因为有些用户可能会在访问一店铺后时隔很久才从另一店铺购买商品,又或者有的用户“点击”行为比较丰富,包括误操作、乱点击等,所以这些用户并不能算是真正意义上的流失用户。考虑到用户访问店铺的周期、用户终端的变化等很多因素影响着流失用户的定义,本实施例结合实际情况,给定一种流失用户的定义,具体是指在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取另一数据对象B下的资源数据的用户。即用户需要从数据对象A直接到数据对象B中间不经过其它数据对象,且需要在一定时间范围内,例如一天之内。如果用户不是在指定时间范围之内(例如两天之后)从数据对象A跳转到数据对象B,则该用户也不符合流失用户的定义。
基于上述流失用户的定义,上述计算候选数据对象引起第一数据对象的业务总流失量的方式具体为:计算流失用户从第一数据对象跳转到候选数据对象下并因获取候选数据对象下的资源数据产生的业务量总和。举例说明,假设用户在访问第一店铺下的商品a之后,直接跳转到第二店铺下购买了商品b和商品c,则第二店铺引起的第一店铺的业 务总流失量可表示为:商品b的成交价和商品c的成交价之和。
在仅从业务量相似角度,针对第一数据对象和所述初始数据对象进行业务分流分析的情况下,根据获得的候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括:
根据第一数据对象在第二指定资源类目下的业务量数据,从初始数据对象中,获取在第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为候选数据对象。
可选的,这里的第二指定类目可以是二级资源类目,但不限于此。
在仅从业务量相似角度,针对第一数据对象和所述初始数据对象进行业务分流分析的情况下,根据获得的候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象的一种实施方式包括:
根据第一数据对象在第二指定资源类目下的业务量数据和候选数据对象在第二指定资源类目下的业务量数据,计算第一数据对象与候选数据对象之间的业务量相似度;其中,第一数据对象与候选数据对象之间的业务量相似度表征该候选数据对象对第一数据对象的业务分流量,业务量相似度越大,意味着候选数据对象对第一数据对象的业务分流量越大,也就意味着,候选数据对象与第一数据对象之间的竞争力度越大。于是,可以根据第一数据对象与候选数据对象之间的业务量相似度,从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。
例如,可以按照预设的百分比,按照业务量相似度由大到小的顺序从候选数据对象中选择满足上述预设百分比的数据对象作为与第一数据对象存在竞争关系的数据对象。
又例如,可以设定一业务量相似度门限,从候选数据对象中选择业务量相似度大于该门限的数据对象作为与第一数据对象存在竞争关系的数据对象。
在获得与第一数据对象存在竞争关系的数据对象之后,可以输出所获得的数据对象的信息,例如可是该数据对象的名称、id、各资源类目以及各资源类目下的业务量数据等等。
值得说明的是,在上述计算各种相似度的情况下,可以采用余弦相似度、皮尔森相关系数与杰卡德(Jaccard)相似系数等算法计算相似度。
另外,上述详细介绍了几种从单一业务角度对第一数据对象和初始数据对象进行业务分流分析的实施方式,对于结合几种业务角度对第一数据对象和初始数据对象进行业 务分析的实施方式可参照上述描述,可以是上述实施方式的简单组合,也可以是经过变形后的实施方式,对此不再详细描述。
由上述分析可见,本申请不仅考虑数据对象所提供资源数据的相似度,而且从业务上考虑,将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象,解决了现有技术无法发现存在竞争关系的数据对象的问题,而且所发现的存在竞争关系的数据对象的精准度较高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的数据处理装置的结构示意图。如图2所示,该装置包括:初始获取模块21、候选获取模块22和确定模块23。
初始获取模块21,用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,资源数据用于实现用户的业务需求。
候选获取模块22,用于从初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象。
确定模块23,用于根据候选数据对象对第一数据对象的业务分流量,确定与第一数据对象存在竞争关系的数据对象。
在一可选实施方式中,初始获取模块21具体可用于:
根据第一数据对象在指定时间段内各一级资源类目下的业务量数据,确定第一数据对象的主营一级资源类目;
根据网络系统中除第一数据对象之外的其它数据对象在指定时间段内在各一级资源类目下的业务量数据,确定其它数据对象的主营一级资源类目;
从其它数据对象中,选择主营一级资源类目与第一数据对象相同,且业务量数据与第一数据对象的业务量数据位于同一层级的数据对象作为初始数据对象。
进一步,初始获取模块21还可用于:
在候选获取模块22在从初始数据对象中,获取对第一数据对象具有业务分流作用的 候选数据对象之前,根据预设的黑名单过滤规则,去除初始数据对象中指定业务指标存在异常的数据对象。
进一步,初始获取模块21具体用于:
根据黑名单过滤规则中定义的虚假业务,确定初始数据对象中存在虚假业务的可疑数据对象;
判断可疑数据对象的虚假业务产生的业务量数据是否满足黑名单过滤规则中定义的过滤要求;
若判断结果为是,则将可疑数据对象从初始数据对象中去除。
在一可选实施方式中,候选获取模块22具体可用于:从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度,针对第一数据对象和初始数据对象进行业务分流分析,以获得候选数据对象。
进一步,候选获取模块22具体可用于:根据第一数据对象面向用户提供的关键词和初始数据对象面向对象提供的关键词,从初始数据对象中,获取与第一数据对象共用至少一个关键词的数据对象作为候选数据对象。
基于上述,确定模块23具体可用于:
对于第一数据对象面向用户提供的每个关键词,从候选数据对象中,获取与第一数据对象在关键词下的用户访问量最接近的至少一个目标数据对象;
根据第一数据对象在关键词下的用户访问量和至少一个目标数据对象在关键词下的用户访问量,计算第一数据对象与至少一个目标数据对象之间的用户引流相似度;
根据第一数据对象与至少一个目标数据对象之间的用户引流相似度,从至少一个目标数据对象中确定与第一数据对象存在竞争关系的数据对象。
更进一步,确定模块23在从候选数据对象中,获取与第一数据对象在关键词下的用户访问量最接近的至少一个目标数据对象时,具体可用于:
按照第一数据对象在关键词下的用户访问量和候选数据对象在关键词下的用户访问量,对第一数据对象和候选数据对象进行排序,对排序结果进行分片,确定第一数据对象所在的目标分片,获取目标分片以及目标分片的相邻分片中的候选数据对象作为至少一个目标数据对象。
进一步,候选获取模块22具体可用于:根据第一数据对象的用户群体中各用户的网络行为数据,从第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户,从初始数据对象中,获取用户群体中包括流失用户的数据对象作为候选数据对象。
基于上述,确定模块23具体可用于:
计算由候选数据对象引起的第一数据对象的业务总流失量;
根据由候选数据对象引起的第一数据对象的业务总流失量,从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。
进一步,上述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取数据对象B下的资源数据的用户。基于此,确定模块23在计算由候选数据对象引起的第一数据对象的业务总流失量时,具体用于:计算由流失用户在从第一数据对象跳转到候选数据对象下并因获取候选数据对象下的资源数据产生的业务量总和。
进一步,候选获取模块22具体可用于:根据第一数据对象在第二指定资源类目下的业务量数据,从初始数据对象中,获取在第二指定资源类目下与第一数据对象的业务量数据最接近的至少一个数据对象作为候选数据对象。
基于上述,确定模块23具体可用于:
根据第一数据对象在第二指定资源类目下的业务量数据和候选数据对象在第二指定资源类目下的业务量数据,计算第一数据对象与候选数据对象之间的业务量相似度;
根据第一数据对象与候选数据对象之间的业务量相似度,从候选数据对象中确定与第一数据对象存在竞争关系的数据对象。
本实施例提供的数据处理装置,首先从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,然后再从初始数据对象中,获取对第一数据对象具有业务分流作用的候选数据对象,进而根据候选数据对象对第一数据对象的业务分流量,确定与第一数据对象具有竞争关系的数据对象。本实施例提供的数据处理装置,不仅考虑数据对象所提供资源数据的相似度,而且从业务上考虑,将资源数据相似且相互之间具有业务分流作用的数据对象作为存在竞争关系的数据对象,解决了现有技术无法发现存在竞争关系的数据对象的问题,而且所发现的存在竞争关系的数据对象的精准度较高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一 点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (26)

  1. 一种数据处理方法,其特征在于,包括:
    从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,所述资源数据用于实现用户的业务需求;
    从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象;
    根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象。
  2. 根据权利要求1所述的方法,其特征在于,所述从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,包括:
    根据所述第一数据对象在指定时间段内各一级资源类目下的业务量数据,确定所述第一数据对象的主营一级资源类目;
    根据所述网络系统中除所述第一数据对象之外的其它数据对象在所述指定时间段内在各一级资源类目下的业务量数据,确定所述其它数据对象的主营一级资源类目;
    从所述其它数据对象中,选择主营一级资源类目与所述第一数据对象相同,且业务量数据与所述第一数据对象的业务量数据位于同一层级的数据对象作为所述初始数据对象。
  3. 根据权利要求2所述的方法,其特征在于,所述从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象之前,还包括:
    根据预设的黑名单过滤规则,去除所述初始数据对象中指定业务指标存在异常的数据对象。
  4. 根据权利要求3所述的方法,其特征在于,所述根据预设的黑名单过滤规则,去除所述初始数据对象中指定业务指标存在异常的数据对象,包括:
    根据所述黑名单过滤规则中定义的虚假业务,确定所述初始数据对象中存在虚假业务的可疑数据对象;
    判断所述可疑数据对象的虚假业务产生的业务量数据是否满足所述黑名单过滤规则中定义的过滤要求;
    若判断结果为是,则将所述可疑数据对象从所述初始数据对象中去除。
  5. 根据权利要求1所述的方法,其特征在于,所述从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象,包括:
    从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度,针对所述第一数据对象和所述初始数据对象进行业务分流分析,以获得所述候选数据对象。
  6. 根据权利要求5所述的方法,其特征在于,所述从关键词引流角度,针对所述第一数据对象和所述初始数据对象进行业务分流分析,以获得所述候选数据对象,包括:
    根据所述第一数据对象面向用户提供的关键词和所述初始数据对象面向对象提供的关键词,从所述初始数据对象中,获取与所述第一数据对象共用至少一个关键词的数据对象作为所述候选数据对象。
  7. 根据权利要求6所述的方法,其特征在于,所述根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象,包括:
    对于所述第一数据对象面向用户提供的每个关键词,从所述候选数据对象中,获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象;
    根据所述第一数据对象在所述关键词下的用户访问量和所述至少一个目标数据对象在所述关键词下的用户访问量,计算所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度;
    根据所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度,从所述至少一个目标数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
  8. 根据权利要求7所述的方法,其特征在于,所述从所述至少一个候选数据对象中,获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象,包括:
    按照所述第一数据对象在所述关键词下的用户访问量和所述候选数据对象在所述关键词下的用户访问量,对所述第一数据对象和所述候选数据对象进行排序,对排序结果进行分片,确定所述第一数据对象所在的目标分片,获取所述目标分片以及所述目标分片的相邻分片中的候选数据对象作为所述至少一个目标数据对象。
  9. 根据权利要求5所述的方法,其特征在于,所述从用户流失角度,针对所述第一数据对象和所述初始数据对象进行业务分流分析,以获得所述候选数据对象,包括:
    根据所述第一数据对象的用户群体中各用户的网络行为数据,从所述第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户,从所述初始数据对象中,获取用户群体中包括所述流失用户的数据对象作为所述候选数据对象。
  10. 根据权利要求9所述的方法,其特征在于,所述根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象,包括: 计算由所述候选数据对象引起的所述第一数据对象的业务总流失量;
    根据由所述候选数据对象引起的所述第一数据对象的业务总流失量,从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
  11. 根据权利要求10所述的方法,其特征在于,所述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取所述数据对象B下的资源数据的用户;
    所述计算由所述候选数据对象引起的所述第一数据对象的业务总流失量,包括:
    计算由所述流失用户在从所述第一数据对象跳转到所述候选数据对象下并因获取所述候选数据对象下的资源数据产生的业务量总和。
  12. 根据权利要求5所述的方法,其特征在于,所述从业务量相似角度,针对所述第一数据对象和所述初始数据对象进行业务分流分析,以获得所述候选数据对象,包括:
    根据所述第一数据对象在第二指定资源类目下的业务量数据,从所述初始数据对象中,获取在所述第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为所述候选数据对象。
  13. 根据权利要求12所述的方法,其特征在于,所述根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象,包括:
    根据所述第一数据对象在第二指定资源类目下的业务量数据和所述候选数据对象在所述第二指定资源类目下的业务量数据,计算所述第一数据对象与所述候选数据对象之间的业务量相似度;
    根据所述第一数据对象与所述候选数据对象之间的业务量相似度,从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
  14. 一种数据处理装置,其特征在于,包括:
    初始获取模块,用于从网络系统中获取与第一数据对象具有相似资源数据的初始数据对象,所述资源数据用于实现用户的业务需求;
    候选获取模块,用于从所述初始数据对象中,获取对所述第一数据对象具有业务分流作用的候选数据对象;
    确定模块,用于根据所述候选数据对象对所述第一数据对象的业务分流量,确定与所述第一数据对象存在竞争关系的数据对象。
  15. 根据权利要求14所述的装置,其特征在于,所述初始获取模块具体用于:
    根据所述第一数据对象在指定时间段内各一级资源类目下的业务量数据,确定所述第一数据对象的主营一级资源类目;
    根据所述网络系统中除所述第一数据对象之外的其它数据对象在所述指定时间段内在各一级资源类目下的业务量数据,确定所述其它数据对象的主营一级资源类目;
    从所述其它数据对象中,选择主营一级资源类目与所述第一数据对象相同,且业务量数据与所述第一数据对象的业务量数据位于同一层级的数据对象作为所述初始数据对象。
  16. 根据权利要求15所述的装置,其特征在于,所述初始获取模块还用于:
    根据预设的黑名单过滤规则,去除所述初始数据对象中指定业务指标存在异常的数据对象。
  17. 根据权利要求16所述的装置,其特征在于,所述初始获取模块具体用于:
    根据所述黑名单过滤规则中定义的虚假业务,确定所述初始数据对象中存在虚假业务的可疑数据对象;
    判断所述可疑数据对象的虚假业务产生的业务量数据是否满足所述黑名单过滤规则中定义的过滤要求;
    若判断结果为是,则将所述可疑数据对象从所述初始数据对象中去除。
  18. 根据权利要求14所述的装置,其特征在于,所述候选获取模块具体用于:
    从关键词引流角度、用户流失角度和业务量相似角度中的至少一种角度,针对所述第一数据对象和所述初始数据对象进行业务分流分析,以获得所述候选数据对象。
  19. 根据权利要求18所述的装置,其特征在于,所述候选获取模块具体用于:
    根据所述第一数据对象面向用户提供的关键词和所述初始数据对象面向对象提供的关键词,从所述初始数据对象中,获取与所述第一数据对象共用至少一个关键词的数据对象作为所述候选数据对象。
  20. 根据权利要求19所述的装置,其特征在于,所述确定模块具体用于:
    对于所述第一数据对象面向用户提供的每个关键词,从所述候选数据对象中,获取与所述第一数据对象在所述关键词下的用户访问量最接近的至少一个目标数据对象;
    根据所述第一数据对象在所述关键词下的用户访问量和所述至少一个目标数据对象在所述关键词下的用户访问量,计算所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度;
    根据所述第一数据对象与所述至少一个目标数据对象之间的用户引流相似度,从所 述至少一个目标数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
  21. 根据权利要求20所述的装置,其特征在于,所述确定模块具体用于:
    按照所述第一数据对象在所述关键词下的用户访问量和所述候选数据对象在所述关键词下的用户访问量,对所述第一数据对象和所述候选数据对象进行排序,对排序结果进行分片,确定所述第一数据对象所在的目标分片,获取所述目标分片以及所述目标分片的相邻分片中的候选数据对象作为所述至少一个目标数据对象。
  22. 根据权利要求18所述的装置,其特征在于,所述候选获取模块具体用于:
    根据所述第一数据对象的用户群体中各用户的网络行为数据,从所述第一数据对象的用户群体中确定符合预设的流失用户定义的流失用户,从所述初始数据对象中,获取用户群体中包括所述流失用户的数据对象作为所述候选数据对象。
  23. 根据权利要求22所述的装置,其特征在于,所述确定模块具体用于:
    计算由所述候选数据对象引起的所述第一数据对象的业务总流失量;
    根据由所述候选数据对象引起的所述第一数据对象的业务总流失量,从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
  24. 根据权利要求23所述的装置,其特征在于,所述流失用户定义为在指定时间范围内访问数据对象A下的资源数据后直接跳转到另一数据对象B下并获取所述数据对象B下的资源数据的用户;
    所述确定模块具体用于:计算由所述流失用户在从所述第一数据对象跳转到所述候选数据对象下并因获取所述候选数据对象下的资源数据产生的业务量总和。
  25. 根据权利要求18所述的装置,其特征在于,所述候选获取模块具体用于:
    根据所述第一数据对象在第二指定资源类目下的业务量数据,从所述初始数据对象中,获取在所述第二指定资源类目下与所述第一数据对象的业务量数据最接近的至少一个数据对象作为所述候选数据对象。
  26. 根据权利要求25所述的装置,其特征在于,所述确定模块具体用于:
    根据所述第一数据对象在第二指定资源类目下的业务量数据和所述候选数据对象在所述第二指定资源类目下的业务量数据,计算所述第一数据对象与所述候选数据对象之间的业务量相似度;
    根据所述第一数据对象与所述候选数据对象之间的业务量相似度,从所述候选数据对象中确定与所述第一数据对象存在竞争关系的数据对象。
PCT/CN2016/107018 2015-12-04 2016-11-24 数据处理方法及装置 WO2017092601A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510891973.3A CN106844402B (zh) 2015-12-04 2015-12-04 数据处理方法及装置
CN201510891973.3 2015-12-04

Publications (1)

Publication Number Publication Date
WO2017092601A1 true WO2017092601A1 (zh) 2017-06-08

Family

ID=58796264

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/107018 WO2017092601A1 (zh) 2015-12-04 2016-11-24 数据处理方法及装置

Country Status (2)

Country Link
CN (1) CN106844402B (zh)
WO (1) WO2017092601A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426974A (zh) * 2017-08-25 2019-03-05 北京奇虎科技有限公司 竞品分析方法和装置
CN109561045B (zh) * 2017-09-25 2021-12-14 北京京东尚科信息技术有限公司 数据拦截方法及装置、存储介质和电子设备
CN109241225B (zh) 2018-08-27 2022-03-25 百度在线网络技术(北京)有限公司 兴趣点竞争关系挖掘方法、装置、计算机设备及存储介质
CN111104575B (zh) * 2018-10-29 2023-05-05 阿里巴巴集团控股有限公司 数据抓取方法、装置及电子设备
CN111522888B (zh) * 2020-04-22 2023-06-20 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503997A (zh) * 2014-12-05 2015-04-08 北京百度网讯科技有限公司 同行定位方法、装置和计算机设备
CN104662529A (zh) * 2012-07-25 2015-05-27 因迪克斯公司 用于高性能分析的数据精炼引擎的系统和方法
US20150302423A1 (en) * 2014-04-17 2015-10-22 Xerox Corporation Methods and systems for categorizing users
US20150332298A1 (en) * 2014-05-13 2015-11-19 International Business Machines Corporation Price matching in omni-channel retailing

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819804A (zh) * 2011-06-07 2012-12-12 阿里巴巴集团控股有限公司 一种商品信息的推送方法及设备
CN104573946A (zh) * 2014-12-26 2015-04-29 北京奇虎科技有限公司 一种业务对象数据的处理方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662529A (zh) * 2012-07-25 2015-05-27 因迪克斯公司 用于高性能分析的数据精炼引擎的系统和方法
US20150302423A1 (en) * 2014-04-17 2015-10-22 Xerox Corporation Methods and systems for categorizing users
US20150332298A1 (en) * 2014-05-13 2015-11-19 International Business Machines Corporation Price matching in omni-channel retailing
CN104503997A (zh) * 2014-12-05 2015-04-08 北京百度网讯科技有限公司 同行定位方法、装置和计算机设备

Also Published As

Publication number Publication date
CN106844402B (zh) 2020-08-28
CN106844402A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
US11727445B2 (en) Predictive recommendation system using price boosting
WO2017092601A1 (zh) 数据处理方法及装置
CN103577988B (zh) 一种识别特定用户的方法和装置
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
US8843484B2 (en) Recommending content information based on user behavior
CN102663626B (zh) 基于区域特征的协同过滤推荐方法
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
CN104050187B (zh) 搜索结果展示方法及系统
JP6753578B2 (ja) 電子配信プラットフォーム上で提示対象を選択および推奨するための方法および装置
US20130339186A1 (en) Identifying Fraudulent Users Based on Relational Information
JP7414817B2 (ja) インベントリ取り込み、画像処理、およびマーケット記述子価格設定システム
CN108205768A (zh) 数据库建立方法和数据推荐方法及装置、设备和存储介质
US20160196329A1 (en) System and method for mining category aspect information
US20150154685A1 (en) Automated detection of new item features by analysis of item attribute data
US20140365867A1 (en) Information processing apparatus, information processing method, information processing program, and recording medium storing thereon information processing program
CN103971256A (zh) 一种信息推送方法及设备
KR20160070282A (ko) 쇼핑몰 사이트 제공 시스템, 쇼핑몰 사이트 제공 방법, 그 프로그램 및 이를 기록한 기록매체
US9552425B2 (en) System and method for determining query aspects at appropriate category levels
US10049375B1 (en) Automated graph-based identification of early adopter users
CN110020135B (zh) 一种需求确定方法、资源推荐方法和相关装置
JP6664580B2 (ja) 算出装置、算出方法および算出プログラム
TWI736576B (zh) 資料處理方法及裝置
CN110827044A (zh) 提取用户兴趣模式的方法和装置
KR20220163089A (ko) 제품 공동구매 연계 시스템 및 방법
JP6007300B1 (ja) 算出装置、算出方法および算出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16869911

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16869911

Country of ref document: EP

Kind code of ref document: A1