WO2013044564A1 - 一种用户网络行为分析方法、装置和系统 - Google Patents

一种用户网络行为分析方法、装置和系统 Download PDF

Info

Publication number
WO2013044564A1
WO2013044564A1 PCT/CN2011/084922 CN2011084922W WO2013044564A1 WO 2013044564 A1 WO2013044564 A1 WO 2013044564A1 CN 2011084922 W CN2011084922 W CN 2011084922W WO 2013044564 A1 WO2013044564 A1 WO 2013044564A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
network
information
access information
network access
Prior art date
Application number
PCT/CN2011/084922
Other languages
English (en)
French (fr)
Inventor
罗峰
黄苏支
李娜
Original Assignee
北京亿赞普网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京亿赞普网络技术有限公司 filed Critical 北京亿赞普网络技术有限公司
Publication of WO2013044564A1 publication Critical patent/WO2013044564A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Definitions

  • the invention relates to network user behavior analysis, in particular to the restoration of network user behavior, and in particular to a user network behavior analysis method and system. Background technique
  • FIG. 1 is a schematic diagram of a user interacting with a web server in the prior art.
  • the user uses different types of user terminals to connect with different web servers through the Internet to perform packet interaction. Analysis of the behavior of users browsing the website is getting more and more attention.
  • User behavior analysis can be defined as: According to the historical behavior of the user, statistics and analysis are performed on the data to analyze the user's needs or what the user may be doing.
  • the use of network message to restore user behavior can be understood as: Using the user's network ⁇ ⁇ ⁇ records, analyzing user behavior, and trying to restore the user's Internet intent.
  • User behavior analysis should include the following key analysis data: user's stay time on the website, bounce rate, returning visitors, new visitors, number of return visits, number of days after return visits; registered users and non-registered users, analyze the browsing habits between the two; The search engine, keywords, associated keywords and intra-site keywords used by the user; what kind of entry form (advertisement or website portal link) the user selects is more effective; the user visits the website process to analyze whether the page structure design is reasonable; The user's page hotspot map distribution data and webpage overlay data on the page; the user's visits at different time periods, etc.
  • the website server records log data of network messages between the user accessing the website and the website server, and can perform corresponding user behavior analysis based on the recorded log data.
  • a search engine website will record the user's query records, based on these records, website A
  • the user's interest can be analyzed and the user profile can be established.
  • the website A can perform result screening based on the user profile, and return the filtered result to the user as the most desired result of the user.
  • the web server records the user's network packets to the server, which forms a user's access record on the web server, which is called a partial view of the user. Based on the partial view, the web server can perform corresponding user behavior analysis. This analysis of user behavior is based on a web server, but it is clear that the user is not limited to accessing this web server, so this user behavior analysis is only a local behavior analysis of the user. For example, as described above, a search engine website can build user profiles based on partial views and optimize their query results.
  • the invention can obtain the communication network messages of all the users through the respective gateways through the multiple gateways arranged in the respective network locations, so that the user network access behavior can be classified based on the global user information to solve the above technical problem, and the present invention provides A user network behavior analysis method, comprising the steps of: Step ⁇ : acquiring network access information of users of more than one gateway from different network locations; Step ⁇ : pre-preserving network access information from each of the gateways Processing to Obtaining the pre-processed network access information of each user; Step C: analyzing the user behavior information of each user based on the pre-processed network access information of each user obtained in step B, respectively.
  • the method further includes filtering, by the collector connected to one or more of the one or more gateways or the one or more gateways, the network access information to obtain a data tuple as a basic information unit. Indicates network access information.
  • the method further includes: the element of the data tuple includes at least: a user identifier, a time point, and a network packet.
  • the method further includes that both step B and step C are implemented by a distributed computing cluster. Further, the method further comprises: obtaining, by the collector, the network access information from each of the gateways; and acquiring, by the distributed computing cluster, network access information from each of the gateways from the collector.
  • the method further includes: the gateway and/or the collector storing the network access information according to a setting rule, and the distributed computing cluster generating, according to the setting rule, for downloading the network access information Network address.
  • the method further includes, in the step C, continuously accessing, by the user, network access information of one or more websites in a first preset time period as user behavior information corresponding to a network behavior event of the user. .
  • the method further includes, in the step C, counting the frequency of access by the user to various types of websites during the second preset time period as user behavior information that characterizes the user's preference for accessing various types of websites.
  • the present invention also provides a user network behavior analysis apparatus, which comprises the following units: an information acquisition unit: network access information for acquiring users of more than one gateway from different network locations; information summary unit: for Network access information from each of the gateways is pre-processed to obtain respective pre-processed network access information of each user; behavior analysis unit: used for pre-processed network access of each user based on the information summary unit respectively Information, analysis and get user behavior information of each user.
  • an information acquisition unit network access information for acquiring users of more than one gateway from different network locations
  • information summary unit for Network access information from each of the gateways is pre-processed to obtain respective pre-processed network access information of each user
  • behavior analysis unit used for pre-processed network access of each user based on the information summary unit respectively Information, analysis and get user behavior information of each user.
  • the apparatus further includes: the user network behavior analysis device is a distributed computing cluster, and the compressed network access information from each of the gateways is obtained from the gateway or from a collector connected to the gateway. Further, the device further includes: the user network behavior analysis device continuously accessing the network access information of the one or more websites in the first preset time period as user behavior information corresponding to a network behavior event of the user.
  • the present invention also provides a user network behavior analysis system, comprising: one or more gateways at different network locations; one or more collectors, each of the collectors being connected to one or more of the gateways For collecting network access information of the user from each of the gateways, and according to the user network behavior analysis device as described above, the user network behavior analysis device is connected to the one or more collectors, based on the obtained users. The respective network access information is analyzed to obtain user behavior information of each user. Further, the system further includes the one or more gateways assigning each user a unique identifier based on the user identity identification information or the user host identification information.
  • the present invention has at least the following advantages:
  • the prior art starts from the respective websites and can only obtain the user access information of the website.
  • the present invention introduces multiple gateway devices configured in different network locations, and can obtain all communication network packets of the user through multiple gateways, thereby solving the problem that the network behavior of the network cannot be analyzed based on the inter-network communication in the prior art.
  • the invention provides a method for restoring user behavior based on message information of a communication network. Compared with the traditional method for restoring user behavior based on an access log, the present invention solves the problem that the user cannot access the user except the website in the traditional user behavior analysis method.
  • the behavior of other websites is analyzed and/or the difficulty of analyzing the behavior of individual users across different websites to access different websites.
  • FIG. 1 is a schematic diagram of interaction between a user and a web server in the prior art
  • FIG. 3 is a schematic diagram of data interaction between a user and a web server according to the first embodiment of the present invention
  • FIG. 4 is a flowchart of data restoration according to the data interaction manner of FIG. 3 according to the first embodiment of the present invention
  • FIG. 6 is a schematic structural diagram of a user network behavior analysis system according to Embodiment 2 of the present invention
  • FIG. 7 is a structural block diagram of a user network behavior analysis system according to Embodiment 3 of the present invention. detailed description
  • the steps illustrated in the flowchart of the figures may be performed in a computer system, such as a set of computer-executable instructions, and, although the logical order is illustrated in the flowchart, in some cases, may vary The steps shown or described are performed in the order herein.
  • FIG. 2 is a flow chart of a method for analyzing a user's network behavior according to the first embodiment of the present invention. The steps of the method will be described in detail below with reference to FIG.
  • Step S110 Acquire network access information of users of one or more gateways from different network locations.
  • FIG. 3 is a schematic diagram of data interaction between a user and a web server according to the first embodiment of the present invention
  • FIG. 4 is a flowchart of data restoration according to the data interaction manner of FIG.
  • a plurality of (two or more) gateways are deployed in the Internet where information is exchanged between each server side and each user.
  • These gateways can be located at different network locations and serve the respective networks for providing protocol conversion, routing, data exchange, etc., and are mainly used to obtain network access information of users in the present invention. More specifically, different network locations may refer to different geographic locations, or may be in the same geographic location but at different network/subnetwork locations.
  • the different networks here may be different Ethernet subnets, different metropolitan area networks or even different network types, such as 3g networks or LTE networks.
  • these gateways can be deployed in the same or different network (subnet) as the client or server, and the gateway can be deployed in the same or a different physical location as the client or server.
  • gateways deployed in different network locations it is possible to obtain corresponding network access information across the network when the user performs cross-network access (for multiple website accesses, when multiple website servers are involved).
  • Each of the gateways obtains network access information of the network user.
  • the network access information may preferably include request information sent by the user end to the server, and the server side makes the request information.
  • the data communication message information also called network message information
  • the network access information may also include user access records from various website servers, and the like.
  • each gateway in addition to obtaining network access information of the network user, it can also be used for uniquely identifying the user identity.
  • user identity information such as cookie related information or user host identification information such as a computer MAC address may be utilized, and each user is assigned a unique identifier UID when the user accesses, and then each user accesses the gateway each time. You can identify the uniqueness of each user.
  • the identification and identification of users here can reduce the burden in subsequent processing. In the subsequent processing, only the identification of the users here can be summarized and sorted, without adding additional identification processing.
  • gateways can filter the network access information generated by the user at a certain moment and store the network access information in the data tuple.
  • the data tuple can be expressed as ⁇ user identifier, time point, URL, network message ⁇ You can also transfer unfiltered network access information directly to the collector without filtering (described in more detail below).
  • the network access information that a user obtains from a gateway to access a webpage is referred to as a single point of information, and the single point information is determined by the selection of a specific webpage or website. All network access information of a user acquired from more than one gateway is referred to as multipoint information.
  • both single-point information and multi-point information can be represented by a data tuple, which is a collection of data information generated by the user at one or more points in time.
  • the multi-point information is network access information generated when a user accesses multiple website servers, and may be network access information obtained from two gateways of a single network, or
  • Each gateway records the communication details between the user and the web server.
  • the data tuple is the basic information unit for each gateway to collect network access information data. You can filter the related fields from the gateway data to obtain the basic information unit ⁇ user ID, time point, web address, network message ⁇ represented by a data tuple.
  • the time point indicates the time point when the user sends/receives the network packet.
  • the format of the data tuple is not limited to the foregoing representation manner, and the elements in the data tuple may also include only three elements of a user, a time point, and a web address, and may also include, for example, other than the above three elements. Elements such as network connection type, access content type, and related access log information.
  • the user's single point information and/or multipoint information is obtained from each gateway.
  • S120 Perform pre-processing on network access information from each gateway to obtain respective users. Preprocessed network access information.
  • the distributed computing cluster acquires network access information from each gateway, that is, the network access information from each gateway can be summarized in the distributed computing cluster, and then summarized according to the user identifier (user ID).
  • the network access information is preprocessed to obtain respective pre-processed network access information of each user.
  • the user UIDs allocated to the user in the previous step are summarized and sorted for summarizing the network access information corresponding to the user.
  • a collection of network access information related to each user's access to each website at various points in time can be obtained.
  • the pre-processing performed may include reorganizing according to the user ID to obtain network access information for each user identifier, and may further include chronologically sorting network access information of the same user identifier to obtain chronological order for each user identifier.
  • the network access information may further include a merge process, for example, a set of users who access a certain website during a certain period of time, and may further perform the user according to the location of the user and the website channel. Segmentation to complete the behavioral exploration of the user community.
  • a programming model suitable for parallel operations of large-scale data sets such as a MapReduce programming model, etc., can be used to reorganize, merge, and time sort according to user IDs.
  • MapReduce a Map function is specified to map a set of key-value pairs into a new set of key-value pairs, and to specify concurrent Reduce functions to ensure all mappings.
  • Each key value in a key-value pair shares the same key group.
  • the above mode is only preferable, and the embodiment is not limited to this mode.
  • This provides detailed network access information for each user to interact with each server of each website in a time series.
  • each gateway separately storing its own network access information data may cause a certain load imbalance and waste of resources.
  • a set of collectors may be set, and each collector is combined with one or more Gateway device connection.
  • each gateway may not store the network access information in the local storage or directly transfer the data to the distributed computing cluster, but transmit the network access information to one of the collectors connected to the gateway, and the distributed computing cluster
  • the network access information is obtained from the collector, and more specifically, the network access information is obtained from the collector by the node in the distributed computing cluster responsible for the data access function of the data network access information downloading and accessing, the summary data writing, and the like.
  • Adding a set of collectors can act as a load node equalization and reduce the load on the gateway.
  • Fig. 4 schematically shows the data transmission relationship between the gateway and the collector, wherein the collector and the gateway are not limited to a one-to-one relationship.
  • the network access information may be compressed prior to being sent to the distributed computing cluster, which may be performed by a collector or gateway.
  • the distributed computing cluster obtains the compressed network access information from each gateway.
  • the data download service based on http, ftp and/or other network protocols is provided in a collector of each node in the network, and the data management device in the distributed computing cluster obtains compressed or uncompressed data download service provided by the collector. Network access information data.
  • the network access information may be stored in a collector or a gateway according to a set rule, a network address of the network access information data in the collector or the gateway, and the distributed computing cluster acquires the gateway from the generated network address according to the generated network address.
  • Network access information may be stored in a collector or a gateway according to a set rule, a network address of the network access information data in the collector or the gateway, and the distributed computing cluster acquires the gateway from the generated network address according to the generated network address.
  • Network access information may be stored in a collector or a gateway according to a set rule, a network address of the network access information data in the collector or the gateway, and the distributed computing cluster acquires the gateway from the generated network address according to the generated network address.
  • the distributed computer cluster can include a task distribution device, which can be a physical entity or logical body responsible for the distribution of tasks.
  • the task distribution device runs a task whose input source is the generated network address.
  • the task distribution device can download the network access information to the respective local storage of the node according to the network address distributed by the task distribution device by assigning the network address to each node of the corresponding computer cluster.
  • user network access information single point information and/or multipoint information
  • the rules set above may be a certain time rule.
  • the collector can sort the collected network access information by time and use a time point for a certain period of time (for example)
  • the data collected within 10 minutes or 20 minutes, etc. is named after the time is the file name.
  • the distributed computing cluster generates a file name according to the same rule, and generates a network address for downloading the network access information data file stored under the file name based on the file name and the network address of each collector.
  • the rule set above may also be a certain file size rule.
  • the collector stores the network access information as a fixed size file and sequentially numbers the files.
  • the distributed computing cluster generates the file names according to the same rule (ie, sequential numbering).
  • the operation of acquiring the basic information unit represented by one data tuple after the gateway data filtering related field may also be set in the corresponding collector. That is to say, the data collected by the collector at this time is unfiltered gateway data.
  • Step S130 analyzing the user behavior information of each user based on the respective pre-processed network access information of each user obtained in step S120.
  • the user behavior information obtained in this step refers to information such as search, advertisement click, shopping, and/or other network behavior performed by the user through the network.
  • the user behavior information is not limited to a certain period of time, and may also be some long-term preferences of the user.
  • the online behavior of a single user is generated within a period of time, and the communication network message generated by the communication network usually corresponds to multi-point information. Therefore, the pre-processed network access information of the present invention reflects the multi-point information of the user, that is, the user's multi-site server or even cross-network access information. Compared with the traditional single-point information-based user network behavior analysis method, the present invention analyzes the user's user network behavior based on multi-point information, and can fully reflect the user's real network access behavior, and can provide more valuable to the service provider. User behavior information.
  • a certain user may continuously access one or more websites within a first preset time period (ie, a first preset time period) (for example, 10 minutes to 30 minutes, etc.).
  • the point information is user behavior information corresponding to an event stream (network behavior event) of the user, and the one or more websites are regarded as associated websites of the user behavior.
  • an event stream network behavior event
  • the user's event stream feature is utilized, and the user behavior information is obtained based on the aggregated data embodying the multi-point information to obtain the user behavior information.
  • a user may also be used as a representation for the access frequency of various types of websites within a second preset time period (ie, a second preset time, for example, several days or tens of days, etc.).
  • User behavior information such as user preferences for accessing various websites.
  • User behavior is associated with many factors, such as user needs, services provided by the web server, and the degree of association between the web servers, which leads to the diversity and complexity of user behavior.
  • the following describes the user behavior information by taking the search engine query behavior, the advertisement click behavior, and the shopping behavior as examples.
  • An example of a deployed gateway that can retrieve a user's query record in a search engine is as follows:
  • the search engine query behavior of the user A can be restored, that is, the user A can be known to use the search engine B between time point 1 and time point 2, and the keyword C query is performed, and based on To query the results, click on the corresponding URL D.
  • the deployed gateway can get the user's ad click record example as follows:
  • the advertisement click behavior of the user A can be restored, that is, it can be known that the user A clicks on the advertisement C between the time point 1 and the time point 2 at the website B where the advertisement is located.
  • the deployed gateway can obtain the user's shopping record as follows:
  • the shopping behavior of the user A can be restored, that is, the user A can be known to purchase the commodity C at the shopping address B between the time point 1 and the time point 3.
  • the restoration method may be similar to the user behavior restoration method in the prior art, but in this embodiment, since the communication network packets of all users deployed in gateways in different geographical locations are acquired, the user behavior analysis can be performed on most users, and therefore, the user behavior is performed only on the single point information.
  • the restoration can also solve the contradiction between resources and requirements in the prior art. In the following, an example of user behavior restoration will be described by taking the search engine query behavior as an example.
  • the deployed gateway obtains the user's query record in the search engine and assigns the user a unique identifiable user ID.
  • the form of the record is: visit_timeluser_idluser_iplarea lhostlurilrefer_engine_idlrefer_hostlrefer_urilrefer_keyword
  • Visit_time access time
  • Refer_engine_id refer search engine id: ( 00000000 means refer is not a search engine) refer-host: refer host
  • the user requests the search engine's log as follows:
  • the log of user access to other websites is as follows:
  • FIG. 6 is a structural block diagram of a user network behavior analysis apparatus according to Embodiment 2 of the present invention.
  • the composition of the device will be described in detail below with reference to FIG.
  • the device includes:
  • Information acquisition unit Network access information for users who obtain more than one gateway from different network locations.
  • the information summary unit is configured to: preprocess the network access information from each gateway to obtain respective pre-processed network access information of each user.
  • the behavior analysis unit is configured to analyze the user behavior information of each user based on the pre-processed network access information of each user obtained by the information summary unit.
  • the user network behavior analysis device is a distributed computing cluster, and the compressed network access information from each gateway is obtained from a gateway or a collector connected to the gateway.
  • the user network behavior analyzing device continuously accesses network access information of one or more websites in a first preset time period as user behavior information corresponding to a network behavior event of the user.
  • FIG. 7 is a structural block diagram of a user network behavior analysis system according to Embodiment 3 of the present invention.
  • the composition of the system is described in detail below with reference to FIG.
  • the system includes:
  • each collector is connected to one or more of the gateways for collecting network access information of the network user from the gateway. as well as
  • the user network analyzing means is connected to the one or more collectors. Based on the obtained network access information of each user, the user behavior information of each user is analyzed.
  • the user behavior information of each user is analyzed.
  • each gateway in addition to obtaining network access information of the network user, it can also be used to uniquely identify the user identity.
  • user identity information such as cookie related information or user host identification information such as a computer MAC address may be utilized, and each user is assigned a unique identifier UID when the user accesses, and then each user accesses the gateway each time. You can identify the uniqueness of each user.
  • modules (means) or steps of the present invention described above can be implemented by a general-purpose computing device, which can be centralized on a single computing device or distributed among multiple computing devices.
  • they may be implemented by program code executable by the computing device, such that they may be stored in the storage device by the computing device, or they may be separately fabricated into individual integrated circuit modules, or they may be Multiple modules or steps in the fabrication are implemented as a single integrated circuit module.
  • the invention is not limited to any specific combination of hardware and software.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用户网络行为分析方法和系统,该方法包括以下步骤:获取来自不同网络位置的一个以上网关的用户的网络访问信息;对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;分别基于所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。本发明解决了现有技术中无法基于跨网通信的网络报文来分析用户网络行为的难题以及无法对用户访问除本网站外的其他网站的行为进行分析和/或无法对单个用户跨网访问不同的网站的行为进行分析的难题。

Description

一种用户网络行为分析方法、 装置和系统 技术领域
本发明涉及网络用户行为分析,尤其涉及网络用户行为的还原,具体地说, 涉及一种用户网络行为分析方法和系统。 背景技术
随着因特网的广泛应用和日益普及, 网络用户(以下筒称用户)已经数以亿计。 通常用户在浏览网站时, 会与网站服务器之间发送和接收经由因特网的报文。 图 1 为现有技术中用户与网站服务器进行交互的示意图, 用户利用不同类型的 用户终端, 通过因特网与不同网站服务器进行连接, 进行报文交互。 对用户浏 览网站的行为进行分析越来越受到关注, 用户行为分析可定义为: 根据用户的 历史行为, 对有关数据进行统计、 分析, 从而分析出用户的需求或用户可能即 将要做的事情。 相对应地, 可将利用网络报文还原用户行为理解为: 利用用户 的网络 ·艮文记录, 分析用户行为, 并试图还原用户的上网意图。
通过用户行为分析, 可发现目前网络营销活动中可能存在的问题, 并为 进一步修正或重新制定网络营销策略提供依据, 也可以更有针对性地提供各 种网络服务, 例如, 可以根据用户行为分析得出用户喜好, 在用户浏览网站时 弹出针对用户喜好的广告。 用户行为分析应该包含以下重点分析数据: 用户在 网站的停留时间、 跳出率、 回访者、 新访问者、 回访次数、 回访相隔天数; 注 册用户和非注册用户, 分析两者之间的浏览习惯; 用户所使用的搜索引擎、 关 键词、 关联关键词和站内关键字; 用户选择什么样的入口形式(广告或者网站 入口链接) 更为有效; 用户访问网站流程, 用来分析页面结构设计是否合理; 用户在页面上的网页热点图分布数据和网页覆盖图数据; 用户在不同时段的访 问量情况等。
一般而言, 网站服务器会对访问该网站的用户与该网站服务器之间的网络 报文进行日志数据记录, 并可以基于所记录的日志数据进行相应的用户行为分 析。 例如, 某搜索引擎网站 Α会记录用户的查询记录, 基于这些记录, 网站 A 可以分析用户的兴趣并建立用户轮廓, 当用户在网站 A进行进一步的关键字查 询时, 网站 A可以基于用户轮廓, 进行结果筛选, 将筛选的结果作为用户最想 要的结果返回给用户。
网站服务器会记录用户对本服务器的网络报文, 从而形成用户在本网站服 务器的访问记录, 称为用户的局部视图。 基于局部视图, 网站服务器可以进行 相应的用户行为分析。 这种用户行为分析是基于某个网站服务器, 但显然用户 实际并不限于访问这一个网站服务器, 因此这种用户行为分析仅为用户的局部 行为分析。 例如前文所述的, 搜索引擎网站可以基于局部视图建立用户轮廓, 优化其查询结果。
传统的用户行为分析主要基于单个网站服务器的网络报文信息, 而在当前 情况下, 网站数量数以百万计, 通常不同的用户因为各自不同的喜好, 浏览各 种各样的网站, 不同用户会访问不同的网站, 单个用户的^艮多行为通过跨网访 现今的复杂状况。 因此, 现有技术中存在无法有效地解决资源与需求矛盾的缺 点。 例^口:
1 )若各个网站以自身的局部视图进行用户行为分析, 将导致用于进行数据 分析的大量软硬件资源的重复配置和巨大的人力资源浪费;
2 )若网站为节省支出, 不进行相应的用户行为分析, 则可能导致漏掉大多 数用户行为分析, 进而导致用户友好性降低。
此外, 用户通常会在一段时间内访问多个网站, 而在现有技术中无法获取 用户的跨网访问信息, 因此无法获取用户访问各个网站服务器的全部网络报文, 称为用户的全局视图, 进而无法基于全局跨网网络报文信息还原用户行为。
发明内容
本发明通过布置于各个网络位置的多个网关, 可获取通过各个网关的所有 用户的通信网络报文, 从而能够基于全局用户信息来用户网络访问行为进行分 为了解决上述技术问题, 本发明提供了一种用户网络行为分析方法, 其特 征在于, 包括以下步骤: 步骤 Α: 获取来自不同网络位置的一个以上网关的用 户的网络访问信息; 步骤 Β: 对来自各所述网关的网络访问信息进行预处理, 以 获得各个用户各自的预处理后的网络访问信息; 步骤 C: 分别基于步骤 B所得 到各个用户各自的预处理后的网络访问信息, 分析得到各用户的用户行为信息。
进一步, 该方法还包括, 由与所述一个以上网关中的一个或多个相连接的 收集器或者所述一个以上网关对所述网络访问信息进行过滤, 以获得以数据元 组为基本信息单位表示的网络访问信息。
进一步, 该方法还包括, 所述数据元组的元素至少包括: 用户标识, 时间 点和网络报文。
进一步,该方法还包括,所述步骤 B和步骤 C均通过分布式计算集群实现。 进一步,该方法还包括,利用收集器从各所述网关获取所述网络访问信息; 以及利用所述分布式计算集群从所述收集器获取来自各所述网关的网络访问信 息。
进一步, 该方法还包括, 所述网关和 /或所述收集器按照设定规则存储所述 网络访问信息, 以及所述分布式计算集群根据所述设定规则生成用于下载所述 网络访问信息的网络地址。
进一步, 该方法还包括, 在所述步骤 C中, 将用户在第一预设时段内连续 访问一个或多个网站的网络访问信息, 作为与该用户的一个网络行为事件所对 应的用户行为信息。
进一步, 该方法还包括, 在所述步骤 C中, 统计用户在第二预设时段内针 对各种类型网站的访问频率, 作为表征该用户访问各类网站的偏好的用户行为 信息。
本发明还提供一种用户网络行为分析装置,其特征在于, 包括以下各单元: 信息获取单元: 用于获取来自不同网络位置的一个以上网关的用户的网络访问 信息; 信息汇总单元: 用于对来自各所述网关的网络访问信息进行预处理, 以 获得各个用户各自的预处理后的网络访问信息; 行为分析单元: 用于分别基于 信息汇总单元所得到各个用户各自的预处理后的网络访问信息, 分析得到各用 户的用户行为信息。
进一步, 该装置还包括, 所述用户网络行为分析装置为分布式计算集群, 从所述网关或从与所述网关相连接的收集器获取压缩后的来自各所述网关的网 络访问信息。 进一步, 该装置还包括, 所述用户网络行为分析装置将用户在第一预设时 段内连续访问一个或多个网站的网络访问信息作为与该用户的一个网络行为事 件所对应的用户行为信息。
本发明还提供一种用户网络行为分析系统, 其特征在于, 包括: 处于不同 网络位置的一个以上的网关; 一个以上的收集器, 各所述收集器与所述网关中 的一个或多个连接, 用于从各所述网关收集用户的网络访问信息, 以及根据如 前文所述的用户网络行为分析装置, 所述用户网络行为分析装置与所述一个以 上的收集器连接, 基于所得到各个用户各自的网络访问信息, 分析得到各用户 的用户行为信息。 进一步, 该系统还包括, 所述一个以上的网关根据用户身份 标识信息或者用户主机标识信息为每个用户分配一个唯一标识符。
与现有技术相比, 本发明至少具有以下优点:
现有技术从各自网站出发, 只能获取本网站的用户访问信息。 本发明引入 配置在不同网络位置的多个网关设备, 可以获取用户的通过多个网关的所有通 信网络报文, 从而解决了现有技术中无法基于跨网通信的网络报文来分析用户 网络行为的难题;
本发明提出了基于通信网络报文信息来还原用户行为的方法, 相比传统基 于访问日志来还原用户行为的方法, 本发明解决了传统的用户行为分析方法中 无法对用户访问除本网站外的其他网站的行为进行分析和 /或无法对单个用户跨 网访问不同的网站的行为进行分析的难题。 附图说明
附图用来提供对本发明的进一步理解, 并且构成说明书的一部分, 与本发 明的各实施例一起用于解释本发明, 并不构成对本发明的限制。 在附图中: 图 1为现有技术中用户与网站服务器进行交互的示意图;
图 2为根据本发明实施例一的用户网络行为分析的流程图;
图 3为本发明实施例一中用户与网站服务器进行数据交互的示意图; 图 4为本发明实施例一中根据图 3的数据交互方式的数据还原流程图; 图 5为根据本发明实施例一的用户网络行为分析实例的流程图;
图 6为根据本发明实施例二的用户网络行为分析系统的结构示意图; 图 7为根据本发明实施例三的用户网络行为分析系统的结构框图。 具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式, 借此对本发明如 何应用技术手段来解决技术问题, 并达成技术效果的实现过程能充分理解并据 以实施。 需要说明的是, 只要不构成沖突, 本发明中的各个实施例以及各实施 例中的各个特征可以相互结合, 所形成的技术方案均在本发明的保护范围之内。
另外, 在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计 算机系统中执行, 并且, 虽然在流程图中示出了逻辑顺序,但是在某些情况下, 可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图 2 为根据本发明实施例一的用户网络行为分析方法的流程图, 下面参照 图 2详细说明该方法的各步骤。
步骤 S110,获取来自不同网络位置的一个以上网关的用户的网络访问信息。 图 3 为本发明实施例一中用户与网站服务器进行数据交互的示意图, 图 4 为根据图 3 的数据交互方式的数据还原流程图。 在本实施例中, 在各服务器端 与各用户之间进行信息交互的因特网中部署有多个(两个以上) 网关。 这些网 关可位于不同的网络位置,服务于各自的网络, 用于提供协议转换、路由选择、 数据交换等, 在本发明中主要用于获取用户的网络访问信息。 更具体地, 不同 网络位置可以指不同的地理位置, 也可以指处于同一地理位置但处于不同网络 / 子网络位置。 此处的不同网络可以是不同的以太网子网、 不同的城域网或甚至 可以是不同的网络类型, 例如 3g网络或 LTE网络等无线网络。 此外, 这些网关 可以部署在与用户端或服务器端相同或不同的网络(子网) 中, 以及, 网关也 可以部署在与用户端或服务器端相同或不同的物理位置。
根据部署在不同网络位置的各网关, 能够在用户进行跨网络访问时 (对多 个网站访问, 涉及多个网站服务器时) , 获取相应的跨网络的网络访问信息。
各网关获取网络用户的网络访问信息, 在本实施例中, 网络访问信息可优 选地包括用户端发送给服务器端的请求信息, 以及服务器端针对该请求信息作 出响应的数据通信报文信息 (也称网络报文信息) 。 此外, 网络访问信息也可 包括来自各网站服务器的用户访问记录等。
优选的, 在每一个网关中, 除了可以获取网络用户的网络访问信息外, 还 能够用于对用户身份进行唯一标识。 具体的, 在网关中可以利用 cookie相关信 息等用户身份标识信息或者计算机 MAC地址等用户主机标识信息,在用户访问 时给每个用户分配一个唯一标识符 UID, 进而在每个用户每次访问网关时可以 标识每个用户的唯一性。 在此处对用户进行身份识别和标识, 可以使后续处理 中减轻负担, 在后续处理中, 仅将此处对用户进行的身份识别进行汇总和排序 即可, 无需增加额外的身份识别处理。
这些网关可对用户在某个时刻产生的网络访问信息进行过滤后存储为以数 据元组表示的网络访问信息, 例如, 数据元组可表示为 {用户标识,时间点,网址, 网络报文} , 也可以在未进行过滤的情况下, 将未过滤的网络访问信息直接传送 至收集器(下文将详细说明) 。
如图 4所示, 其中, 将从一个网关所获取的一个用户访问一个网页的网络 访问信息称为单点信息, 通过特定网页或网站的选择确定单点信息。 将从一个 以上网关所获取的一个用户的所有网络访问信息称为多点信息。
其中, 单点信息与多点信息均可以通过数据元组来表示, 为用户在一个或 多个时间点上产生的数据信息的集合。
需要强调的是, 在本发明中, 多点信息是用户访问多个网站服务器时产生 的网络访问信息, 既可以是从单一网络的两个网关获取的网络访问信息, 也可
各网关记录用户和网站服务器之间的通信细节, 数据元组是各网关收集网 络访问信息数据的基本信息单位。 可以从网关数据中过滤相关字段后获取以一 个数据元组表示的基本信息单位 {用户标识,时间点,网址,网络报文} ,其中时间点 表示用户发送 /接收该网络报文的时间点。
需要说明的是, 数据元组的格式不限于上述表示方式, 数据元组中的元素 也可以仅包括用户、 时间点、 网址这三个元素, 以及也可以包括除上述三个元 素之外的例如网络连接类型、 访问内容类型、 以及相关访问日志信息等元素。
根据本步骤, 从各个网关获取用户的单点信息和 /或多点信息。
S120, 对来自各网关的网络访问信息进行预处理, 以获得各个用户各自的 预处理后的网络访问信息。
更具体地, 分布式计算集群获取来自各网关的网络访问信息, 亦即可以在 分布式计算集群中对来自各个网关中的网络访问信息进行汇总, 然后并按照用 户标识(用户 ID )对所汇总的网络访问信息进行预处理, 以获得各个用户各自 的预处理后的网络访问信息。 其中, 优选的, 对先前步骤中对用户所分配的用 户 UID进行汇总和排序, 以用于汇总用户对应的网络访问信息。 换而言之, 经 过预处理后, 可得到与每个用户在各个时间点访问各个网站相关的网络访问信 息的集合。 其中, 所进行的预处理可包括依据用户 ID进行重组以获得针对各个 用户标识的网络访问信息, 还可包括对同一用户标识的网络访问信息按照时间 排序以获得针对各用户标识的按时间顺序排列的网络访问信息, 还可包括合并 处理, 例如, 可以得到某一时间段内, 访问某个网站的用户的集合, 并且, 可 以进一步根据用户所在地域、访问网站频道的不同,可以对这些用户进行细分, 从而完成对于用户群的行为探索。 例如, 可以采用适用于大规模数据集的并行 运算的编程模型例如 MapReduce编程模型等来进行依据用户 ID进行重组、合并 和按照时间排序。 具体的, 在 MapReduce编程模型中, 指定一个 Map (映射) 函数, 用来把一组键值对映射成一组新的键值对, 以及指定并发的 Reduce (化 筒) 函数, 用来保证所有映射的键值对中的每一个键值共享相同的键组。 以上 方式仅作为优选, 本实施例并不局限于此方式。
由此可得到, 每一个用户在一个时间序列内与各个网站的各个服务器之间 交互的详细网络访问信息。
优选地, 考虑到存在多个网关, 各个网关分别存储各自的网络访问信息数 据可能导致一定的负载不平衡及资源浪费。 为了整合(汇总)各个网关所存储 的网络访问信息数据或者包含这些数据的日志数据, 并将他们布置到分布式计 算集群中,还可以设置一组收集器,将各个收集器与一个或多个网关设备连接。 这样, 各网关可以不将网络访问信息存储在本地存储器中或者不将数据直接传 送至分布式计算集群, 而是将网络访问信息传送至与网关连接的收集器之一中, 而分布式计算集群从收集器中获取网络访问信息, 更具体地, 由分布式计算集 群中负责数据网络访问信息下载及存取、 汇总后数据写入等数据存取功能的节 点从收集器中获取网络访问信息。 增加设置一组收集器能够起到负载节点均衡 的作用, 并且减小了网关的负荷。 图 4示意性地示出了网关与收集器的数据传 输关系, 其中, 收集器与网关不限于一对一的关系。 为了减小传输网络访问信息的带宽消耗, 可以在将网络访问信息发送至分 布式计算集群之前对其进行压缩, 该压缩处理可由收集器或网关执行。 换而言 之, 优选地, 分布式计算集群获取压缩后的来自各网关的网络访问信息。 优选 地, 处于网络中各个节点的收集器中提供基于 http、 ftp和 /或其它网络协议的数 据下载服务, 分布式计算集群中的数据管理装置通过收集器提供的数据下载服 务获取压缩或未压缩的网络访问信息数据。
优选地, 可在收集器或网关中将网络访问信息按照设定的规则进行存储, 集器或网关中的网络访问信息数据的网络地址, 分布式计算集群根据所生成的 网络地址来获取来自网关的网络访问信息。
更具体地, 分布式计算机集群可包括一任务分发设备, 该任务分发设备可 以是一个物理实体或逻辑体, 负责任务的分发。 任务分发设备运行一个任务, 这个任务的输入源为所生成的网络地址。 在计算的分发阶段, 任务分发设备可 通过将网络地址分配给相应的计算机集群的各节点, 由各节点根据由任务分发 设备分发的网络地址将网络访问信息下载至节点各自的本地存储器。 从而实现 对来自各网关的用户网络访问信息 (单点信息和 /或多点信息)进行预处理, 以 获得预处理后的各个用户的网络访问信息。
例如, 上述设定的规则可以为一定的时间规律。 此时, 一方面, 收集器可 对所收集的网络访问信息按时间进行排序, 并以时间点来对一定时间段(例如
10分钟或者 20分钟等)内收集的数据以时间为文件名进行命名。 另一方面, 分 布式计算集群按照同样的规则来生成文件名, 并基于该文件名及各收集器的网 络地址来生成用于下载以该文件名存储的网络访问信息数据文件的网络地址。
再如, 上述设定的规则还可以为一定的文件大小规则。 此时, 一方面, 收 集器将网络访问信息存储为固定大小文件, 并对文件顺序编号, 另一方面, 分 布式计算集群按照同样的规则 (即顺序编号)来生成文件名。
此外, 在另一个实施例中, 也可以将网关数据过滤相关字段后获取以一个 数据元组表示的基本信息单位的操作设置在相应的收集器中。 也就是说, 此时 收集器所收集的数据为未经过滤的网关数据。
步骤 S130,分别基于步骤 S120所得到的各个用户各自的预处理后网络访问 信息, 分析各用户的用户行为信息。 本步骤所获得的用户行为信息是指用户在通过网络所进行的例如搜索、 广 告点击、 购物和 /或其它网络行为的信息。 其中, 用户行为信息不限于一段时间 内, 也可以是用户长期的一些喜好。
通常情况下, 单个用户的上网行为是在一个时间段内产生的, 其所产生的 通信网络报文通常对应于多点信息。 因此, 本发明的预处理后网络访问信息所 体现的是用户的多点信息, 亦即用户的多网站服务器甚至跨网络访问信息。 相 对于传统的基于单点信息的用户网络行为分析方法, 本发明基于多点信息来分 析用户的用户网络行为, 更能够全面地体现用户真实的网络访问行为, 能够为 服务提供商提供更有价值的用户行为信息。
作为一个优选实施例, 在本发明中, 可将某一用户在第一预设时段 (即第一 预设时间)内 (例如, 10分钟至 30分钟等)连续访问一个或多个网站的多点信 息作为与该用户的一个事件流 (网络行为事件)所对应的用户行为信息,并将所述 一个或多个网站视为该用户行为的关联网站。 例如, 用户进行网上购物时, 首 先会在网上调研欲购买物品的价格、 性能等, 然后选择某购物平台 (比如:淘宝 网或京东商城)进行相应的物品浏览与购买, 这个过程构成用户的一个网络行 为事件。 本实施例中利用用户的事件流特征, 基于体现多点信息的汇总数据还 原用户行为, 得到用户行为信息。
再如, 作为一个例子, 还可以将一用户在一个第二预设时段内 (即第二预 设时间, 例如, 数天或数十天等) 内针对各种类型网站的访问频率, 作为表征 用户访问各类网站的偏好等用户行为信息。
用户行为与很多因素相关联, 比如用户需求、 网站服务器提供的服务、 网 站服务器之间的关联度等, 这导致了用户行为的多样性与复杂性。 在本实施例 中, 通过以下描述, 以搜索引擎查询行为、 广告点击行为、 购物行为为例, 来 分析出用户行为信息。
1 )搜索引擎查询行为:
部署的网关可获取用户在搜索引擎的查询记录示例如下:
(用户 A,时间点 1,搜索引擎网址 B,查询的关键词 C)
(用户 A,时间点 2,点到的网址 D)
基于如上信息, 可以还原用户 A的搜索引擎查询行为, 即可以知晓用户 A 在时间点 1到时间点 2之间使用搜索引擎 B, 进行了关键词 C的查询, 并基于 查询结果, 点到相应的网址 D。
2 ) 广告点击行为:
与上例相似, 部署的网关可获取用户的广告点击记录示例如下:
(用户 A,时间点 1,广告所在的网址 B,广告 C的网址)
(用户 A,时间点 2,点到的广告 C网址)
基于如上信息, 可以还原用户 A的广告点击行为, 即可以知晓用户 A在时 间点 1到时间点 2之间在广告所在的网址 B, 进行了广告 C的点击。
3)购物行为
与以上各例相似, 部署的网关可获取用户的购物记录示例如下:
(用户 A,时间点 1,购物网址 B)
(用户 A,时间点 2,商品名 C,购物车网址)
(用户 A,时间点 3,支付页面网址)
基于如上信息, 可以还原用户 A的购物行为, 即可以知晓用户 A在时间点 1到时间点 3之间在购物网址 B购买了商品 C。
此外, 如果汇总数据中, 仅包含单个用户的单点信息, 则基于该单点信息 对用户行为进行还原以得到用户行为信息, 还原方法可类似于现有技术中的用 户行为还原方法, 但在本实施例中, 由于获取了通过部署在不同地理位置的网 关的所有用户的通信网络报文, 具有可对绝大多数用户进行用户行为分析的优 点, 因此, 即便仅对单点信息进行用户行为的还原, 也可解决现有技术中资源 与需求的矛盾。 下面将以搜索引擎查询行为为例, 说明用户行为还原的一个实例。
部署的网关可获取用户在搜索引擎的查询记录, 并且会为该用户分配一个 唯一的可以标识的用户 ID。 例如, 记录的形式为: visit_timeluser_idluser_iplarea lhostlurilrefer_engine_idlrefer_hostlrefer_urilrefer_keyword 各个字段的含义如下:
visit_time: 访问时间
user—id : 用户 id
user_ip : 用户 ip area: 用户地 i d
host: 用户访问网站
uri : 用户访问路径
refer_engine_id: refer搜索引擎 id: ( 00000000表示 refer不是搜索引擎) refer—host: refer host
refer_uril : refer全路径
refer_keyword : refer中的搜索明文
在某两个时刻, 用户请求搜索引擎的日志如下:
2011-03-10 11:00:01116004877421115.196.255.224l21020000lvideo.A.coml/
2011-03-10
H:00:05ll600487742ll l5.196.255.224l21020000lvideo.A.coml/d?m=uss&word= 鲜 花 1000000001 1 1
在某个时刻, 用户访问其他网站行为的日志如下所示:
2011-03-10
H:00:03ll600487742ll l5.196.255.224l21020000lvideo.B.coml/wiki/blog/aaa.htmll00 000001 lvideo.A.coml/d?m=uss&word=鲜花 I鲜花
在分布式计算集群中运行程序完成一个 Join操作, 可以将即将用户的搜索 行为和访问行为进行一个连接, 得到 16004877421 video. A.coml走西口 I video.B.coml/wiki blog/aaa.html。 至此, 可以还原用户的上网行为: uid 为 1600487742的网民, 在 A搜索引擎的首页上搜索 "鲜花" , 之后在 A的搜索结 果中点击了 B网站的一条地址为 http:〃 video.B.com/wiki/blog/aaa.html的 URL。
实施例二
图 6 为根据本发明实施例二的用户网络行为分析装置的结构框图。 下面参 照图 6详细说明该装置的组成。 该装置包括:
信息获取单元: 用于获取来自不同网络位置的一个以上网关的用户的网络 访问信息。 信息汇总单元: 用于对来自各网关的网络访问信息进行预处理, 以获得各 个用户各自的预处理后的网络访问信息。
行为分析单元: 用于分别基于信息汇总单元所得到各个用户各自的预处理 后的网络访问信息, 分析得到各用户的用户行为信息。
优选的, 该用户网络行为分析装置为一分布式计算集群, 从网关或从与网 关相连接的收集器获取压缩后的来自各网关的网络访问信息。 该用户网络行为 分析装置将一用户在第一预设时段内连续访问一个或多个网站的网络访问信息 作为与该用户的一个网络行为事件所对应的用户行为信息。
实施例三
图 7 为根据本发明实施例三的用户网络行为分析系统的结构框图。 下面参 照图 7详细说明该系统的组成。 该系统包括:
处于不同网络位置的一个以上的网关。
一个以上的收集器, 各收集器与网关中的一个或多个连接, 用于从网关收 集网络用户的网络访问信息。 以及
根据实施例二中描述的用户网络行为分析装置, 所述用户网络分析装置与 所述一个以上的收集器连接。 基于所得到各个用户的网络访问信息, 分析得到 各用户的用户行为信息。 优选的, 在每一个网关中, 除了可以获取网络用户的 网络访问信息外, 还能够用于对用户身份进行唯一标识。 具体的, 在网关中可 以利用 cookie相关信息等用户身份标识信息或者计算机 MAC地址等用户主机 标识信息, 在用户访问时给每个用户分配一个唯一标识符 UID, 进而在每个用 户每次访问网关时可以标识每个用户的唯一性。
本领域的技术人员应该明白, 上述的本发明的各模块(装置)或各步骤可 以用通用的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在 多个计算装置所组成的网络上, 可选地, 它们可以用计算装置可执行的程序代 码来实现, 从而, 可以将它们存储在存储装置中由计算装置来执行, 或者将它 们分别制作成各个集成电路模块, 或者将它们中的多个模块或步骤制作成单个 集成电路模块来实现。 这样, 本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上, 但所述的内容只是为了便于理解本发 明而采用的实施方式, 并非用以限定本发明。 任何本发明所属技术领域内的技 术人员, 在不脱离本发明所揭露的精神和范围的前提下, 可以在实施的形式上 及细节上作任何的修改与变化, 但本发明的专利保护范围, 仍须以所附的权利 要求书所界定的范围为准。

Claims

1、 一种用户网络行为分析方法, 其特征在于, 包括以下步骤: 步骤 A: 获取来自不同网络位置的一个以上网关的用户的网络访问信息; 步骤 B: 对来自各所述网关的网络访问信息进行预处理, 以获得各个用户各 自的预处理后的网络访问信息; 步骤 C: 分别基于步骤 B所得到各个用户各自的预处理后的网络访问信息, 分析得到各用户的用户行为信息。
2、 根据权利要求 1所述的方法, 其特征在于, 还包括: 由与所述一个以上网关中的一个或多个相连接的收集器或者所述一个以上 网关对所述网络访问信息进行过滤, 以获得以数据元组为基本信息单位表示的 网给访问信息。
3、 根据权利要求 2所述的方法, 其特征在于, 所述数据元组的元素至少包括: 用户标识, 时间点和网络 ·艮文。
4、 根据权利要求 1至 3任一项所述的方法, 其特征在于, 所述步骤 Β和步 骤 C均通过分布式计算集群实现。
5、 根据权利要求 4所述的方法, 其特征在于, 利用收集器从各所述网关获取所述网络访问信息; 以及 利用所述分布式计算集群从所述收集器获取来自各所述网关的网络访问信 息。
6、 根据权利要求 5所述的方法, 其特征在于, 所述网关和 /或所述收集器按照设定规则存储所述网络访问信息, 以及 所述分布式计算集群根据所述设定规则生成用于下载所述网络访问信息的 网络地址。
7、 根据权利要求 5或 6所述的方法, 其特征在于, 在所述步骤 C中, 将用户在第一预设时段内连续访问一个或多个网站的网络访问信息, 作为 与该用户的一个网络行为事件所对应的用户行为信息。
8、根据权利要求 5或 6任一项所述的方法,其特征在于,在所述步骤 C中, 统计用户在第二预设时段内针对各种类型网站的访问频率, 作为表征该用 户访问各类网站的偏好的用户行为信息。
9、 一种用户网络行为分析装置, 其特征在于, 包括以下各单元: 信息获取单元: 用于获取来自不同网络位置的一个以上网关的用户的网络 访问信息; 信息汇总单元: 用于对来自各所述网关的网络访问信息进行预处理, 以获 得各个用户各自的预处理后的网络访问信息; 行为分析单元: 用于分别基于信息汇总单元所得到各个用户各自的预处理 后的网络访问信息, 分析得到各用户的用户行为信息。
10、 根据权利要求 9所述的用户网络行为分析装置, 其特征在于, 所述用户网络行为分析装置为分布式计算集群, 从所述网关或从与所述网 关相连接的收集器获取压缩后的来自各所述网关的网络访问信息。
11、 根据权利要求 9所述的用户网络行为分析装置, 其特征在于, 所述用户网络行为分析装置将用户在第一预设时段内连续访问一个或多 个网站的网络访问信息作为与该用户的一个网络行为事件所对应的用户行为信 息。
12、 一种用户网络行为分析系统, 其特征在于, 包括: 处于不同网络位置的一个以上的网关; 一个以上的收集器, 各所述收集器与所述网关中的一个或多个连接, 用于 从各所述网关收集用户的网络访问信息, 以及 根据权利要求 9至 11中任一项所述的用户网络行为分析装置, 所述用户网 络行为分析装置与所述一个以上的收集器连接, 基于所得到各个用户各自的网 络访问信息, 分析得到各用户的用户行为信息。
1 3、 根据权利要求 12所述的系统, 其特征在于, 所述一个以上的网关根据用户身份标识信息或者用户主机标识信息为每个 用户分配一个唯一标识符。
PCT/CN2011/084922 2011-09-29 2011-12-29 一种用户网络行为分析方法、装置和系统 WO2013044564A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2011103005215A CN102364468A (zh) 2011-09-29 2011-09-29 一种用户网络行为分析方法、装置和系统
CN201110300521.5 2011-09-29

Publications (1)

Publication Number Publication Date
WO2013044564A1 true WO2013044564A1 (zh) 2013-04-04

Family

ID=45691034

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/084922 WO2013044564A1 (zh) 2011-09-29 2011-12-29 一种用户网络行为分析方法、装置和系统

Country Status (2)

Country Link
CN (1) CN102364468A (zh)
WO (1) WO2013044564A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873583A (zh) * 2014-03-24 2014-06-18 北京聚思信息咨询有限公司 基于云平台针对互联网用户行为进行分析的方法和系统
CN106651016A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种热点话题下动态预测用户行为的系统及方法
WO2018121501A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 网站访客行为监测方法及装置
CN109377161A (zh) * 2018-09-24 2019-02-22 宁波市轨道交通集团有限公司 一套用于城市轨道交通行业办公数据采集与用户行为分析的系统

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546305B (zh) * 2012-07-13 2018-04-27 中兴通讯股份有限公司 网络质量信息的统计方法及系统
CN103595692B (zh) * 2012-08-13 2018-01-02 中兴通讯股份有限公司 一种通过家庭网关分析用户网络行为的方法和系统
CN102984234B (zh) * 2012-11-19 2016-06-01 北京奇虎科技有限公司 一种通信系统和网络内容的访问控制方法
CN103020126B (zh) * 2012-11-19 2016-01-13 北京奇虎科技有限公司 网络内容的访问控制方法和装置
CN103916255B (zh) * 2012-12-30 2017-12-19 航天信息股份有限公司 对多个服务应用系统进行统一管理的方法和系统
CN103118111B (zh) * 2013-01-31 2017-02-08 北京百分点信息科技有限公司 一种基于多个数据交互中心的数据进行信息推送的方法
CN103248677B (zh) * 2013-04-24 2016-01-27 深圳天源迪科信息技术股份有限公司 互联网行为分析系统及其工作方法
CN103227791B (zh) * 2013-04-26 2016-04-13 亿赞普(北京)科技有限公司 一种无线数据采集的方法及装置
CN103761296A (zh) * 2014-01-20 2014-04-30 北京集奥聚合科技有限公司 移动终端用户网络行为分析方法及系统
CN103780690B (zh) * 2014-01-20 2015-09-30 北京集奥聚合科技有限公司 用户数据的安全共享方法和系统
US9301126B2 (en) 2014-06-20 2016-03-29 Vodafone Ip Licensing Limited Determining multiple users of a network enabled device
CN104486350B (zh) * 2014-12-24 2017-11-10 电子科技大学 一种基于用户行为的网络内容加速方法
CN104679870B (zh) * 2015-03-06 2018-01-30 成都维远艾珏信息技术有限公司 一种用于信息系统的数据获取的方法
CN104639565B (zh) * 2015-03-06 2017-11-10 成都维远艾珏信息技术有限公司 一种从服务器访问资源的方法
CN104657491B (zh) * 2015-03-06 2017-11-24 成都维远艾珏信息技术有限公司 一种向客户端发送数据的方法
TWI629652B (zh) * 2015-04-30 2018-07-11 酷盈有限公司 Intelligent network marketing analysis and judgment method
CN106295832B (zh) * 2015-05-12 2020-05-19 阿里巴巴集团控股有限公司 产品信息推送方法及装置
CN104836707A (zh) * 2015-06-04 2015-08-12 郑州悉知信息技术有限公司 一种用户在线情况检测方法、服务器、客户端及系统
CN105357054B (zh) * 2015-11-26 2019-01-29 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备
CN105491158B (zh) * 2016-01-15 2018-12-25 成都科来软件有限公司 一种基于网络数据流的http内容还原方法及系统
TWI611362B (zh) * 2016-06-29 2018-01-11 個人化網路行銷推薦方法
CN108093013B (zh) * 2016-11-23 2020-06-16 北京国双科技有限公司 一种网页数据计算方法及服务器
CN106656577B (zh) * 2016-11-24 2019-07-09 中国通信建设集团设计院有限公司 一种app及浏览器的用户行为统计方法及智能路由器
CN107329992A (zh) * 2017-06-07 2017-11-07 上海斐讯数据通信技术有限公司 一种网站分类排名的管理方法及管理系统
TWI680666B (zh) * 2017-12-28 2019-12-21 智媒科技股份有限公司 網路使用者身份辨識方法與系統
CN110011918B (zh) * 2018-01-04 2020-08-18 中国科学院声学研究所 一种路由器协作的网址安全性检测方法及系统
CN108664552A (zh) * 2018-04-02 2018-10-16 拉扎斯网络科技(上海)有限公司 一种用户偏好挖掘方法及装置
CN108846034A (zh) * 2018-05-28 2018-11-20 贵州中科恒运软件科技有限公司 一种关于用户行为分析的方法
CN109063158B (zh) * 2018-08-10 2021-04-27 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078725A1 (en) * 2005-09-09 2007-04-05 Marketsync, Inc. Integrated customer fulfillment management
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655868B (zh) * 2009-09-03 2012-08-22 中国人民解放军信息工程大学 网络数据挖掘方法、网络数据推送方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078725A1 (en) * 2005-09-09 2007-04-05 Marketsync, Inc. Integrated customer fulfillment management
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103873583A (zh) * 2014-03-24 2014-06-18 北京聚思信息咨询有限公司 基于云平台针对互联网用户行为进行分析的方法和系统
CN106651016A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种热点话题下动态预测用户行为的系统及方法
CN106651016B (zh) * 2016-12-13 2020-08-04 重庆邮电大学 一种热点话题下动态预测用户行为的系统及方法
WO2018121501A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 网站访客行为监测方法及装置
CN108270629A (zh) * 2016-12-29 2018-07-10 北京国双科技有限公司 网站访客行为监测方法及装置
CN109377161A (zh) * 2018-09-24 2019-02-22 宁波市轨道交通集团有限公司 一套用于城市轨道交通行业办公数据采集与用户行为分析的系统

Also Published As

Publication number Publication date
CN102364468A (zh) 2012-02-29

Similar Documents

Publication Publication Date Title
WO2013044564A1 (zh) 一种用户网络行为分析方法、装置和系统
CN101192227B (zh) 一种基于分布式计算网络的日志文件分析方法和系统
KR102082355B1 (ko) 대용량 네트워크 데이터의 처리 기법
Losarwar et al. Data preprocessing in web usage mining
US8984047B2 (en) Targeted content delivery mechanism based on network application data
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN103685590B (zh) 获取ip地址的方法及系统
WO2016118876A1 (en) Messaging and processing high volume data
CN107135236A (zh) 一种目标域名劫持的检测方法和系统
WO2010144605A1 (en) System and method to enable tracking of consumer behavior and activity
CN103338260B (zh) 网络审计中url日志的分布式分析系统及分析方法
JP2004507908A (ja) ネットワーク使用監視装置及びそれに関連する方法
CN101561825A (zh) 媒体技术平台系统、数据采集系统和网络内容提供方法
CN101572629A (zh) 一种ip数据的处理方法及装置
EP2454867A1 (en) Providing content by using a social network
CN107103062A (zh) 一种网页推荐方法及系统
Pujol et al. Back-office web traffic on the internet
CN110659414A (zh) 一种基于用户画像的个性化信息推送方法及用户端
CN108900581A (zh) 一种大型网站的关键特征知识库的建立方法
KR102009020B1 (ko) 검색 엔진으로 웹 사이트 인증 데이터를 제공하기 위한 방법 및 장치
Dickerson et al. Stream feeds-an abstraction for the world wide sensor web
CN104202418B (zh) 为内容提供商推荐商业的内容分发网络的方法和系统
Ivancsy et al. Analysis of web user identification methods
CN104253875B (zh) 一种dns流量分析方法
CN106326280B (zh) 数据处理方法、装置及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11873273

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11873273

Country of ref document: EP

Kind code of ref document: A1