WO2014000293A1 - 用户行为的获取方法、设备及系统 - Google Patents

用户行为的获取方法、设备及系统 Download PDF

Info

Publication number
WO2014000293A1
WO2014000293A1 PCT/CN2012/077984 CN2012077984W WO2014000293A1 WO 2014000293 A1 WO2014000293 A1 WO 2014000293A1 CN 2012077984 W CN2012077984 W CN 2012077984W WO 2014000293 A1 WO2014000293 A1 WO 2014000293A1
Authority
WO
WIPO (PCT)
Prior art keywords
url
user
initiated
database
user equipment
Prior art date
Application number
PCT/CN2012/077984
Other languages
English (en)
French (fr)
Inventor
胡玉胜
张晶
张晋兴
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to PCT/CN2012/077984 priority Critical patent/WO2014000293A1/zh
Priority to CN201280000909.6A priority patent/CN102870118B/zh
Priority to EP12879876.6A priority patent/EP2857987A4/en
Priority to JP2015518768A priority patent/JP6103325B2/ja
Publication of WO2014000293A1 publication Critical patent/WO2014000293A1/zh
Priority to US14/584,649 priority patent/US20150120692A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to communications technologies, and in particular, to a method, device, and system for acquiring user behavior. Background technique
  • the Uniform Resource Locator also known as the web address, is the address of a standard resource on the Internet.
  • User equipment access to the Internet is usually achieved by accessing the URL through the Hyper Text Transfer Protocol (HTTP).
  • HTTP Hyper Text Transfer Protocol
  • the URL initiated by the user equipment may be divided into a URL initiated by the user and a URL automatically initiated by the user equipment.
  • the server when the user accesses the webpage, the user equipment initiates the URL request, and the server usually sends a webpage including the URL link to the user equipment, and after the user equipment parses the webpage, the server automatically sends the webpage to the server or The other server initiates a URL request corresponding to the URL link.
  • the user From the user's point of view, the user only initiated a URL request through the user device and obtained the content of the web page. However, from a network forwarding device, such as a gateway, a router, etc., and a server, multiple URL requests initiated by the user equipment are received.
  • the URL requests include a URL initiated by the user and a URL automatically initiated by the user equipment.
  • the network forwarding device or the server can determine whether the URL initiated by the user equipment is a URL automatically initiated by the user equipment, so as to obtain the behavior of the user actively initiating the URL request, and perform further user behavior analysis.
  • the embodiment of the invention provides a method, a device and a system for acquiring a user behavior, which are used for quickly and accurately obtaining a behavior of a user actively initiating a URL request.
  • it provides a method for obtaining user behavior, including: Obtaining a URL request sent by the user equipment;
  • the database stores the user initiative identified by using the network crawling technology. The URL that was initiated.
  • Another aspect provides a device for acquiring user behavior, including:
  • An obtaining unit configured to obtain a URL request sent by the user equipment
  • a determining unit configured to: when the URL included in the URL request matches a URL initiated by the corresponding user in the database, determining that the URL request is initiated by the user, and the database stores the identifier by using a web crawler technology The obtained URL initiated by the user.
  • Another aspect provides an acquisition system for user behavior, including a user device and a capture device of the user behavior described above.
  • the embodiment of the present invention matches the obtained URL request with the database, where the database stores the URL initiated by the user by using the web crawler technology, if the URL request includes If the URL matches the URL initiated by the corresponding user in the database, the URL request may be initiated by the user, and the network forwarding device or the server may quickly and accurately obtain the behavior of the user actively initiating the URL request, so as to perform more Further analysis of user behavior.
  • FIG. 1 is a schematic flowchart of a method for acquiring user behavior according to an embodiment of the present invention
  • FIG. 2 is a schematic structural diagram of a device for acquiring user behavior according to another embodiment of the present invention
  • the method, device and system for acquiring user behavior provided by the embodiments of the present invention can be applied to use
  • the URL is in the network as the network resource address.
  • the request initiated by the user refers to a URL initiated by the user manually.
  • the user enters a URL initiated by the URL in the address bar of the browser, and the user actively initiates the URL link in the webpage by clicking the mouse. URL, etc.;
  • the URL automatically initiated by the user equipment refers to the webpage automatically returned by the user equipment according to the webpage returned by the server response, or directly after obtaining the URL in the webpage by operation, without the user's manual intervention, wherein the operation includes the execution of the program.
  • FIG. 1 is a schematic flowchart of a method for acquiring a user behavior according to an embodiment of the present invention. As shown in FIG. 1, the method for acquiring user behavior in this embodiment may include:
  • the URL included in the URL request matches the URL initiated by the corresponding user in the database, determining that the URL request is initiated by the user, and the database stores the identifier that is identified by using a web crawler technology. The URL initiated by the user.
  • execution bodies of the 101 and 102 may include, but are not limited to, a network forwarding device or a server.
  • the network forwarding device refers to an intermediate device that forwards information between the user device and the server, such as a gateway or a router.
  • the gateway is used as an execution entity, and after receiving the URL request sent by the user equipment, the gateway may obtain the packet requested by the URL according to the deep packet detection technology.
  • the URL included in the URL request is used as an execution entity, and after receiving the URL request sent by the user equipment, the gateway may obtain the packet requested by the URL according to the deep packet detection technology.
  • the URL included in the URL request is used as an execution entity, and after receiving the URL request sent by the user equipment, the gateway may obtain the packet requested by the URL according to the deep packet detection technology.
  • the URL included in the URL request is used as an execution entity
  • the URL request may be initiated by the user, or may be initiated automatically by the user equipment.
  • a URL that is sent by the user equipment and is initiated by the user by inputting a URL in a address bar of the browser may be specifically acquired.
  • a URL that is sent by the user equipment and is initiated by the user by clicking a URL link in the webpage by using a mouse is specifically acquired.
  • the user equipment sent by the user equipment obtains a URL automatically initiated by the URL by operation.
  • the obtaining the URL in the webpage by the operation may be implemented by executing a program in the webpage.
  • the URL request sent by the user equipment by using the URL directly by the user equipment may be specifically obtained.
  • obtaining the URL directly from the web page can be achieved by matching the regular expression.
  • the web crawling technology may be further utilized to analyze the target webpage, and identify the URL initiated by the user; and then, the identified user initiative The initiated URL is stored in the database.
  • the web crawling technology may be further used to analyze the target webpage, and the URL automatically initiated by the user equipment is identified; and then the identified The URL automatically generated by the user equipment is stored in the database; correspondingly, after 101, the method further includes: if the URL included in the URL request matches the URL automatically initiated by the corresponding user equipment in the database, determining The URL request is automatically initiated by the user equipment.
  • the identified association relationship between the URL initiated by the user and the URL automatically initiated by the user equipment may be further stored in the database, thereby enabling Performing a web-based access-based service quality assessment based on the association relationship.
  • the web crawling technology is a program for automatically extracting a webpage, which starts from a URL of one or several target webpages (ie, a URL of a seed webpage) by using a specified domain name, and obtains a URL on the target webpage, During the process of fetching a web page, a new URL is continuously extracted from the current page and placed in a queue.
  • a new URL is continuously extracted from the current page and placed in a queue.
  • two types of URLs can be identified: one is a URL that requires the user to actively click to obtain the webpage corresponding to the URL, and the other is a framework-based webpage mode, where the URL is directly loaded.
  • the URL of the web page may include the following:
  • the URL identifying the seed webpage is a URL initiated by the user, and in order to obtain the entire seed webpage, URLs embedded in the framework may be triggered, and the URLs are identified as URLs automatically initiated by the user equipment. Analyze the content on the returned webpage, obtain the URL above the webpage, and identify it as the URL that the new user actively accesses. Repeat the above until there is no more access The URL is up.
  • the network crawler technology may specifically include technologies such as breadth priority, depth priority, or prevention of infinite loop access, and details are not described herein.
  • the database stores the URL initiated by the user by using the web crawler technology, if the URL included in the URL request is in the database. If the URL is initiated by the user, the URL request is initiated by the user, and the network forwarding device or the server can quickly and accurately obtain the behavior of the user actively initiating the URL request, so as to perform further user behavior. For example, the number of hotspot link clicks may be analyzed according to the URL initiated by the user, and for example, the URL initiated by the user may be recorded to reduce the storage amount of the user URL access log.
  • FIG. 2 is a schematic flowchart of a device for acquiring user behavior according to another embodiment of the present invention, such as
  • the obtaining unit 21 is configured to obtain a URL request sent by the user equipment, where the determining unit 22 is configured to determine that the URL request is a user when the URL included in the URL request matches a URL initiated by the corresponding user in the database. Actively initiated, the database stores a URL initiated by the user that is identified by using a web crawler technology.
  • the URL request may be initiated by the user, or may be initiated automatically by the user equipment.
  • the obtaining unit 21 may specifically obtain a URL that is sent by the user equipment and is initiated by the user by inputting a URL in a address bar of the browser.
  • the obtaining unit 21 may specifically acquire a URL that is sent by the user equipment and is initiated by the user by clicking a URL link in the webpage by using a mouse.
  • the obtaining unit 21 may be configured to obtain, by the user equipment, the URL that is automatically initiated by the user equipment by using the operation.
  • the obtaining the URL in the webpage by the operation may be implemented by executing a program in the webpage.
  • the acquiring unit 21 may be configured to obtain the U RL request that is automatically initiated by the user equipment by using the U RL directly by the user equipment. Among them, obtaining the URL directly from the web page can be achieved by matching the regular expression.
  • the user behavior obtaining apparatus may further include an identifying unit 31, configured to use a web crawler technology, to target webpages. Performing an analysis, identifying a URL automatically initiated by the user equipment, and storing the identified U RL automatically initiated by the user equipment into the database.
  • the identifying unit 31 may further analyze the target webpage by using a web crawler technology, identify a URL automatically initiated by the user equipment, and identify the user equipment.
  • the automatically initiated URL is stored in the database; correspondingly, the determining unit 22 is further configured to determine, when the U RL included in the U RL request matches the U RL automatically initiated by the corresponding user equipment in the database, The U RL request is automatically initiated by the user equipment.
  • the identifying unit 31 may further store, in the database, an association relationship between the identified URL initiated by the user and the URL automatically initiated by the user equipment. Thereby enabling a web page access based service quality assessment based on the association relationship.
  • the URL request obtained by the obtaining unit is matched with the database by the determining unit, where the URL that is actively generated by the user identified by using the web crawling technology is stored in the database, and the URL included in the URL request is included in the database. If the URL is matched to the URL initiated by the corresponding user, the URL request may be initiated by the user, and the network forwarding device or the server may quickly and accurately obtain the behavior of the user actively initiating the URL request, so as to further User behavior analysis.
  • Another embodiment of the present invention provides a system for acquiring user behavior, including a user equipment and an apparatus for acquiring user behavior provided by any one of the embodiments corresponding to FIG. 2 and the embodiment corresponding to FIG. 3 .
  • the disclosed systems, devices, and methods may be implemented in other ways.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored, or not executed.
  • the coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be electrical, mechanical or otherwise.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the above software functional units are stored in a storage medium and include a number of instructions for causing a computer device (which may be a personal computer, server, or network device, etc.) to perform part of the steps of the method of the various embodiments of the present invention.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like, which can store program code. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种用户行为的获取方法、设备及系统。本发明实施例通过将获取的URL请求与数据库进行匹配,所述数据库中存储有利用网络爬虫技术识别得到的所述用户主动发起的URL,若所述URL请求中包含的URL在数据库中匹配到对应的用户主动发起的URL,则可以确定所述URL请求是用户主动发起的,能够使网络转发设备或服务器快速、准确的获取用户主动发起URL请求的行为,以便进行更进一步的用户行为分析。

Description

用户行为的获取方法、 设备及系统
技术领域 本发明涉及通信技术, 尤其涉及一种用户行为的获取方法、设备及系统。 背景技术
统一资源定位符( Uniform Resource Locator, URL )也被称为网页地址, 是因特网 ( Internet )上标准的资源的地址。 用户设备访问 Internet通常是通 过超文本传输协议 ( Hyper Text Transfer Protocol, HTTP )访问 URL来实现 的。 用户设备发起的 URL可分为用户主动发起的 URL和用户设备自动发起的 URL。 例如, 在基于框架的网页模式下, 当用户访问网页时, 用户设备发起 URL请求, 服务器通常会向用户设备下发一个包含 URL链接的网页, 用户设 备解析该网页后, 会自动向该服务器或者其它服务器发起该 URL链接对应的 URL请求。 从用户角度来看, 用户通过用户设备只发起了一次 URL请求, 获 得了网页的内容。 但是从网络转发设备, 例如网关、 路由器等, 和服务器的 角度来看, 会接收到用户设备发起的多次 URL请求, 这些 URL请求包括用户 主动发起的 URL和用户设备自动发起的 URL。
一般而言, 网络转发设备或者服务器通过解析网页可以确定用户设备发 起的 URL是否为用户设备自动发起的 URL, 以便获取用户主动发起 URL请求 的行为, 进行更进一步的用户行为分析。
对于网络转发设备或者服务器而言, 解析网页需要占用大量计算资源和 吞吐量, 耗时较长。 此外, 一些 URL链接需执行脚本程序后才能生成, 可能 会造成部分 URL无法获取, 导致获取用户主动发起 URL请求的行为的结果 不准确。 发明内容
本发明实施例提供一种用户行为的获取方法、 设备及系统, 用于快速、 准确的获取用户主动发起 URL请求的行为。
一方面提供了一种用户行为的获取方法, 包括: 获取用户设备发送的 URL请求;
若所述 URL请求中包含的 URL在数据库中匹配到对应的用户主动发起 的 URL, 确定所述 URL请求是用户主动发起的, 所述数据库中存储有利用 网络爬虫技术识别得到的所述用户主动发起的 URL。
另一方面提供了一种用户行为的获取设备, 包括:
获取单元, 用于获取用户设备发送的 URL请求;
确定单元, 用于当所述 URL请求中包含的 URL在数据库中匹配到对应 的用户主动发起的 URL时, 确定所述 URL请求是用户主动发起的, 所述数 据库中存储有利用网络爬虫技术识别得到的所述用户主动发起的 URL。
另一方面提供了一种用户行为的获取系统, 包括用户设备和上述用户行 为的菝取设备。
由上述技术方案可知,本发明实施例通过将获取的 URL请求与数据库进 行匹配, 所述数据库中存储有利用网络爬虫技术识别得到的所述用户主动发 起的 URL, 若所述 URL请求中包含的 URL在数据库中匹配到对应的用户主 动发起的 URL, 则可以确定所述 URL请求是用户主动发起的, 能够使网络 转发设备或服务器快速、 准确的获取用户主动发起 URL请求的行为, 以便进 行更进一步的用户行为分析。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍, 显而易见地, 下 面描述中的附图是本发明的一些实施例, 对于本领域普通技术人员来讲, 在 不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明一实施例提供的用户行为的获取方法的流程示意图; 图 2为本发明另一实施例提供的用户行为的获取设备的结构示意图; 图 3为本发明另一实施例提供的用户行为的获取设备的结构示意图。 具体实施方式 为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例, 都属于本发明保护的范围。
本发明实施例提供的用户行为的获取方法、 设备及系统可应用在使用
URL作为网络资源地址的网络中。 本发明实施例中, 用户主动发起的请求是 指用户通过手动方式发起的 URL, 例如: 用户在浏览器的地址栏中输入 URL 主动发起的 URL、用户通过鼠标点击网页中的 URL链接主动发起的 URL等; 用户设备自动发起的 URL是指用户设备根据服务器响应返回的网页,直接或 者通过运算获得网页中的 URL后, 无需用户手动干预, 自动发起的 URL, 其中, 运算包括程序的执行。
图 1 为本发明一实施例提供的用户行为的获取方法的流程示意图, 如图 1所示, 本实施例的用户行为的获取方法可以包括:
101、 获取用户设备发送的 URL请求。
102、若所述 URL请求中包含的 URL在数据库中匹配到对应的用户主动 发起的 URL, 确定所述 URL请求是用户主动发起的, 所述数据库中存储有 利用网络爬虫技术识别得到的所述用户主动发起的 URL。
需要说明的是, 所述 101与 102的执行主体可以包括但不限于网络转发 设备或服务器。 其中, 网络转发设备是指在用户设备与服务器之间转发信息 的中间设备, 例如: 网关或路由器等。
可选地, 在本实施例的一个可选实施方式中, 以网关作为执行主体为例, 网关接收到用户设备发送的 URL请求后, 可以基于深度包检测技术解析该 URL请求的报文来获取所述 URL请求中包含的 URL。
在使用 URL的网络中, URL请求可以是用户主动发起的, 或者还可以 是用户设备自动发起的。
可选地, 在本实施例的一个可选实施方式中, 在 101 中, 具体可以获取 用户设备发送的用户通过在浏览器的地址栏中输入 URL主动发起的 URL。
可选地, 在本实施例的一个可选实施方式中, 在 101 中, 具体可以获取 用户设备发送的用户通过鼠标点击网页中的 URL链接主动发起的 URL。
可选地, 在本实施例的一个可选实施方式中, 在 101 中, 具体可以获取 用户设备发送的所述用户设备通过运算得到 URL 自动发起的 URL。 其中, 通过运算获得网页中的 URL, 可以是执行网页中的程序来实现。
可选地, 在本实施例的一个可选实施方式中, 在 101 中, 具体可以获取 用户设备发送的所述用户设备通过直接得到 URL自动发起的所述 URL请求。 其中, 直接从网页中获得 URL, 可以通过匹配正则表达式来实现。
可选地, 在本实施例的一个可选实施方式中, 在 102之前, 还可以进一 步利用网络爬虫技术, 对目标网页进行分析, 识别出用户主动发起的 URL; 然后, 将识别出的用户主动发起的 URL存储到所述数据库中。
可选地, 在本实施例的一个可选实施方式中, 在 102之前, 还可以进一 步利用网络爬虫技术, 对目标网页进行分析, 识别出用户设备自动发起的 URL; 然后, 将识别的所述用户设备自动发起的 URL存储到所述数据库中; 相应地, 在 101之后, 还可以进一步包括: 若所述 URL请求中包含的 URL 在数据库中匹配到对应的用户设备自动发起的 URL, 确定所述 URL请求是 所述用户设备自动发起的。
可选地, 在本实施例的一个可选实施方式中, 还可以进一步将识别出的 用户主动发起的 URL与所述用户设备自动发起的 URL的关联关系存储到所 述数据库中, 从而使得能够根据所述关联关系进行基于网页访问的业务质量 评估。
本实施例中, 所述网络爬虫技术是一个自动提取网页的程序, 它通过指 定的域名, 从一个或若干目标网页的 URL (即种子网页的 URL )开始, 获得 目标网页上的 URL, 在抓取网页的过程中, 不断从当前页面上抽取新的 URL 放入队列。 通过每个 URL对应的网页的提取行为, 可以识别出两类 URL: 一类是需要用户主动点击才能获取 URL对应的网页的 URL, 另一类为基于 框架的网页模式下, 直接加载 URL对应的网页的 URL。 具体地, 所述网络 爬虫的一般行为可以包括如下:
确定一个网页即目标网页的 URL作为种子, 从种子网页开始, 获取种子 网页的内容。 这时, 则识别种子网页的 URL为用户主动发起的 URL, 而为 了获取整个种子网页, 可能会触发嵌入在框架中的 URL, 这些 URL则识别 为用户设备自动发起的 URL。分析返回网页上的内容,获取网页上面的 URL, 识别为新的用户主动访问的 URL。 重复以上操作, 直到没有可继续访问的 URL为止。
其中, 网络爬虫技术具体可以包括广度优先、 深度优先或防止死循环访 问等技术, 此处不再赘述。
本实施例中, 通过将获取的 U RL请求与数据库进行匹配, 所述数据库中 存储有利用网络爬虫技术识别得到的所述用户主动发起的 URL,若所述 URL 请求中包含的 URL在数据库中匹配到对应的用户主动发起的 URL, 则可以 确定所述 URL请求是用户主动发起的, 能够使网络转发设备或服务器快速、 准确的获取用户主动发起 URL请求的行为, 以便进行更进一步的用户行为分 析, 例如, 可以根据用户主动发起的 URL, 以进行热点链接点击数量分析, 再例如, 可以对用户主动发起的 URL进行记录, 以降低用户 URL访问日志 的存储量。
需要说明的是: 对于前述的各方法实施例, 为了简单描述, 故将其都表 述为一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描 述的动作顺序的限制, 因为依据本发明, 某些步骤可以釆用其他顺序或者同 时进行。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属 于优选实施例, 所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有 详述的部分, 可以参见其他实施例的相关描述。
图 2为本发明另一实施例提供的用户行为的获取设备的流程示意图, 如
22。 其中, 获取单元 21 用于获取用户设备发送的 URL请求; 确定单元 22 用于当所述 URL请求中包含的 URL在数据库中匹配到对应的用户主动发起 的 URL时, 确定所述 URL请求是用户主动发起的, 所述数据库中存储有利 用网络爬虫技术识别得到的所述用户主动发起的 URL。
在使用 URL的网络中, URL请求可以是用户主动发起的, 或者还可以 是用户设备自动发起的。
可选地,在本实施例的一个可选实施方式中, 获取单元 21具体可以获取 用户设备发送的用户通过在浏览器的地址栏中输入 URL主动发起的 URL。
可选地,在本实施例的一个可选实施方式中, 获取单元 21具体可以获取 用户设备发送的用户通过鼠标点击网页中的 URL链接主动发起的 URL。 可选地,在本实施例的一个可选实施方式中, 获取单元 21具体可以获取 用户设备发送的所述用户设备通过运算得到 URL 自动发起的 URL。 其中, 通过运算获得网页中的 URL, 可以是执行网页中的程序来实现。
可选地,在本实施例的一个可选实施方式中, 获取单元 21具体可以获取 用户设备发送的所述用户设备通过直接得到 U RL自动发起的所述 U RL请求。 其中, 直接从网页中获得 URL, 可以通过匹配正则表达式来实现。
可选地, 在本实施例的一个可选实施方式中, 如图 3所示, 本实施例提 供的用户行为的获取设备还可以进一步包括识别单元 31 , 用于利用网络爬虫 技术, 对目标网页进行分析, 识别出用户设备自动发起的 URL, 并将识别的 所述用户设备自动发起的 U RL存储到所述数据库中。
可选地,在本实施例的一个可选实施方式中,识别单元 31还可以进一步 利用网络爬虫技术,对目标网页进行分析,识别出用户设备自动发起的 URL, 并将识别的所述用户设备自动发起的 URL存储到所述数据库中; 相应地, 确 定单元 22还可以用于当所述 U RL请求中包含的 U RL在数据库中匹配到对应 的用户设备自动发起的 U RL时, 确定所述 U RL请求是所述用户设备自动发 起的。
可选地,在本实施例的一个可选实施方式中,识别单元 31还可以进一步 将识别出的用户主动发起的 URL与所述用户设备自动发起的 URL的关联关 系存储到所述数据库中, 从而使得能够根据所述关联关系进行基于网页访问 的业务质量评估。
本实施例中,通过确定单元将获取单元获取的 URL请求与数据库进行匹 配, 所述数据库中存储有利用网络爬虫技术识别得到的所述用户主动发起的 URL, 若所述 URL请求中包含的 URL在数据库中匹配到对应的用户主动发 起的 URL, 则可以确定所述 URL请求是用户主动发起的, 能够使网络转发 设备或服务器快速、 准确的获取用户主动发起 URL请求的行为, 以便进行更 进一步的用户行为分析。
本发明另一实施例提供了一种用户行为的获取系统, 包括用户设备和上 述图 2对应的实施例和图 3对应的实施例中任一实施例提供的用户行为的获 取设备。
所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描 述的系统, 装置和单元的具体工作过程, 可以参考前述方法实施例中的对应 过程, 在此不再赘述。
在本申请所提供的几个实施例中, 应该理解到, 所揭露的系统, 装置和 方法, 可以通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示 意性的, 例如, 所述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时可 以有另外的划分方式, 例如多个单元或组件可以结合或者可以集成到另一个 系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些接口, 装置或单元的间接耦合 或通信连接, 可以是电性, 机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作 为单元显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外 ,在本发明各个实施例中的各功能单元可以集成在一个处理单元中 , 也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单 元中。 上述集成的单元既可以釆用硬件的形式实现, 也可以釆用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元, 可以存储在一个计算机 可读取存储介质中。 上述软件功能单元存储在一个存储介质中, 包括若干指 令用以使得一台计算机设备 (可以是个人计算机, 服务器, 或者网络设备等) 执行本发明各个实施例所述方法的部分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器 (Read-Only Memory, ROM ) 、 随机存取存储器 ( Random Access Memory, RAM ) 、 磁碟或者光盘等各种可以存储程序代 码的介质。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其 限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术 人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或 者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权 利 要求 书
1、 一种用户行为的获取方法, 其特征在于, 包括:
获取用户设备发送的 URL请求;
若所述 URL请求中包含的 URL在数据库中匹配到对应的用户主动发起 的 URL, 确定所述 URL请求是用户主动发起的, 所述数据库中存储有利用 网络爬虫技术识别得到的所述用户主动发起的 URL。
2、 根据权利要求 1所述的方法, 其特征在于, 所述方法还包括: 利用网络爬虫技术,对目标网页进行分析,识别出用户主动发起的 URL; 将识别出的用户主动发起的 URL存储到所述数据库中。
3、 根据权利要求 2所述的方法, 其特征在于, 所述方法还包括: 利用网络爬虫技术, 对目标网页进行分析, 识别出用户设备自动发起的 URL;
将识别的所述用户设备自动发起的 U RL存储到所述数据库中。
4、 根据权利要求 3所述的方法, 其特征在于, 所述方法还包括: 将识别出的用户主动发起的 U RL与所述用户设备自动发起的 U RL的关 联关系存储到所述数据库中。
5、 根据权利要求 1~4任一权利要求所述的方法, 其特征在于, 所述获 取用户设备发送的 URL请求之后, 还包括:
若所述 URL请求中包含的 URL在数据库中匹配到对应的用户设备自动 发起的 URL, 确定所述 URL请求是所述用户设备自动发起的。
6、 根据权利要求 1~5任一权利要求所述的方法, 其特征在于, 所述获 取用户设备发送的 URL请求, 包括:
获取用户设备发送的用户通过在浏览器的地址栏中输入 URL 主动发起 的 URL; 或者
获取用户设备发送的用户通过鼠标点击网页中的 URL链接主动发起的
URL; 或者
获取用户设备发送的所述用户设备通过运算得到 URL自动发起的 URL; 或者
获取用户设备发送的所述用户设备通过直接得到 URL 自动发起的所述 URL请求。
8
b
7、 一种用户行为的获取设备, 其特征在于, 包括:
获取单元, 用于获取用户设备发送的 URL请求;
确定单元, 用于当所述 URL请求中包含的 URL在数据库中匹配到对应 的用户主动发起的 URL时, 确定所述 URL请求是用户主动发起的, 所述数 据库中存储有利用网络爬虫技术识别得到的所述用户主动发起的 URL。
8、根据权利要求 7所述的设备,其特征在于,所述设备还包括识别单元, 用于
利用网络爬虫技术,对目标网页进行分析,识别出用户主动发起的 URL, 并将识别出的用户主动发起的 URL存储到所述数据库中。
9、 根据权利要求 8所述的设备, 其特征在于, 所述识别单元还用于 利用网络爬虫技术, 对目标网页进行分析, 识别出用户设备自动发起的 U RL , 并将识别的所述用户设备自动发起的 U RL存储到所述数据库中。
10、 根据权利要求 9所述的设备, 其特征在于, 所述识别单元还用于 将识别出的用户主动发起的 URL与所述用户设备自动发起的 URL的关 联关系存储到所述数据库中。
1 1、 根据权利要求 7~10任一权利要求所述的设备, 其特征在于, 所述 确定单元还用于
当所述 U RL请求中包含的 U RL在数据库中匹配到对应的用户设备自动 发起的 URL时, 确定所述 URL请求是所述用户设备自动发起的。
12、 根据权利要求 7~11 任一权利要求所述的设备, 其特征在于, 所述 获取单元具体用于
获取用户设备发送的用户通过在浏览器的地址栏中输入 URL 主动发起 的 URL; 或者
获取用户设备发送的用户通过鼠标点击网页中的 URL链接主动发起的 URL; 或者
获取用户设备发送的所述用户设备通过运算得到 URL自动发起的 URL; 或者
获取用户设备发送的所述用户设备通过直接得到 URL 自动发起的所述 URL请求。
13、 一种用户行为的获取系统, 其特征在于, 包括用户设备和如权利要 求 7~12任一权利要求所述的用户行为的获取设备。
PCT/CN2012/077984 2012-06-30 2012-06-30 用户行为的获取方法、设备及系统 WO2014000293A1 (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/CN2012/077984 WO2014000293A1 (zh) 2012-06-30 2012-06-30 用户行为的获取方法、设备及系统
CN201280000909.6A CN102870118B (zh) 2012-06-30 2012-06-30 用户行为的获取方法、设备及系统
EP12879876.6A EP2857987A4 (en) 2012-06-30 2012-06-30 METHOD, DEVICE AND SYSTEM FOR ACQUIRING USER BEHAVIOR
JP2015518768A JP6103325B2 (ja) 2012-06-30 2012-06-30 ユーザ行動を取得するための方法、装置及びシステム
US14/584,649 US20150120692A1 (en) 2012-06-30 2014-12-29 Method, device, and system for acquiring user behavior

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/077984 WO2014000293A1 (zh) 2012-06-30 2012-06-30 用户行为的获取方法、设备及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/584,649 Continuation US20150120692A1 (en) 2012-06-30 2014-12-29 Method, device, and system for acquiring user behavior

Publications (1)

Publication Number Publication Date
WO2014000293A1 true WO2014000293A1 (zh) 2014-01-03

Family

ID=47447748

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/077984 WO2014000293A1 (zh) 2012-06-30 2012-06-30 用户行为的获取方法、设备及系统

Country Status (5)

Country Link
US (1) US20150120692A1 (zh)
EP (1) EP2857987A4 (zh)
JP (1) JP6103325B2 (zh)
CN (1) CN102870118B (zh)
WO (1) WO2014000293A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6103325B2 (ja) * 2012-06-30 2017-03-29 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. ユーザ行動を取得するための方法、装置及びシステム
CN103825772B (zh) * 2012-11-16 2017-06-06 华为技术有限公司 识别用户点击行为的方法及网关设备
CN103152387B (zh) * 2013-01-30 2016-01-20 中兴通讯股份有限公司 一种获取http用户行为轨迹的装置与方法
CN105205134B (zh) * 2015-09-15 2019-04-05 深信服网络科技(深圳)有限公司 识别用户点击访问网站行为的方法及装置
CN106612241B (zh) * 2015-10-27 2020-02-21 中国移动通信集团浙江有限公司 一种业务控制方法及装置
CN107526748B (zh) * 2016-06-22 2021-08-03 华为技术有限公司 一种识别用户点击行为的方法和设备
CN106446113A (zh) * 2016-09-18 2017-02-22 成都九鼎瑞信科技股份有限公司 移动大数据解析方法及装置
CN107066510B (zh) * 2017-01-22 2021-12-03 南方科技大学 一种信息处理方法及装置
CN108280117A (zh) * 2017-11-22 2018-07-13 广州市动景计算机科技有限公司 画像元数据获得方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902438A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
CN102299918A (zh) * 2011-07-08 2011-12-28 盛大计算机(上海)有限公司 一种网络交易安全系统及方法
CN102870118A (zh) * 2012-06-30 2013-01-09 华为技术有限公司 用户行为的获取方法、设备及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290741A (ja) * 2000-04-10 2001-10-19 Kikakuya:Kk ネットワークシステム
GB0025299D0 (en) * 2000-10-13 2000-11-29 Ibm Request tracking for analysis of website navigation
JP4396242B2 (ja) * 2003-11-28 2010-01-13 富士ゼロックス株式会社 文書リンク構造情報作成装置及び方法
JP2007128119A (ja) * 2004-12-17 2007-05-24 Pcsafe Inc Url、ウェブページおよびコンテンツをフィルタ処理する方法およびシステム
US7631007B2 (en) * 2005-04-12 2009-12-08 Scenera Technologies, Llc System and method for tracking user activity related to network resources using a browser
US8615800B2 (en) * 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US20080177746A1 (en) * 2007-01-23 2008-07-24 Marat Borin Cash back tracker / browser redirecting system
JP4868245B2 (ja) * 2007-08-17 2012-02-01 ヤフー株式会社 検索システム、検索装置、および検索方法
CN101504671B (zh) * 2009-03-05 2012-10-03 阿里巴巴集团控股有限公司 用户访问网页行为的可视化处理方法、装置及系统
CN101937439B (zh) * 2009-06-30 2013-02-20 国际商业机器公司 用于收集用户访问相关信息的方法和系统
US20110191664A1 (en) * 2010-02-04 2011-08-04 At&T Intellectual Property I, L.P. Systems for and methods for detecting url web tracking and consumer opt-out cookies
JP5442541B2 (ja) * 2010-06-21 2014-03-12 日本電信電話株式会社 Web情報取得方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902438A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 一种自动识别网页爬虫的方法和装置
CN102299918A (zh) * 2011-07-08 2011-12-28 盛大计算机(上海)有限公司 一种网络交易安全系统及方法
CN102870118A (zh) * 2012-06-30 2013-01-09 华为技术有限公司 用户行为的获取方法、设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2857987A4 *

Also Published As

Publication number Publication date
CN102870118B (zh) 2017-04-26
JP2015528158A (ja) 2015-09-24
CN102870118A (zh) 2013-01-09
US20150120692A1 (en) 2015-04-30
EP2857987A1 (en) 2015-04-08
JP6103325B2 (ja) 2017-03-29
EP2857987A4 (en) 2015-04-15

Similar Documents

Publication Publication Date Title
WO2014000293A1 (zh) 用户行为的获取方法、设备及系统
US10432652B1 (en) Methods for detecting and mitigating malicious network behavior and devices thereof
US11233819B2 (en) Method and apparatus for analyzing cyberattack
US9961129B2 (en) Business transaction correlation with client request monitoring data
US9659105B2 (en) Methods and apparatus to track web browsing sessions
US9794242B2 (en) Method, apparatus and application platform for realizing logon to an application service website
WO2016101635A1 (zh) 一种同步登录状态的方法、装置、设备和计算机存储介质
US7987243B2 (en) Method for media discovery
CN103124263A (zh) 一种广告推送系统及广告推送设备、广告服务器
US10085046B2 (en) Video transmission method, gateway device, and video transmission system
WO2016029650A1 (zh) 基于路由器的联网控制方法及装置
US20140237109A1 (en) Techniques for determining a mobile application download attribution
CN105635064B (zh) Csrf攻击检测方法及装置
WO2013013556A1 (zh) 数据上报的方法及设备
JP5112401B2 (ja) Web行動履歴取得システム、Web行動履歴取得方法、ゲートウェイ装置、及びプログラム
CN107370628B (zh) 基于埋点的日志处理方法及系统
US9736215B1 (en) System and method for correlating end-user experience data and backend-performance data
CN105871976A (zh) 数据跨域请求方法、设备及系统
CN109587197B (zh) 关联上报数据的方法、装置和系统
WO2013097201A1 (zh) 用户行为的获取方法、设备及系统
KR101650829B1 (ko) 대상을 획득하는 방법, 장치, 및 시스템
CN103581349B (zh) 一种域名解析方法及装置
CN107483294B (zh) 监控网络请求的方法及装置
KR20130072907A (ko) 단축 url 생성 방법 및 이를 지원하는 시스템
CN107066510B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280000909.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12879876

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015518768

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2012879876

Country of ref document: EP