WO2012062107A1 - 基于手机用户上网行为的数据处理方法及装置 - Google Patents

基于手机用户上网行为的数据处理方法及装置 Download PDF

Info

Publication number
WO2012062107A1
WO2012062107A1 PCT/CN2011/075696 CN2011075696W WO2012062107A1 WO 2012062107 A1 WO2012062107 A1 WO 2012062107A1 CN 2011075696 W CN2011075696 W CN 2011075696W WO 2012062107 A1 WO2012062107 A1 WO 2012062107A1
Authority
WO
WIPO (PCT)
Prior art keywords
url
bill
data
cdr
field
Prior art date
Application number
PCT/CN2011/075696
Other languages
English (en)
French (fr)
Inventor
卞登奎
季波涛
蒋天超
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2012062107A1 publication Critical patent/WO2012062107A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present invention relates to mobile network technologies, and in particular, to a data processing method and apparatus based on mobile phone users' online behavior. Background technique
  • the method for analyzing the online data of the mobile phone user is: analyzing the URL (Uniform I Universal Resource Locator, also referred to as a web address) field in the bill generated by the mobile service system. among them:
  • the process of online type analysis includes: CDR data storage, maintaining a HOST and type comparison relationship table, parsing HOST for a single URL, querying the type from the comparison relation table, and analyzing all URLs;
  • the process of specifying website traffic analysis includes: CDR data warehousing, maintenance URL conversion rule comparison table, conversion for a single URL, and analysis for all URLs;
  • the process of ad access traffic analysis includes: CDR data warehousing, maintaining a correspondence table of URLs and advertisements, querying which advertisements a single URL belongs to, and analyzing for all URLs.
  • the main object of the present invention is to provide a data processing method and apparatus based on mobile phone users' online behavior, which aims to improve the processing speed of mobile phone users' online data and improve system performance.
  • the present invention provides a data processing method based on a mobile phone user's online behavior, including: generating a first CDR including a user access webpage address URL according to the user's Internet data; and the first vocabulary according to a predetermined rule
  • the data in the single data is preprocessed to generate a second CDR; and the data in the second CDR is statistically analyzed.
  • the step of pre-processing data in the first bill according to a predetermined rule comprises: performing network type URL analysis processing on the data in the first bill, and/or specifying website traffic analysis processing, and / or ad access traffic analysis processing.
  • the step of performing the Internet type URL analysis processing on the data in the first bill includes: adding a URL type field to the first bill to store the category to which the URL belongs; and parsing the first bill The source URL of the source URL; the category corresponding to the source URL is searched from the preset URL category comparison relationship table, and the field of the URL type corresponding to the source URL in the second bill is written.
  • the step of performing a specified website traffic analysis process on the data in the first bill comprises: adding a new URL field in the first bill to store the converted new URL; and converting the first according to a predetermined conversion rule The source URL in a bill; the converted source URL is written into the new URL field corresponding to the source URL in the second bill.
  • the step of performing an advertisement access traffic analysis process on the data in the first bill includes: adding an advertisement class URL field to the first bill to store an advertisement class URL; according to the first bill
  • the predetermined identifier carried by the middle source URL separates the advertisement class URL; the advertisement class URL is written into the advertisement class URL field corresponding to the source URL in the second CDR.
  • the step of performing an advertisement access traffic analysis process on the data in the first bill includes: adding an advertisement class URL field to the first bill to store an advertisement class URL; according to the first bill
  • the predetermined identifier carried by the middle source URL separates the advertisement class URL; the advertisement class URL is written into the advertisement class URL field corresponding to the source URL in the second CDR.
  • the invention also provides a data processing device based on the online behavior of the mobile phone user, comprising: an original bill generation module, configured to generate a first bill containing the user access URL according to the user internet data;
  • a new bill generation module configured to pre-process data in the first bill according to a predetermined rule to generate a second bill
  • the new bill data processing module is configured to perform statistical analysis processing on the data in the second bill.
  • the new bill generation module is further configured to perform data on the first bill.
  • Web type URL analysis processing, and/or designated website traffic analysis processing, and/or advertisement access traffic analysis processing are further configured to perform data on the first bill.
  • the new bill generation module includes:
  • a field adding unit configured to add a field for storing a URL type of a category to which the URL belongs in the first bill
  • a parsing unit configured to parse the source URL in the first bill
  • the writing unit is configured to search for a category corresponding to the source URL from a preset URL category comparison relationship table, and write a field of a URL type corresponding to the source URL in the second CDR.
  • the field adding unit is further configured to add a new URL field for storing the converted new URL in the first CDR;
  • the parsing unit is further configured to convert the source URL in the first CDR according to a predetermined conversion rule; the writing unit is further configured to write the converted source URL into the new CDR corresponding to the source URL in the second CDR URL field; or
  • the field adding unit is further configured to add an advertisement class URL field for storing an advertisement class URL in the first bill;
  • the parsing unit is further configured to separate the advertisement class URL according to the predetermined identifier carried by the source URL in the first bill;
  • the writing unit is further configured to write the advertisement class URL into an advertisement class URL field corresponding to the source URL in the second CDR.
  • the invention provides a data processing method and device based on the online behavior of a mobile phone user.
  • the preprocessing device such as the interface machine dialog data
  • the preprocessing process includes generating the Internet for the user.
  • the URL is classified and summarized, and the URL is converted according to a certain rule.
  • a new bill data is generated and stored.
  • the system database then performs statistical analysis on the new bill data.
  • the URL parsing process is handled by the interface machine, and the parsed result data generates a new bill, and the system database is directly based on The result data is statistically analyzed, which eliminates the process of analyzing large amounts of URL data, thereby greatly improving the efficiency of the data processing of the dialog singles, and solving the performance bottleneck problem of the online behavior analysis of mobile phone users.
  • FIG. 1 is a schematic flow chart of an embodiment of a data processing method based on a mobile phone user's online behavior according to the present invention
  • FIG. 2 is a schematic flowchart of analyzing and processing an Internet access type URL in a data of a first bill according to an embodiment of the present invention
  • FIG. 3 is a schematic flowchart of a method for analyzing traffic of a specified website according to a data processing method of a mobile phone user according to an embodiment of the present invention
  • FIG. 4 is a schematic flowchart of an advertisement access traffic analysis process for data in a first bill according to an embodiment of a data processing method for a mobile phone user's online behavior according to an embodiment of the present invention
  • FIG. 5 is a schematic structural view of an embodiment of a data processing apparatus based on a mobile phone user's online behavior according to the present invention
  • FIG. 6 is a schematic structural diagram of a new bill generation module in an embodiment of a data processing apparatus based on a mobile phone user's online behavior according to the present invention. detailed description
  • the solution of the embodiment of the present invention is to perform pre-processing of the dialog single data before the bill data is stored in the database.
  • the pre-processing process includes classifying and summarizing the URL generated by the user on the Internet, and converting the URL according to certain rules, etc., through a series of After the pre-processing, a new bill data is generated.
  • the system database performs statistical analysis and processing on the new bill data to improve the efficiency of the dialog data processing and solve the performance bottleneck problem of the mobile phone user online behavior analysis.
  • an embodiment of the present invention provides a data processing method based on a mobile phone user's online behavior, including:
  • the first CDR including the user access URL is generated according to the user's Internet data.
  • the user can access various websites through the mobile phone to obtain corresponding network information.
  • the mobile service system obtains the network data according to the access URL of the mobile phone user, and generates the original CDR, which is the first CDR in the embodiment. The more the user accesses, the corresponding amount of the mobile phone system generates increase.
  • the CDR contains the URL accessed by the user.
  • a URL is an identification method used to fully describe the addresses of web pages and other resources on the Internet. Every web page on the Internet has a unique name identifier, usually called a URL address. This address can be a local disk, a computer on a local area network, or more a site on the Internet. Simply put, a URL is a web address, commonly known as a "URL".
  • the first CDR data needs to be analyzed and statistically processed, so as to understand the mobile phone user's online behavior according to the processing result, for example: What types of websites, user-like websites, and certain designated websites are often preferred by users.
  • Pre-process data in the first CDR according to a predetermined rule to generate a second CDR is for a visited website type, and/or website access traffic, and/or Or the main problem such as the advertisement access traffic is determined, wherein the pre-processing of the data in the first bill according to the predetermined rule comprises: performing network type URL analysis processing on the data in the first bill, and/or specifying website traffic analysis processing, and / or advertising access traffic analysis processing, specifically, for example, the user can generate a summary of the URL generated by the Internet, and convert the URL according to certain rules.
  • the above predetermined rules may also be other similar rules according to the need to obtain data processing information.
  • the data in the first bill is preprocessed, and an independent device can be used.
  • the interface machine first uses the interface machine dialog data to perform pre-processing, such as generating the Internet for the user.
  • the URL is classified and summarized, and the URL is converted according to a certain rule.
  • a new bill is generated, that is, the second bill in this embodiment, and then the new bill data is stored in the library for subsequent processing.
  • the system database performs statistical analysis processing on the second bill data.
  • the second bill data warehousing can input the preprocessed data into the database table specified by the mobile service system through the IMP warehousing program.
  • the newly generated bill data is subjected to statistical analysis processing by the system database.
  • the summary data of a certain type of URL that the user desires to obtain can be counted. Therefore, the parsing process of the URL in the first bill is processed by the interface machine, and the parsed result data generates a new bill, and the system database directly performs statistical analysis according to the result data, thereby eliminating the need for large-volume URL data.
  • the process of analysis makes the efficiency of the data processing of the dialog singles greatly improved, and solves the performance bottleneck problem of the online behavior analysis of mobile phone users.
  • the steps of performing the Internet type URL analysis processing on the data in the first CDR in S102 include:
  • the classification criteria of the URL that is, the preset URL category comparison relationship table is as shown in Table 3 below:
  • the summary data of a certain type of URL such as a news category that the user desires to obtain can be counted, and the URL of the news category shown in Table 4 is two, http ://www.sina.com/news/1004.htm and http://www.sina.com/news/ 1005.htm.
  • the step of performing the specified website traffic analysis processing on the data in the first bill in S102 includes:
  • the predetermined conversion rule may be a conversion rule table that is defined according to the system HOST file setting rule. For example, for a certain HOST, there are the following rules, as shown in Table 5, where the setting of each URL is "whether or not to be processed. Extension ", "Ignore parameters" option.
  • the source URL in the first CDR can be converted into a new URL, and the corresponding new URL field in the second CDR can be written.
  • the access traffic of the specific content in the specified website or the specified website can be counted.
  • the three pre-processing methods described in this embodiment may be: performing online type URL analysis processing on the data in the first bill, and specifying website traffic analysis.
  • the processing and the advertisement access traffic analysis processing are combined, whereby the type of the website visited by the user, the access traffic of the designated website, the advertisement access traffic, and the like can be simultaneously counted according to the second generated bill.
  • the solution of the embodiment of the present invention can analyze the data of the user's Internet access more quickly, greatly improve the processing speed of the bill data, reduce the processing load of the system database, and solve the online behavior of the mobile phone user. Analysis of performance bottlenecks.
  • the pre-processing device such as the interface machine dialog data
  • the pre-processing process includes classifying and summarizing URLs generated by the user on the Internet, and converting the URL according to certain rules.
  • a series of pre-processing generates new bill data into the library.
  • the system database then performs statistical analysis on the new bill data. Therefore, the parsing process of the URL is processed by the interface machine, and the parsed result data generates a new bill, and the system database directly performs statistical analysis according to the result data, thereby eliminating the process of analyzing the large-volume URL data.
  • the efficiency of the data processing of the dialog single is greatly improved, and the performance bottleneck problem of the online behavior analysis of the mobile phone user is solved.
  • the step of performing an advertisement access traffic analysis process on the data in the first bill in S102 includes:
  • an embodiment of the present invention provides a data processing apparatus based on a mobile phone user's online behavior, including: an original bill generation module 501, a new bill generation module 502, and a new bill data processing module 503, wherein:
  • the original bill generation module 501 is configured to generate a first bill including a user access URL according to the user's internet data
  • the user can access various websites through the mobile phone to obtain corresponding network information.
  • the original bill generation module in the mobile service system when the user accesses the Internet through the mobile phone
  • the 501 obtains the network data according to the access URL of the mobile phone user, and generates the original CDR, that is, the first CDR in the embodiment.
  • the CDR contains the URL accessed by the user.
  • a URL is an identification method used to fully describe the addresses of web pages and other resources on the Internet. Every web page on the Internet has a unique name identifier, usually called a URL address. This address can be a local disk, a computer on a local area network, or more a site on the Internet. Simply put, a URL is a web address, commonly known as a "URL".
  • the first CDR data needs to be analyzed and statistically processed, so as to understand the mobile phone user's online behavior according to the processing result, for example, what types of websites users often like, and access traffic of certain designated websites.
  • the situation and the advertisement access traffic that the merchant cares about, so as to obtain corresponding commercial measures according to the online behavior of the mobile phone user.
  • the new bill generation module 502 is configured to preprocess the data in the first bill according to a predetermined rule to generate a second bill;
  • the new bill generation module 502 pre-processes the data in the first bill according to the predetermined rule, and specifically includes performing network type URL analysis processing on the data in the first bill, and/or specifying website traffic analysis processing, And/or ad access traffic analysis processing.
  • the predetermined rule is formulated for a major problem of the type of the visited website, and/or the website access traffic, and/or the advertisement access traffic, and the pre-processing of the data in the first bill according to the predetermined rule includes:
  • the data in the first bill is analyzed by the Internet type URL, and/or the website traffic analysis processing, and/or the advertisement access traffic analysis processing.
  • the URL generated by the user may be classified and summarized, and the URL may be classified. Certain rules are converted and so on.
  • the new bill generation module 502 for pre-processing the data in the first bill can be located in an independent device, such as an interface device, and the new bill generation module 502 located in the interface machine is used first.
  • the dialog data is pre-processed, for example, the URL generated by the user on the Internet is classified and summarized, and the URL is converted according to a certain rule.
  • the new bill generation module 502 After a series of pre-processing, the new bill generation module 502 generates a new bill, that is, the first embodiment.
  • the second bill is then used to store the new bill data into the database, so that the system database performs statistical analysis on the second bill data during the subsequent processing.
  • the second bill data warehousing can input the pre-processed data into the database table specified by the mobile service system through the IMP warehousing program.
  • the new bill data processing module 503 is configured to perform statistical analysis processing on the data in the second bill. As described above, the newly generated CDR data is sent to the new CDR data processing module 503 of the system database for statistical analysis processing. For example, according to the category of the URL in the second CDR, a certain type of URL that the user desires to obtain may be counted. Summary data.
  • the parsing process of the URL in the first bill is processed by the new bill generating module 502 of the interface machine, and the parsed result data generates a new bill, and the new bill data processing module 503 of the system database directly
  • the result data is statistically analyzed, which eliminates the process of analyzing large amounts of URL data, thereby greatly improving the efficiency of the data processing of the dialog singles, and solving the performance bottleneck problem of the online behavior analysis of mobile phone users.
  • the new bill generation module 502 includes: a field adding unit 5021, a parsing unit 5022, and a writing unit 5023, where:
  • a field adding unit 5021 configured to add, in the first bill, a field for storing a URL type of a category to which the URL belongs;
  • the parsing unit 5022 is configured to parse the source URL in the first bill
  • the writing unit 5023 is configured to search for a category corresponding to the source URL from the preset URL category comparison relation table, and write a field of the URL type corresponding to the source URL in the second CDR.
  • the field adding unit 5021 is further configured to add a new URL field for storing the converted new URL in the first CDR;
  • the parsing unit 5022 is further configured to convert the source URL in the first bill according to the predetermined conversion rule;
  • the writing unit 5023 is further configured to write the converted source URL into a new URL field corresponding to the source URL in the second CDR.
  • the field adding unit 5021 is further configured to add an advertisement class URL field for storing the advertisement class URL in the first CDR;
  • the parsing unit 5022 is further configured to separate the advertisement class URL according to the predetermined identifier carried in the source URL in the first CDR;
  • the writing unit 5023 is further configured to write the advertisement class URL into the advertisement class URL field corresponding to the source URL in the second CDR.
  • the data processing method and device based on the online behavior of the mobile phone user are pre-processed by using a pre-processing device, such as an interface machine, before the CDR data is stored in the database, and the pre-processing process includes performing a URL generated by the user on the Internet. Subtotals, conversion of URLs according to certain rules, etc., through a series of pre-processing to generate new bill data into the library. After that, the system database performs statistical analysis on the new bill data. Therefore, the parsing process of the URL is processed by the interface machine, and the parsed result data generates a new bill, and the system database directly performs statistical analysis according to the result data, thereby eliminating the process of analyzing the large-volume URL data. Thereby, the efficiency of the data processing of the dialog single is greatly improved, and the performance bottleneck problem of the online behavior analysis of the mobile phone user is solved.
  • a pre-processing device such as an interface machine

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

基于手机用户上网行为的数据处理方法及装置 技术领域
本发明涉及移动网络技术, 尤其涉及一种基于手机用户上网行为的数 据处理方法及装置。 背景技术
目前, 在移动网络业务中, 对用户上网数据进行分析挖掘成为一种流 行趋势。 随着服务供应商以及使用手机上网用户数量的不断增长, 使得移 动业务系统产生的话单不断增长,在话单量较多的业务系统中,业务量 TPS ( Tip-Per-Second )甚至已达到 5000条 /秒, 每天的数据量约有 1亿到 2亿 之多。
作为需要了解手机用户上网行为的运营商, 通常需要对手机用户上网 行为进行以下分析:
a )上网类型分析: 用户访问频率较高的网站的类型;
b )指定网站流量分析: 网站或者网站内具体内容的访问流量; c )广告访问流量分析: 广告网址具体分类的访问流量。
传统技术中, 对手机用户上网数据进行分析所釆用的方法是: 对移动 业务系统生成的话单中的 URL ( Uniform I Universal Resource Locator, 统一 资源定位符, 也称为网页地址)字段进行分析。 其中:
上网类型分析的过程包括: 话单数据入库、 维护一张 HOST与类型的 对照关系表、 针对单个 URL解析出 HOST、 从对照关系表中查询出类型以 及针对所有的 URL进行分析;
指定网站流量分析的过程包括: 话单数据入库、 维护 URL转换规则对 照表、 针对单个 URL转换以及针对所有的 URL进行分析; 广告访问流量分析的过程包括: 话单数据入库、 维护 URL和广告的对 应关系表、 查询单个 URL属于哪种广告以及针对所有的 URL进行分析。
在数据流量较大的情况下, 釆用上述方法对话单数据进行处理时会使 系统性能出现瓶颈现象。 因为话单中的 URL均是加密存储, 在解析 URL 之前必须对 URL做解密处理, 还需要对 URL解密后的字符串做复杂的运 算操作, 所以数据处理时间较长, 以传统解决方案对手机用户上网行为分 析的测试数据如下表 1所示:
Figure imgf000003_0001
表 1
从上表 1 可以看出, 生成话单的速度比处理话单的速度快, 由此使得 话单会越堆越多而无法及时处理, 不仅造成数据处理的严重延时, 而且增 加了系统数据库处理负担。 发明内容 有鉴于此, 本发明的主要目的在于提供一种基于手机用户上网行为的 数据处理方法及装置, 旨在提高手机用户上网数据的处理速度, 提高系统 性能。
为解决上述技术问题, 本发明提出一种基于手机用户上网行为的数据 处理方法, 包括: 根据用户上网数据生成包含有用户访问网页地址 URL的 第一话单; 按照预定规则对所述第一话单中数据进行预处理, 生成第二话 单; 对所述第二话单中数据进行统计分析处理。
优选地, 所述按照预定规则对所述第一话单中数据进行预处理的步骤 包括: 对所述第一话单中数据进行上网类型 URL分析处理、和 /或指定网站 流量分析处理、 和 /或广告访问流量分析处理。 优选地, 所述对第一话单中数据进行上网类型 URL分析处理的步骤包 括: 在所述第一话单中增加 URL类型的字段, 用于存放 URL所属类别; 解析所述第一话单中的源 URL;从预设的 URL类别对照关系表中查找所述 源 URL对应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字 段。
优选地, 所述对第一话单中数据进行指定网站流量分析处理的步骤包 括: 在所述第一话单中增加新 URL字段, 用于存放转换后的新 URL; 根据 预定转换规则转换第一话单中的源 URL;将转换后的源 URL写入第二话单 中与源 URL对应的新 URL字段。
优选地, 所述对第一话单中数据进行广告访问流量分析处理的步骤包 括: 在所述第一话单中增加广告类 URL字段, 用于存放广告类 URL; 根据 所述第一话单中源 URL所携带的预定标识符分离出广告类 URL;将所述广 告类 URL写入第二话单中与源 URL对应的广告类 URL字段。
优选地, 所述对第一话单中数据进行广告访问流量分析处理的步骤包 括: 在所述第一话单中增加广告类 URL字段, 用于存放广告类 URL; 根据 所述第一话单中源 URL所携带的预定标识符分离出广告类 URL;将所述广 告类 URL写入第二话单中与源 URL对应的广告类 URL字段。
本发明还提出一种基于手机用户上网行为的数据处理装置, 包括: 原始话单生成模块, 设置为根据用户上网数据生成包含有用户访问 URL的第一话单;
新话单生成模块, 设置为按照预定规则对所述第一话单中数据进行预 处理, 生成第二话单;
新话单数据处理模块, 设置为对所述第二话单中数据进行统计分析处 理。
优选地, 所述新话单生成模块还设置为对所述第一话单中数据进行上 网类型 URL分析处理、 和 /或指定网站流量分析处理、 和 /或广告访问流量 分析处理。
优选地, 所述新话单生成模块包括:
字段增加单元, 设置为在所述第一话单中增加用来存放 URL所属类别 的 URL类型的字段;
解析单元, 设置为解析所述第一话单中的源 URL;
写入单元, 设置为从预设的 URL类别对照关系表中查找所述源 URL 对应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字段。
优选地, 所述字段增加单元, 还设置为在所述第一话单中增加用来存 放转换后的新 URL的新 URL字段;
所述解析单元,还设置为根据预定转换规则转换第一话单中的源 URL; 所述写入单元,还设置为将转换后的源 URL写入第二话单中与源 URL 对应的新 URL字段; 或者
所述字段增加单元, 还设置为在所述第一话单中增加用来存放广告类 URL的广告类 URL字段;
所述解析单元, 还设置为根据所述第一话单中源 URL所携带的预定标 识符分离出广告类 URL;
所述写入单元,还设置为将所述广告类 URL写入第二话单中与源 URL 对应的广告类 URL字段。
本发明提出的一种基于手机用户上网行为的数据处理方法及装置, 在 话单数据入库前, 先使用预处理设备比如接口机对话单数据进行预处理, 预处理过程包括对用户上网生成的 URL进行分类汇总、 对 URL按照一定 规则进行转换等, 通过一系列的预处理后生成新的话单数据入库。 之后系 统数据库对新话单数据进行统计分析处理。 由此, 将 URL的解析过程交由 接口机去处理, 解析后的结果数据生成了新的话单, 系统数据库直接根据 结果数据进行统计分析, 省去了对大批量的 URL数据进行分析的过程, 从 而大大提高了对话单数据处理的效率, 解决了手机用户上网行为分析的性 能瓶颈问题。 附图说明
图 1 是本发明基于手机用户上网行为的数据处理方法一实施例流程示 意图;
图 2是本发明基于手机用户上网行为的数据处理方法一实施例中对第 一话单中数据进行上网类型 URL分析处理的流程示意图;
图 3是本发明基于手机用户上网行为的数据处理方法一实施例中对第 一话单中数据进行指定网站流量分析处理的流程示意图;
图 4是本发明基于手机用户上网行为的数据处理方法一实施例中对第 一话单中数据进行广告访问流量分析处理的流程示意图;
图 5是本发明基于手机用户上网行为的数据处理装置一实施例结构示 意图;
图 6是本发明基于手机用户上网行为的数据处理装置一实施例中新话 单生成模块的结构示意图。 具体实施方式
为了使本发明的技术方案更加清楚、 明了, 下面将结合附图作进一步 详述。
本发明实施例解决方案主要是在话单数据入库前, 先对话单数据进行 预处理, 预处理过程包括对用户上网生成的 URL进行分类汇总、 对 URL 按照一定规则进行转换等, 通过一系列的预处理后生成新的话单数据入库。 之后系统数据库对新话单数据进行统计分析处理, 以提高对话单数据处理 的效率, 解决了手机用户上网行为分析的性能瓶颈问题。 如图 1 所示, 本发明一实施例提出一种基于手机用户上网行为的数据 处理方法, 包括:
5101 , 根据用户上网数据生成包含有用户访问 URL的第一话单; 在本实施例中, 用户可以通过手机上网, 访问各种网站, 以获取相应 的网络信息。 当用户通过手机上网时, 移动业务系统根据手机用户的访问 URL获取网络数据, 产生原始话单, 即本实施例所称第一话单, 用户访问 量越多, 移动业务系统产生的话单量相应增加。
其中,话单中包含有用户访问的 URL。 URL是用于完整地描述 Internet 上网页和其他资源的地址的一种标识方法。 Internet上的每一个网页都具有 一个唯一的名称标识, 通常称之为 URL地址, 这种地址可以是本地磁盘, 也可以是局域网上的某一台计算机,更多的是 Internet上的站点。简单地说, URL就是 Web地址, 俗称 "网址" 。
当移动业务系统获取到第一话单后, 需要对第一话单数据进行分析统 计处理, 以便根据处理结果了解手机用户上网行为, 比如: 用户常喜欢上 哪些类型的网站、 某些指定的网站的访问流量情况以及商家关心的广告访 问流量等, 从而根据手机用户上网行为后续釆取相应的商业措施等。
5102, 按照预定规则对第一话单中数据进行预处理, 生成第二话单; 在本实施例中, 预定规则是针对运营商所关心的访问网站类型、 和 /或 网站访问流量、 和 /或广告访问流量等主要问题而制定, 其中按照预定规则 对第一话单中数据进行预处理包括: 对第一话单中数据进行上网类型 URL 分析处理、 和 /或指定网站流量分析处理、 和 /或广告访问流量分析处理, 具 体的, 比如可以对用户上网生成的 URL进行分类汇总、 对 URL按照一定 规则进行转换等。
根据获取数据处理信息的需要, 上述预定规则还可为其他类似的规则。 本实施例中对第一话单中数据进行预处理, 可以釆用独立的设备, 比 如接口机, 先使用接口机对话单数据进行预处理, 比如对用户上网生成的
URL进行分类汇总、对 URL按照一定规则进行转换等, 通过一系列的预处 理后生成新的话单即本实施例中第二话单, 然后将新话单数据入库, 以便 后续处理过程中, 系统数据库对第二话单数据进行统计分析处理。 在本实 施例中, 第二话单数据入库可以通过 IMP入库程序将预处理后的数据录入 到移动业务系统指定的数据库表中。
S103 , 对第二话单中数据进行统计分析处理。
如上所述, 新生成的话单数据交由系统数据库进行统计分析处理, 比 如, 根据第二话单中 URL的所属类别, 可以统计出用户期望获取的某一类 URL的汇总数据。由此,将第一话单中 URL的解析过程交由接口机去处理, 解析后的结果数据生成了新的话单, 系统数据库直接根据结果数据进行统 计分析, 省去了对大批量的 URL数据进行分析的过程, 从而大大提高了对 话单数据处理的效率, 解决了手机用户上网行为分析的性能瓶颈问题。
如图 2所示, S102中对第一话单中数据进行上网类型 URL分析处理的 步骤包括:
51021 ,在第一话单中增加用来存放 URL所属类别的 URL类型的字段;
51022 , 解析第一话单中的源 URL;
51023 ,从预设的 URL类别对照关系表中查找源 URL对应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字段。
下面以具体实例说明对第一话单中数据进行上网类型 URL分析处理的 过程, 假如有如下表 2所示的第一话单数据:
序号 URL
1 http //www. sina. com/sport/ 1001. htm
2 http //www. sina. com/sport/ 1002. htm
3 http //www. sina. com/sport/ 1003. htm
4 http //www. sina. com/news/ 1004. htm 5 http ://www. sina. com/news/ 1005. htm
6 http ://www. sina. com/movie/ 1006. htm
表 2
其中, URL的分类标准即预设的 URL类别对照关系表如下表 3所示:
Figure imgf000009_0001
表 3
通过上网类型 URL分析预处理的结果如下表 4所示:
Figure imgf000009_0002
表 4
由此可以得出, 根据第二话单中 URL的所属类别, 可以统计出用户期 望获取的某一类比如新闻类的 URL的汇总数据,表 4所示的新闻类的 URL 为 两 个 , http://www.sina.com/news/1004.htm 和 http ://www. sina. com/news/ 1005. htm。
如图 3所示, S102中对第一话单中数据进行指定网站流量分析处理的 步骤包括:
51024, 在第一话单中增加用来存放转换后的新 URL的新 URL字段;
51025 , 根据预定转换规则转换第一话单中的源 URL;
51026, 将转换后的源 URL写入第二话单中与源 URL对应的新 URL 字段。 其中, 预定转换规则可以是根据系统 HOST文件设定规则而制定的转 换规则表, 比如, 针对某一个 HOST, 有如下的规则, 如表 5所示, 其中, 对各 URL设定有 "是否处理扩展名" 、 "是否忽略参数" 选项。
Figure imgf000010_0001
表 5
根据上述转换规则表, 可以将第一话单中的源 URL转换成新的 URL, 写入第二话单中的相应的新 URL字段。 根据第二话单中新 URL字段的信 息可以统计出指定网站或指定网站内具体内容的访问流量。
需要说明的是, 在对第一话单数据进行预处理时, 可以将本实施例中 所述三种预处理方式即: 对第一话单中数据进行上网类型 URL分析处理、 指定网站流量分析处理以及广告访问流量分析处理三者结合起来进行, 由 此, 根据最终生成的第二话单, 可以同时统计出用户访问网站的类型、 指 定网站的访问流量以及广告访问流量等。
决方案与传统解决方案的比较情况如下表 6所示:
Figure imgf000010_0002
表 6
由表 6可知, 相比传统技术, 本发明实施例解决方案够更快捷的分析 用户上网的数据, 大大提高了话单数据的处理速度, 减轻了系统数据库的 处理负担, 解决了手机用户上网行为分析的性能瓶颈问题。
本实施例在话单数据入库前, 先使用预处理设备比如接口机对话单数 据进行预处理, 预处理过程包括对用户上网生成的 URL进行分类汇总、 对 URL按照一定规则进行转换等, 通过一系列的预处理后生成新的话单数据 入库。 之后系统数据库对新话单数据进行统计分析处理。 由此, 将 URL的 解析过程交由接口机去处理, 解析后的结果数据生成了新的话单, 系统数 据库直接根据结果数据进行统计分析, 省去了对大批量的 URL数据进行分 析的过程, 从而大大提高了对话单数据处理的效率, 解决了手机用户上网 行为分析的性能瓶颈问题。
如图 4所示, S102中对第一话单中数据进行广告访问流量分析处理的 步骤包括:
51027, 在第一话单中增加用来存放广告类 URL的广告类 URL字段;
51028, 根据所述第一话单中源 URL所携带的预定标识符分离出广告 类 URL;
51029, 将广告类 URL写入第二话单中与源 URL对应的广告类 URL 字段。
如图 5 所示, 本发明一实施例提出一种基于手机用户上网行为的数据 处理装置, 包括: 原始话单生成模块 501、 新话单生成模块 502以及新话单 数据处理模块 503 , 其中:
原始话单生成模块 501 , 用于根据用户上网数据生成包含有用户访问 URL的第一话单;
在本实施例中, 用户可以通过手机上网, 访问各种网站, 以获取相应 的网络信息。 当用户通过手机上网时, 移动业务系统中原始话单生成模块 501根据手机用户的访问 URL获取网络数据, 产生原始话单, 即本实施例 所称第一话单, 用户访问量越多, 移动业务系统产生的话单量相应增加。
其中,话单中包含有用户访问的 URL。 URL是用于完整地描述 Internet 上网页和其他资源的地址的一种标识方法。 Internet上的每一个网页都具有 一个唯一的名称标识, 通常称之为 URL地址, 这种地址可以是本地磁盘, 也可以是局域网上的某一台计算机,更多的是 Internet上的站点。简单地说, URL就是 Web地址, 俗称 "网址" 。
当获取到第一话单后, 需要对第一话单数据进行分析统计处理, 以便 根据处理结果了解手机用户上网行为, 比如: 用户常喜欢上哪些类型的网 站、 某些指定的网站的访问流量情况以及商家关心的广告访问流量等, 从 而根据手机用户上网行为后续釆取相应的商业措施等。
新话单生成模块 502 , 用于按照预定规则对第一话单中数据进行预处 理, 生成第二话单;
在本实施例中, 新话单生成模块 502按照预定规则对第一话单中数据 进行预处理具体包括对第一话单中数据进行上网类型 URL分析处理、 和 / 或指定网站流量分析处理、 和 /或广告访问流量分析处理。
其中, 预定规则是针对运营商所关心的访问网站类型、 和 /或网站访问 流量、 和 /或广告访问流量等主要问题而制定, 其中按照预定规则对第一话 单中数据进行预处理包括:对第一话单中数据进行上网类型 URL分析处理、 和 /或指定网站流量分析处理、 和 /或广告访问流量分析处理, 具体的, 比如 可以对用户上网生成的 URL进行分类汇总、 对 URL按照一定规则进行转 换等。
根据获取数据处理信息的需要, 上述预定规则还可为其他类似的规则。 本实施例中对第一话单中数据进行预处理的新话单生成模块 502 ,可以 位于独立的设备, 比如接口机, 先使用位于接口机的新话单生成模块 502 对话单数据进行预处理, 比如对用户上网生成的 URL进行分类汇总、 对 URL按照一定规则进行转换等,通过一系列的预处理后由新单生成模块 502 生成新的话单即本实施例中第二话单, 然后将新话单数据入库, 以便后续 处理过程中, 系统数据库对第二话单数据进行统计分析处理。 在本实施例 中, 第二话单数据入库可以通过 IMP入库程序将预处理后数据录入到移动 业务系统指定的数据库表中。
新话单数据处理模块 503 , 用于对第二话单中数据进行统计分析处理。 如上所述, 新生成的话单数据交由系统数据库的新话单数据处理模块 503进行统计分析处理, 比如, 根据第二话单中 URL的所属类别, 可以统 计出用户期望获取的某一类 URL的汇总数据。
由此,将第一话单中 URL的解析过程交由接口机的新话单生成模块 502 去处理, 解析后的结果数据生成了新的话单, 系统数据库的新话单数据处 理模块 503直接根据结果数据进行统计分析, 省去了对大批量的 URL数据 进行分析的过程, 从而大大提高了对话单数据处理的效率, 解决了手机用 户上网行为分析的性能瓶颈问题。
如图 6所示, 新话单生成模块 502包括: 字段增加单元 5021、 解析单 元 5022以及写入单元 5023 , 其中:
字段增加单元 5021 ,用于在第一话单中增加用来存放 URL所属类别的 URL类型的字段;
解析单元 5022, 用于解析第一话单中的源 URL;
写入单元 5023 , 用于从预设的 URL类别对照关系表中查找源 URL对 应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字段。
进一步的, 字段增加单元 5021 , 还用于在第一话单中增加用来存放转 换后的新 URL的新 URL字段;
解析单元 5022 , 还用于根据预定转换规则转换第一话单中的源 URL; 写入单元 5023 , 还用于将转换后的源 URL写入第二话单中与源 URL 对应的新 URL字段。
更进一步的, 字段增加单元 5021 , 还用于在第一话单中增加用来存放 广告类 URL的广告类 URL字段;
解析单元 5022,还用于根据第一话单中源 URL所携带的预定标识符分 离出广告类 URL;
写入单元 5023 , 还用于将广告类 URL写入第二话单中与源 URL对应 的广告类 URL字段。
本发明实施例基于手机用户上网行为的数据处理方法及装置通过在话 单数据入库前, 先使用预处理设备比如接口机对话单数据进行预处理, 预 处理过程包括对用户上网生成的 URL进行分类汇总、 对 URL按照一定规 则进行转换等, 通过一系列的预处理后生成新的话单数据入库。 之后系统 数据库对新话单数据进行统计分析处理。 由此, 将 URL的解析过程交由接 口机去处理, 解析后的结果数据生成了新的话单, 系统数据库直接根据结 果数据进行统计分析, 省去了对大批量的 URL数据进行分析的过程, 从而 大大提高了对话单数据处理的效率, 解决了手机用户上网行为分析的性能 瓶颈问题。
以上所述仅为本发明的优选实施例, 并非因此限制本发明的专利范围, 凡是利用本发明说明书及附图内容所作的等效结构或流程变换, 或直接或 间接运用在其它相关的技术领域, 均同理包括在本发明的专利保护范围内。

Claims

权利要求书
1、 一种基于手机用户上网行为的数据处理方法, 包括:
根据用户上网数据生成包含有用户访问网页地址 URL的第一话单; 按照预定规则对所述第一话单中数据进行预处理, 生成第二话单; 对所述第二话单中数据进行统计分析处理。
2、 根据权利要求 1所述的方法, 其中, 所述按照预定规则对所述第一 话单中数据进行预处理的步骤包括:
对所述第一话单中数据进行上网类型 URL分析处理、和 /或指定网站流 量分析处理、 和 /或广告访问流量分析处理。
3、 根据权利要求 2所述的方法, 其中, 所述对第一话单中数据进行上 网类型 URL分析处理的步骤包括:
在所述第一话单中增加 URL类型的字段, 用于存放 URL所属类别; 解析所述第一话单中的源 URL;
从预设的 URL类别对照关系表中查找所述源 URL对应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字段。
4、 根据权利要求 2所述的方法, 其中, 所述对第一话单中数据进行指 定网站流量分析处理的步骤包括:
在所述第一话单中增加新 URL字段, 用于存放转换后的新 URL;
根据预定转换规则转换第一话单中的源 URL;
将转换后的源 URL写入第二话单中与源 URL对应的新 URL字段。
5、 根据权利要求 4所述的方法, 其中, 所述对第一话单中数据进行广 告访问流量分析处理的步骤包括:
在所述第一话单中增加广告类 URL字段, 用于存放广告类 URL;
根据所述第一话单中源 URL所携带的预定标识符分离出广告类 URL; 将所述广告类 URL写入第二话单中与源 URL对应的广告类 URL字段。
6、 根据权利要求 2所述的方法, 其中, 所述对第一话单中数据进行广 告访问流量分析处理的步骤包括:
在所述第一话单中增加广告类 URL字段, 用于存放广告类 URL;
根据所述第一话单中源 URL所携带的预定标识符分离出广告类 URL; 将所述广告类 URL写入第二话单中与源 URL对应的广告类 URL字段。
7、 一种基于手机用户上网行为的数据处理装置, 包括:
原始话单生成模块, 设置为根据用户上网数据生成包含有用户访问 URL的第一话单;
新话单生成模块, 设置为按照预定规则对所述第一话单中数据进行预 处理, 生成第二话单;
新话单数据处理模块, 设置为对所述第二话单中数据进行统计分析处 理。
8、根据权利要求 7所述的装置, 其中, 所述新话单生成模块还设置为: 对所述第一话单中数据进行上网类型 URL分析处理、和 /或指定网站流量分 析处理、 和 /或广告访问流量分析处理。
9、 根据权利要求 7所述的装置, 其中, 所述新话单生成模块包括: 字段增加单元, 设置为在所述第一话单中增加用来存放 URL所属类别 的 URL类型的字段;
解析单元, 设置为解析所述第一话单中的源 URL;
写入单元, 设置为从预设的 URL类别对照关系表中查找所述源 URL 对应的所属类别, 写入第二话单中与源 URL对应的 URL类型的字段。
10、 根据权利要求 9所述的装置, 其中,
所述字段增加单元, 还设置为在所述第一话单中增加用来存放转换后 的新 URL的新 URL字段;
所述解析单元,还设置为根据预定转换规则转换第一话单中的源 URL; 所述写入单元,还设置为将转换后的源 URL写入第二话单中与源 URL 对应的新 URL字段;
或者
所述字段增加单元, 还设置为在所述第一话单中增加用来存放广告类 URL的广告类 URL字段;
所述解析单元, 还设置为根据所述第一话单中源 URL所携带的预定标 识符分离出广告类 URL;
所述写入单元 ,还设置为将所述广告类 URL写入第二话单中与源 URL 对应的广告类 URL字段。
PCT/CN2011/075696 2010-11-08 2011-06-13 基于手机用户上网行为的数据处理方法及装置 WO2012062107A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010535447.0 2010-11-08
CN201010535447.0A CN102006174B (zh) 2010-11-08 2010-11-08 基于手机用户上网行为的数据处理方法及装置

Publications (1)

Publication Number Publication Date
WO2012062107A1 true WO2012062107A1 (zh) 2012-05-18

Family

ID=43813268

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/075696 WO2012062107A1 (zh) 2010-11-08 2011-06-13 基于手机用户上网行为的数据处理方法及装置

Country Status (2)

Country Link
CN (1) CN102006174B (zh)
WO (1) WO2012062107A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102006174B (zh) * 2010-11-08 2015-01-28 中兴通讯股份有限公司 基于手机用户上网行为的数据处理方法及装置
CN102547663B (zh) * 2012-03-09 2016-05-11 北京思特奇信息技术股份有限公司 一种基于业务矩阵的手机上网优化方法
CN104331404B (zh) * 2013-07-22 2018-05-01 中国科学院深圳先进技术研究院 一种基于用户手机上网数据的用户行为预测方法和装置
CN104978341A (zh) * 2014-04-08 2015-10-14 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105791613A (zh) * 2014-12-24 2016-07-20 中兴通讯股份有限公司 一种话单处理方法及装置
CN104866909A (zh) * 2015-04-29 2015-08-26 国网智能电网研究院 一种机票预定功能url整理方法和系统
CN105827432A (zh) * 2015-12-29 2016-08-03 广东亿迅科技有限公司 基于shell脚本的流量日志统计方法及统计系统
CN108287831B (zh) * 2017-01-09 2022-08-05 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1353371A (zh) * 2000-11-10 2002-06-12 思网科技股份有限公司 一种动态实时资料分析处理系统及方法
US20030115333A1 (en) * 2001-07-06 2003-06-19 Tal Cohen System and method for analyzing system visitor activities
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102006174A (zh) * 2010-11-08 2011-04-06 中兴通讯股份有限公司 基于手机用户上网行为的数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1353371A (zh) * 2000-11-10 2002-06-12 思网科技股份有限公司 一种动态实时资料分析处理系统及方法
US20030115333A1 (en) * 2001-07-06 2003-06-19 Tal Cohen System and method for analyzing system visitor activities
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102006174A (zh) * 2010-11-08 2011-04-06 中兴通讯股份有限公司 基于手机用户上网行为的数据处理方法及装置

Also Published As

Publication number Publication date
CN102006174B (zh) 2015-01-28
CN102006174A (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
WO2012062107A1 (zh) 基于手机用户上网行为的数据处理方法及装置
US10839038B2 (en) Generating configuration information for obtaining web resources
US9600470B2 (en) Method and system relating to re-labelling multi-document clusters
CN102693271B (zh) 一种网络信息推荐方法及系统
CN101782919B (zh) 一种网页表单数据输出方法、装置及表单处理系统
US8645355B2 (en) Mapping Uniform Resource Locators of different indexes
CN103744856B (zh) 联动性扩展搜索方法及装置、系统
JP2013528881A (ja) 検索語重み付けの決定および利用
US9064261B2 (en) Auto-suggested content item requests
US20100125781A1 (en) Page generation by keyword
WO2016000507A1 (zh) 省流量模式搜索服务的方法、服务器、客户端和系统
WO2013189254A1 (zh) 热点聚合方法及装置
WO2016078533A1 (zh) 搜索方法、装置、设备及非易失性计算机存储介质
WO2015002739A1 (en) Providing a query results page
CN112256772A (zh) 数据服务方法、装置以及可读存储介质
US20200151227A1 (en) Computing system with dynamic web page feature
EP3923157B1 (en) Data stream processing
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN105589870B (zh) 网页广告的过滤方法和系统
CN106156024A (zh) 一种信息处理方法及服务器
CN112748960A (zh) 一种进程控制方法、装置、电子设备及存储介质
US9996621B2 (en) System and method for retrieving internet pages using page partitions
CN110134377B (zh) 电力行业管理信息系统的数据请求处理方法、装置及设备
JP2010020400A (ja) 情報配信サーバ
Siting et al. Topic-special information extraction of online store

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11839010

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11839010

Country of ref document: EP

Kind code of ref document: A1