WO2017092355A1 - 一种数据服务系统 - Google Patents
一种数据服务系统 Download PDFInfo
- Publication number
- WO2017092355A1 WO2017092355A1 PCT/CN2016/089514 CN2016089514W WO2017092355A1 WO 2017092355 A1 WO2017092355 A1 WO 2017092355A1 CN 2016089514 W CN2016089514 W CN 2016089514W WO 2017092355 A1 WO2017092355 A1 WO 2017092355A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- management system
- content management
- key
- key data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
一种数据服务系统,该系统包含:内容管理系统(100);第三方抓取数据库(200),用于存储第三方抓取的数据;数据加工库(300),将所述数据分为重点数据与非重点数据,将所述非重点数据存入所述内容管理系统,并将所述重点数据输入至应用管理系统(400);以及应用管理系统(400),用于对所述重点数据进行审测,并将审测通过的重点数据存入所述内容管理系统(100)。通过上述技术方案,可对来自第三方抓取数据库的数据进行分类审测,一方面通过分类提高了数据处理的效率,另一方面保证了存入内容管理系统的数据的有效性,从而用户可放心获取的内容管理系统的数据,提高了用户体验。
Description
本申请基于申请号为201510861409.7、申请日为2015/12/1的中国专利申请提出,并要求该中国专利申请的优先权,该中国专利申请的全部内容在此引入本申请作为参考。
本专利申请涉及信息技术领域,具体地,涉及一种数据服务系统。
随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(例如,传统的通用搜索引擎百度、雅虎和谷歌等)作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为解决上述搜索引擎所存在的缺陷,爬虫工具应运而生,其可按照一定的规则自动地抓取万维网信息。然而,爬虫工具所抓取的数据繁杂,作为运营商而言,某些数据可能无法直接提供给用户使用。如何对此类数据进行有效管理成为了亟待解决的问题。
发明内容
本发明部分实施例的目的是提供一种数据服务系统,该数据服务系统可对来自第三方抓取工具(例如,爬虫工具)的数据进行有效的管理,使其可被安全可靠地提供给用户使用。
为了实现上述目的,本发明一个实施例提供了一种数据服务系统,该系统包含:内容管理系统(CMS,Content Management System);第三方抓取数据库,用于存储第三方抓取的数据;数据加工库,将所述数据分为重点数据与非重点数据,将所述非重点数据存入所述内容管理系统,并将所述重点数据输入至应用管理系统;以及应用管理系统(AMS,Application Management System),用于对所述重点数据进行审测,并将审测通过的重点数据存入所述内容管理系统。
其中,所述数据加工库可根据所述数据所属应用的以下一者或多者来划分重点数据与非重点数据:每日下载量、每日安装量、每周下载量、每周安装量、每月下载量以及每月安装量。
其中,所述应用管理系统可对所述重点数据进行以下一个或多个审测:安装卸载审测、运行稳定性审测、功能遍历审测以及性能审测。
其中,该系统还可包含:云测系统,用于对所述应用管理系统及内容管理系统内的数据进行杀毒以及终端适配审测。
其中,该系统还可包含:开发者平台,来自该开发者平台的数据直接存入所述内容管理系统。
其中,所述应用管理系统还可用于所述开发者平台的数据进行审测,并将审测通过的数据存入所述内容管理系统。
其中,所述内容管理系统可针对所存入的数据,生成该数据所属应用的增量文件。
其中,从所述第三方抓取数据库输入至所述数据加工库的数据均可为增
量数据。
通过上述技术方案,可对来自第三方抓取数据库的数据进行分类审测,一方面通过分类提高了数据处理的效率,另一方面保证了存入内容管理系统的数据的有效性,从而用户可放心获取的内容管理系统的数据,提高了用户体验。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图是用来提供对本发明部分实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于理解本发明,但并不构成对本发明的限制。在附图中:
图1为本发明一个实施例提供的数据服务系统的结构框图。
附图标记说明
100 内容管理系统 200 第三方抓取数据库
300 数据加工库 400 应用管理系统
500 开发者平台 600 云测系统
以下结合附图对本发明部分实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1为本发明一个实施例提供的数据服务系统的结构框图。如图1所示,本发明一个实施例提供一种数据服务系统,该系统包含:内容管理系统100,其是位于Web服务器和后端办公系统或流程(内容创作、编辑)之间的软
件系统,其所存储的内容是由创作人员、编辑人员、发布人员提交、修改、审批、发布的内容(例如,应用、文件、表格、图片、数据库中的数据甚至视频等),从而用户可从该内容管理系统100下载所需的数据;第三方抓取数据库200,用于存储第三方抓取的数据,该第三方抓取的数据可包括利用爬虫工具从网络上抓取的各类感兴趣数据;数据加工库300,将所述数据分为重点数据与非重点数据,将所述非重点数据存入所述内容管理系统,并将所述重点数据输入至应用管理系统;以及应用管理系统400,用于对所述重点数据进行审测,并将审测通过的重点数据存入所述内容管理系统。
其中,所述系统还可包含开发者平台500,来自该开发者平台500的数据可直接存入所述内容管理系统100。一般而言,开发者平台500为运营商内部人员按照统一的标准完成软件开发的平台,其所发布的数据往往比来自第三方抓取数据库200的数据具有较高的可靠性,故可直接存入所述内容管理系统100,以供用户使用。当然,所述应用管理系统100亦可对该开发者平台500的数据进行审测,并将审测通过的数据存入所述内容管理系统,这样可进一步保证数据可靠性。可分别针对该开发者平台500以及所述来自数据加工库300的重点数据设置不同的应用管理系统进行审测。
所述数据加工库500可根据所述数据所属应用的以下一者或多者来划分重点数据与非重点数据:每日下载量、每日安装量、每周下载量、每周安装量、每月下载量以及每月安装量。例如,可将日下载量突破10000的应用设置为重点应用,日下载量低于5000的应用设置为非重点应用,而分别属于该重点应用与非重点应用的数据则分别为重点数据和非重点数据。对于非重点数据而言,由于其涉众不广,可不对其进行审测而直接将其存入内容管理系统。对于重点数据而言,则需要由应用管理系统400对其进行审测之后方能存入所述内容管理系统100。
来自所述第三方抓取数据库200内的数据分为三种数据:增量数据、重
点数据、非重点数据。其中,重点数据与非重点数据即构成了即为该第三方抓取数据库200内的所有数据,增量数据是对重点数据及非重点数据的补充。一般而言,对于数据加工库300而言,对来自第三方抓取数据库200的增量数据每5分钟处理一次,重点数据每小时处理2次,非重点数据2天检查一次。对于重点数据与非重点数据而言,数据加工库300对其所进行的处理只是对相应增量数据的检查。
所述应用管理系统400可对所述重点数据以及其他需要审测的数据(例如,之前审测失败的数据)进行以下一个或多个审测:安装卸载审测(具体为测试应用在指定的百款批量终端上是否可正常安装、正常卸载)、运行稳定性审测(具体为测试应用实际运行的稳定性,并记录运行中的错误及警告)、功能遍历审测(具体为自动识别应用可执行的功能,在一定时间内尽可能的遍历应用的所有功能,通过截图记录操作路径,并记录日志和崩溃现象)以及性能审测(具体为测试应用在指定终端上运行时的性能数据,包括启动时间、CPU消耗、内存消耗等,为应用性能优化提供参考)。当然,本发明并不限于此,其他所需的审测亦可适用于此,例如可通过一些人工审核来判断应用是否存在国家政策敏感的内容等等。
为进一步保证内容管理系统100内的数据的可靠性,本发明的数据服务系统还可包含:云测系统600,用于对所述应用管理系统400及内容管理系统内的数据100进行杀毒以及终端适配审测(具体为基于真实的终端设备(例如,乐视公司某一型号的手机),测试并记录应用实际的显示界面与目标真实终端的屏幕是否适配等)。
经过上述处理之后,内容管理系统100可具有所有的数据,其可针对该所有的数据进行增量文件的生成,例如对于某一应用而言,可生成该应用不同版本之间的安卓增量包或升级安装包,这样用户可在进行应用升级时减少不必要文件的下载(例如,整个文件包升级需要下载50MB的流量,而在存
在增量文件的情况下,可仅下载10MB的文件就可以完成升级)。
通过上述技术方案,可对来自第三方抓取数据库的数据进行分类审测,一方面通过分类提高了数据处理的效率,另一方面保证了存入内容管理系统的数据的有效性,从而用户可放心获取的内容管理系统的数据,提高了用户体验。
以上结合附图详细描述了本发明部分实施例的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (8)
- 一种数据服务系统,包含:内容管理系统;第三方抓取数据库,用于存储第三方抓取的数据;数据加工库,将所述数据分为重点数据与非重点数据,将所述非重点数据存入所述内容管理系统,并将所述重点数据输入至应用管理系统;以及应用管理系统,用于对所述重点数据进行审测,并将审测通过的重点数据存入所述内容管理系统。
- 根据权利要求1所述的数据服务系统,其中,所述数据加工库根据所述数据所属应用的以下一者或多者来划分重点数据与非重点数据:每日下载量、每日安装量、每周下载量、每周安装量、每月下载量以及每月安装量。
- 根据权利要求1或2所述的数据服务系统,其中,所述应用管理系统对所述重点数据进行以下一个或多个审测:安装卸载审测、运行稳定性审测、功能遍历审测以及性能审测。
- 根据权利要求1,2或3所述的数据服务系统,其中,该系统还包含:云测系统,用于对所述应用管理系统及内容管理系统内的数据进行杀毒以及终端适配审测。
- 根据权利要求1到4任一项所述的数据服务系统,其中,该系统还包含:开发者平台,来自该开发者平台的数据直接存入所述内容管理系统。
- 根据权利要求5所述的数据服务系统,其中,所述应用管理系统还 用于所述开发者平台的数据进行审测,并将审测通过的数据存入所述内容管理系统。
- 根据权利要求1到6任一项所述的数据服务系统,其中,所述内容管理系统针对所存入的数据,生成该数据所属应用的增量文件。
- 根据权利要求1到7任一项所述的数据服务系统,其中,从所述第三方抓取数据库输入至所述数据加工库的数据均为增量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/243,231 US20170154096A1 (en) | 2015-12-01 | 2016-08-22 | Data service system and electronic apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2015108614097 | 2015-12-01 | ||
CN201510861409.7A CN105893416A (zh) | 2015-12-01 | 2015-12-01 | 一种数据服务系统 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/243,231 Continuation US20170154096A1 (en) | 2015-12-01 | 2016-08-22 | Data service system and electronic apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017092355A1 true WO2017092355A1 (zh) | 2017-06-08 |
Family
ID=57002121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2016/089514 WO2017092355A1 (zh) | 2015-12-01 | 2016-07-10 | 一种数据服务系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105893416A (zh) |
WO (1) | WO2017092355A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968850A (zh) * | 2019-11-22 | 2020-04-07 | 东莞理工学院 | 一种基于电子商务平台的大数据分析的数据收集系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326447B (zh) * | 2016-08-26 | 2019-06-21 | 北京量科邦信息技术有限公司 | 一种众包网络爬虫抓取数据的检测方法及系统 |
CN110278331B (zh) * | 2019-06-26 | 2021-08-20 | Oppo广东移动通信有限公司 | 系统属性的反馈方法、装置、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235209A1 (en) * | 2007-03-20 | 2008-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for search result snippet analysis for query expansion and result filtering |
CN101510879A (zh) * | 2009-03-26 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 一种垃圾内容过滤的方法及装置 |
CN101827102A (zh) * | 2010-04-20 | 2010-09-08 | 中国人民解放军理工大学指挥自动化学院 | 基于内容过滤的数据防护方法 |
US20110320466A1 (en) * | 2010-06-24 | 2011-12-29 | Oded Broshi | Methods and systems for filtering search results |
CN102547794A (zh) * | 2012-01-12 | 2012-07-04 | 郑州金惠计算机系统工程有限公司 | Wap手机传媒色情图像、视频及不良内容的识别监管平台 |
CN104504027A (zh) * | 2014-12-12 | 2015-04-08 | 北京国双科技有限公司 | 网页内容的自动筛选方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1858730A (zh) * | 2005-05-06 | 2006-11-08 | 鸿富锦精密工业(深圳)有限公司 | 数据自动转移系统及方法 |
US7657585B2 (en) * | 2005-10-25 | 2010-02-02 | Innternational Business Machines Corporation | Automated process for identifying and delivering domain specific unstructured content for advanced business analysis |
-
2015
- 2015-12-01 CN CN201510861409.7A patent/CN105893416A/zh active Pending
-
2016
- 2016-07-10 WO PCT/CN2016/089514 patent/WO2017092355A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080235209A1 (en) * | 2007-03-20 | 2008-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for search result snippet analysis for query expansion and result filtering |
CN101510879A (zh) * | 2009-03-26 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 一种垃圾内容过滤的方法及装置 |
CN101827102A (zh) * | 2010-04-20 | 2010-09-08 | 中国人民解放军理工大学指挥自动化学院 | 基于内容过滤的数据防护方法 |
US20110320466A1 (en) * | 2010-06-24 | 2011-12-29 | Oded Broshi | Methods and systems for filtering search results |
CN102547794A (zh) * | 2012-01-12 | 2012-07-04 | 郑州金惠计算机系统工程有限公司 | Wap手机传媒色情图像、视频及不良内容的识别监管平台 |
CN104504027A (zh) * | 2014-12-12 | 2015-04-08 | 北京国双科技有限公司 | 网页内容的自动筛选方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968850A (zh) * | 2019-11-22 | 2020-04-07 | 东莞理工学院 | 一种基于电子商务平台的大数据分析的数据收集系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105893416A (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210271633A1 (en) | Compliance violation detection | |
US10169471B2 (en) | Generating and executing query language statements from natural language | |
US10423396B1 (en) | Transforming non-apex code to apex code | |
US10387627B2 (en) | Systems and methods for analyzing software | |
CN111124906A (zh) | 基于动态埋点的跟踪方法、编译方法、装置和电子设备 | |
CN110909229A (zh) | 一种基于模拟浏览器访问的网页数据获取和存储的系统 | |
CN106529294B (zh) | 一种用于手机病毒判定与过滤的方法 | |
US11036479B2 (en) | Devices, systems, and methods of program identification, isolation, and profile attachment | |
US11477179B2 (en) | Searching content associated with multiple applications | |
WO2017092355A1 (zh) | 一种数据服务系统 | |
CN115150261B (zh) | 告警分析的方法、装置、电子设备及存储介质 | |
WO2022012327A1 (zh) | 代码分析的方法、系统及计算设备 | |
EP3108400A1 (en) | Virus signature matching method and apparatus | |
WO2023231341A1 (zh) | 数据资产风险发现方法和装置 | |
Chan et al. | Expressiveness Benchmarking for {System-Level} Provenance | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN115757174A (zh) | 一种数据库的差异检测方法及装置 | |
CN106372508B (zh) | 恶意文档的处理方法及装置 | |
US20170154096A1 (en) | Data service system and electronic apparatus | |
CN115827589A (zh) | 一种权限验证方法、装置、电子设备及存储介质 | |
CN110362579B (zh) | 一种信息处理方法和电子设备 | |
Fu et al. | Malicious attacks on the web and crawling of information data by Python technology | |
CN110569430A (zh) | 一种移动端网络爬虫系统 | |
CN105610908B (zh) | 一种基于安卓设备的samba服务实现方法及系统 | |
CN109408368A (zh) | 一种测试辅助信息的输出方法、存储介质和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16869667 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16869667 Country of ref document: EP Kind code of ref document: A1 |