WO2017107570A1

WO2017107570A1 - 一种基于HTML5应用缓存的移动Web缓存优化方法

Info

Publication number: WO2017107570A1
Application number: PCT/CN2016/098292
Authority: WO
Inventors: 黄罡; 刘譞哲; 马郓; 东帅亮; 梅宏
Original assignee: 北京大学
Priority date: 2015-12-23
Filing date: 2016-09-07
Publication date: 2017-06-29
Also published as: CN105550338B; CN105550338A; US20180285470A1

Abstract

一种基于HTML5应用缓存的移动Web缓存优化方法。本方法为：1)服务器端定期爬取设定移动Web应用所包含资源信息；2)将内容相同但对应不同URL的资源映射为同一资源；3)选取一组稳定的资源配置到缓存资源列表中，同时生成一个资源映射文件；4)设置一JavaScript运行库；在每一目标页面中添加该运行库的调用指令；5)对每一目标页面生成一代理页面，将目标页面的URL解析到对应代理页面，然后访问一目标页面时，根据请求的资源查询该资源映射文件，然后根据查询结果从该缓存资源列表中读取匹配的缓存资源加载到该代理页面。本方法节约移动Web应用的访问时间和数据流量，提高了移动设备的用户体验。

Description

一种基于HTML5应用缓存的移动Web缓存优化方法

技术领域

本发明是一种基于HTML5应用缓存的移动Web缓存优化方法，属于软件技术领域。

背景技术

Web应用是采用HTML、JavaScript、CSS等Web技术开发的、通过浏览器访问的应用软件，是移动设备上最主要的软件形态之一。与传统的个人计算机相比，移动设备计算能力有限、网络环境差，移动Web应用的访问速度慢、消耗数据流量多，严重影响移动Web应用的用户体验。缓存是提高Web应用性能的一种重要技术手段。一个Web应用由众多Web资源构成，缓存是将已经下载过的Web资源存储在本地空间，当缓存的资源被再次请求时可以直接从本地加载。缓存可以减少网络请求数量，从而减少Web应用访问时的数据流量消耗，进而提高Web应用的加载速度；同时，本地获取资源也节省了移动设备的计算资源，符合移动设备轻量级计算的要求。

传统的Web缓存是基于HTTP协议提供的缓存机制。该机制具体提供了两种模型：过期模型要求开发者给Web资源配置一个过期时间，当过期时间未到时，浏览器可直接从缓存加载资源；验证模型要求开发者给Web资源配置一个标识，该标识可以为修改时间或唯一标识符，当资源过期时，浏览器将配置的资源标识发送给服务器，服务器通过标识来判定相应的资源是否发生变化，如果没有变化则只返回一个头部信息，否则就将更新的资源返回给浏览器。在实践中，由于Web开发者缓存配置不当以及大量动态资源的存在，移动Web缓存的性能存在问题，导致了大量的冗余请求，影响移动Web应用的性能。

HTML5的发展和普及，为移动Web应用的体验优化带来了新的技术思路。应用缓存(Application Cache)是HTML5提供的离线应用接口：Web开发者可创建Manifest文件，声明可被缓存在本地的资源列表，并将Manifest文件配置到Web应用的主HTML页面上。由此，当用户离线访问Web应用时，Manifest文件中声明的资源可直接从本地读取；当用户在线访问时，浏览器会自动检查Manifest文件的更新状况，当Manifest发生变化时，浏览器可自动更新Manifest所声明的所有资源。HTML5应用缓存实际上提供了一种对Web应用缓存的细粒度控制接口。因此，本发明提出一种自动化的开发技术来帮助开发者优化移动Web应用的缓存。

发明内容

针对现有移动Web应用缓存中存在的问题，本发明的目的是基于HTML5应用缓存提供一种优化移动Web缓存的方法，其核心思想为：针对一个移动Web应用，在服务器端通过自动获取该应用所包含资源的更新状态，预测各资源的更新时间，从而选取较稳定的一组资源配置到HTML5应用缓存的Manifest文件中，并且在Manifest文件中的资源内容发生变化时更新Manifest；在客户端浏览器提供一个JavaScript运行库，开发者可将运行库加入到其移动Web应用之中，使得移动Web应用可利用HTML5应用缓存；本发明支持开发者方便快捷地改造其应用。

本发明主要分为三个部分：

1.一个运行在服务器端，自动生成、维护、更新Manifest文件的工具。

2.运行在客户端浏览器的JavaScript库。

3.一套部署方案。

本发明的核心在于利用一个工具分析移动Web应用的资源数据，维护Manifest列表，从而为客户端提供有效的缓存服务。核心工具包含四个步骤：

1，自动爬取。工具首先按照一定间隔不断爬取给定移动Web应用下的所有资源，获取每个时间点的资源信息。

2，资源映射。工具将每个资源的URL映射为一个正则表达式。匹配到同一正则表达式的资源视为同一资源。即对于URL不同但内容相同的资源(如a.jpg？123和a.jpg？345)，通过服务器爬取之后知道它们是同一个图片(内容一样)，所以会生成一个表达式来代替这两个资源。通过将这些本来内容一样的资源的URL生成一个正则表达式，从而使得这些资源可以不被重复下载。

3，预测时间。根据每个时间点的资源信息，学习识别资源变化规律，预测资源维持不变的时间。

4，选择资源。根据预测时间的结果判断选取最佳的资源集合，生成或更新HTML5应用缓存的Manifest配置文件。

上述步骤的具体技术方案如下：

1.自动爬取。工具首先按照一定间隔不断爬取目标移动Web应用的资源，获取每个时间点的资源信息。工具按照指定的URL和访问间隔不断访问并渲染页面，解析网页包含的资源，获取资源信息，如资源的大小、资源内容的MD5值、资源的缓存时间配置情况等。访问间隔可以由开发者结合网站实际情况给出，也可以由工具自动选择。

2.资源映射。工具支持识别URL动态变化的资源。由第一步获得的资源中，有很多资源是动态生成的。这些资源即使内容完全一样，也会有不同的URL，工具会把他们映射为同一资源。比如由AJAX动态请求的资源往往会带有AJAX的时间戳而主机名、路径名、端口号完全一样，在映射中，这些带时间戳的资源都会被映射为同一个资源。值得注意的是，URL和正则表达式的对应关系是相对模糊的，如果一组URL对应的正则表达式涵义太广泛，则正则表达式之间可能产生冲突。工具默认选用比较严格的正则表达式生成方法，即通过从资源内容一样但URL不一样的这些URL中识别一组URL的最长公共子串生成映射目标。资源映射使用的算法伪代码如下：

算法的输入是t-1时刻的正则化的资源列表H_t-1和t时刻的具体资源列表R_t，生成t时刻的正则化资源列表H_t。正则化是指H中的资源是可以用正则表达式唯一确定的。算法首先完成初始化的工作(L1-L4)，将t时刻的正则化资源列表H_t初始化为t-1时刻的正则化资源列表H_t-1，并设置每个资源的状态为“inexistence”(不存在)。主体部分(L5-L20)是对于每个R中的资源r，得到它的URL和H_t中的正则表达式的映射关系。如果H_t中没有资源和r对应，则在H_t中新添加关于r的记录(L12-L15)。如果H_t中有唯一资源和r对应，则将r映射到H_t并重新计算正则表达式(L8-L11)。如果H_t中有多个资源和r对应，则原有的映射失败，删除原有映射，并且重新在H_t中新添加关于r的记录(L16-L19)。

3.预测时间。通过爬取的历史信息预测每个资源维持不变的时间，只有长期不变的资源配置到应用缓存中才能带来可观的收益；相反，如果放入应用缓存的资源变化过于频繁，那么会导致整个应用缓存不断被刷新，进而抵消了其带来的优化效果，得不偿失。技术实现上，工具从历史信息中提取每个资源在每个时刻的MD5，获取变化情况的时间序列，最后借助时间序列下的线性回归完成预测。预测时间使用的算法伪代码如下：

算法的输入是一个资源所有的历史状态信息。历史状态可能有三种，未改变、改变、不存在。根据网络资源的特性，某一时刻资源消失，下一时刻该资源出现的可能性比较小，因此，对于当前时刻状态为“不存在”的资源，算法预测时间为0(L1-L3)。对于其他资源，算法使用线性回归预测变化的时间。GDM是线性回归中常用的梯度下降算法，是一种高效的在线算法(L4-L9)。最后该算法还负责删除那些预测时间很短的资源，减少需要处理的资源数目，提高运算效率(L10-L12)。

4选择资源。在这一步，工具将综合考虑一个资源的各方面性质，权衡利弊决定放入应用缓存中的资源。影响一个资源是否被缓存的因素有：资源的大小，预测维持不变的时间，缓存的配置，移动Web应用本身用户分布。比较大的资源，以及长期保持稳定不变的资源往往能获得更好的效益。缓存配置也会对资源缓存有很大的影响：本身配置缓存时间较长的资源通过HTTP缓存协议就可以很好的工作；相应的，资源本身的缓存配置时间越短，获得的额外效益越大。最后，应用的用户访问分布也会影响到资源的选取。工具综合考虑权衡各种影响因素，计算出最佳资源集合，配置到HTML5应用缓存的Manifest文件中。选择资源使用的算法伪代码如下：

由于一个资源列表的总体更新时间取决于列表中更新最频繁的那个资源，算法对一个列表按更新时间从短到长进行枚举。而给定一个更新时间后，将一个资源放入应用缓存可节约的传输流量可以表示为L7。L7这条表达式表示，一个资源通过放入应用缓存所节省的流量，是由于该资源放入应用缓存后所预期达到的缓存时间与之前默认缓存时间之差造成的，即

某资源放入应用缓存所节省的流量＝(预期缓存时间-该资源配置的缓存时间)*资源大小上式乘以用户访问分布就是总体上所能节省的流量。因此，对于给定的更新时间Ti，

其中σ是用户访问分布函数。由此可以枚举计算所有可能组合的收益(L2-L10)。最后算法选择收益最大的组合，即所有benefit(i)中的最大值，并且把它对应的资源集合设置到HTML5应用缓存的Manifest文件中。

运行在客户端浏览器的JavaScript库，包括：

1.拦截页面请求、获取请求URL的接口。在页面中调用该接口，可以自动拦截页面解析过程中所发出的所有请求的URL，并且与应用缓存中的资源列表进行比对，如果缓存列表中有该资源的正则表达式映射，可以自动实现URL的替换，从而避免冗余资源的传输。

2.与HTML5应用缓存的交互功能。主要包括对缓存资源的查询、检测、正则表达式的比对等等。

部署方案：

本工具为开发者提供完善的部署方案。部署内容分为三步。第一步，在目标页面中添加调用JavaScript库。第二步，生成一个空白页面作为代理页，将原来主页的URL解析到代理页面，原来的主页成为从该代理页面处请求的一个资源，我们称这个空白页面为代理页面，因为它可以用来加载原页面的资源。第三步，运行工具。第一步中调用JavaScript库，使得原来的页面具有拦截URL请求和获取缓存信息的功能。由于HTML5应用缓存的限制，部署后的应用页面需要改为一个自动生成的代理页面，原页面作为资源在代理页面中被请求(第二步)。这里的第一第二步是程序化的，可以通过工具一键自动生成。

需要注意的是，原网页的URL需要重定向为新生成的代理页面。之所以需要重定向，是为了解决应用缓存HTML页面的弊端。这种部署方案更加具有一般性。针对于主页固定的网站，部署方案的第二步也可以省略。上述两种方案都是程序化的，可以由工具一键生成，也可以由开发者手动调用。

与现有技术相比，本发明的积极效果为：

本方案借助发明工具简单有效地获取网络资源信息，通过提前预测时间的方式有效提高了资源的缓存命中率，节约访问时间，提高了移动设备的用户体验。

附图说明

图1为本发明的方法流程图。

具体实施方式

本节以北京大学信息科学技术学院网站(http://eecs.pku.edu.cn)给出使用该缓存方法的实例，其处理方法流程如图所示。该网站是北京大学信息科学技术学院的门户网站，包含学院新闻、通知公告、教务通知、讲座信息等模块。

首先，在原网页的HTML文件中添加调用JavaScript库的命令，提供自动拦截URL解析请求的任务，并且可以和缓存列表进行交互。

接下来，生成代理页面，并将原来主页的URL解析到代理页面，原来的主页成为从该代理页面处请求的一个资源。此时访问原先的URL，如http://eecs.pku.edu.cn，客户端先请求代理页面，然后在代理页面中会请求原先的所有资源。如果这些资源中有部分URL可以与资源列表中记录的正则表达式形成有效映射，之前添加的JavaScript函数将自动替换该URL，并且转而请求缓存资源。

最后，服务器端自动运行工具。该工具自动抓取并分析页面，并在服务器端提供和维护缓存资源列表Manifest，该缓存资源列表包含资源的各种信息，并且通过应用缓存接口与代理页面相连接。

用户仍然通过原先的URL访问Web应用，并且拥有更好的体验效果。

Claims

一种基于HTML5应用缓存的移动Web缓存优化方法，其步骤为：

1)针对一设定移动Web应用，服务器端定期爬取该移动Web应用所包含资源信息；

2)将爬取资源中内容相同但对应不同URL的资源映射为同一资源；

3)根据爬取的资源的历史信息预测每个资源维持不变的时间，选取一组稳定的资源配置到HTML5应用缓存的缓存资源列表Manifest文件中，同时生成一个资源映射文件；该资源映射文件中保存每一资源与对应URL的映射关系；

4)设置一JavaScript运行库；在每一目标页面中添加该JavaScript运行库的调用指令，用于当该客户端浏览器访问目标页面时，自动拦截该目标页面的URL解析请求任务；其中，目标页面为该设定移动Web应用的一个页面，每一目标页面具有若干资源；

5)对每一目标页面生成一代理页面，将目标页面的URL解析到对应代理页面，然后通过该客户端浏览器访问一目标页面时，根据请求的资源查询该资源映射文件，然后根据查询结果从该缓存资源列表Manifest文件中读取匹配的缓存资源加载到该代理页面。
如权利要求1所述的方法，其特征在于，所述资源信息包括资源的大小、资源内容的MD5值、资源的缓存时间配置情况。
如权利要求2所述的方法，其特征在于，从历史信息中提取每个资源在每个时刻的MD5值，获取资源变化情况的时间序列，最后根据GDM算法预测每个资源维持不变的时间。
如权利要求1所述的方法，其特征在于，将爬取资源中内容相同但对应不同URL的资源映射为同一资源的方法为：首先根据t-1时刻的正则化的资源列表H_t-1和t时刻的具体资源列表R_t,生成t时刻的正则化资源列表H_t；然后将t时刻的正则化资源列表H_t初始化为t-1时刻的正则化资源列表H_t-1，并将每个资源的状态设置为不存在；然后对于资源列表R中的每一资源r，如果资源列表H_t中没有资源和资源r对应，则在资源列表H_t中添加关于资源r的记录；如果资源列表H_t中有唯一资源和资源r对应，则将资源r映射到资源列表H_t中并重新计算资源r的正则表达式，如果资源列表H_t中有多个资源和资源r对应，则删除原有映射，并且重新在资源列表H_t中添加关于r的记录。
如权利要求1所述的方法，其特征在于，根据资源的大小、预测维持不变的时间、缓存配置和移动Web应用本身用户分布选取一组资源配置到该缓存资源列表Manifest文件中。
如权利要求5所述的方法，其特征在于，选取一组资源配置到该缓存资源列表Manifest文件中的方法为：对于给定缓存资源列表Manifest的更新时间Ti，计算将一个资源放入应用缓存所节约的传输流量，然后计算每一种应用缓存组合的总收益；最后选择总收益最大的组合对应的资源集合设置到HTML5应用缓存的Manifest文件中。
如权利要求6所述的方法，其特征在于，资源通过放入应用缓存所节约的流量＝(预期缓存时间-该资源配置的缓存时间)*资源大小；
其中，σ是用户访问分布函数。
如权利要求1～7任一所述的方法，其特征在于，服务器端在Manifest文件中的资源内容发生变化时更新Manifest文件。