WO2021068740A1

WO2021068740A1 - 一种文件管理方法及装置

Info

Publication number: WO2021068740A1
Application number: PCT/CN2020/116859
Authority: WO
Inventors: 杨峙岳; 尹强; 刘有; 王和平; 黄山; 邸帅; 卢道和
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2019-10-10
Filing date: 2020-09-22
Publication date: 2021-04-15
Also published as: CN110597764B; CN110597764A

Abstract

一种文件管理方法及装置，涉及金融科技(Fintech)的数据管理领域，其中方法为：获取第一用户下载第一文件的第一请求；根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本；确定所述第一文件在分布式文件系统HDFS的第一存储位置，以及确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节；根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置；当下载所述第一文件成功时，将第一记录存储至第三资源表，该方法可应用于金融科技(Fintech)。

Description

一种文件管理方法及装置

相关申请的交叉引用

本申请要求在2019年10月10日提交中国专利局、申请号为201910957957.8、申请名称为“一种文件管理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及金融科技(Fintech)的大数据领域，尤其涉及一种文件管理方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链(Blockchain)、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变。目前，金融科技领域中，越来越多的数据被产生，也被越来越多的用于各种信息处理中，由此也对应产生各种文件，对这些文件的管理就显得愈发重要，现有技术中一般采用分布式文件系统(Hadoop Distribution File System，HDFS)对文件进行存储管理，再结合文件版本控制系统一并管理各种版本文件的查询、更新等操作。其中，HDFS是基于流数据模式访问和处理超大文件的需求开发的系统，可以运行在廉价的商用服务器上，它具备高容错、高可靠性、高扩展性以及高获得性等特征；文件版本控制系统是用于控制各种文件的一个或若干版本的不同修订内容的系统，两种系统结合使用可以方便的查阅、更新任一指定版本文件的详细内容。

现有技术的这种处理方式中，文件版本控制系统一般采用开源的方式与HDFS系统连接以调用各种文件数据，因此在方便用户查询、更新等操作时，对用户下载的相关操作并没有太多关心，比如下载的时间、下载的文件版本、下载的结果是成功还是失败等没有记录，这种方式对于将操作数据的记录划为重要网络安全管理范畴的金融公司来说，若需要追溯某一文件下载时的相关信息并不容易。

因此，现有技术的处理方式在如何追溯各种版本文件的下载历史方面是一个亟待解决的问题。

发明内容

本申请实施例提供一种文件管理方法及装置，解决了现有技术中如何追溯各种版本文件的下载历史问题。

本申请实施例提供一种文件管理方法，具体包括：

获取第一用户下载第一文件的第一请求；根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本；

根据所述第一文件标识查询第一资源表，确定所述第一文件在分布式文件系统HDFS的第一存储位置，所述第一资源表用于记录所述HDFS中文件的基本信息；根据所述第一文件版本查询第二资源表，确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节；

根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置；

根据所述下载开始位置和所述下载结束位置下载所述第一文件；

当下载所述第一文件成功时，将第一记录存储至第三资源表，所述第三资源表用于记录对所述HDFS中文件的下载操作，所述第一记录用于标记下载所述第一文件成功。

一种可能的实现方式，根据所述第一文件版本查询第二资源表之前，还包括：

根据所述第一文件标识查询所述第一资源表中所述第一用户对所述第一文件的第一操作权限；

当所述第一操作权限记录所述第一用户对所述第一文件有下载权限时，根据所述第一文件版本查询所述第二资源表。

一种可能的实现方式，获取第一用户下载第一文件的第一请求之后，还包括：

按照负载均衡算法从至少一个实例中选取负载轻的第一实例；通过第一实例对所述第一请求处理，所述第一实例用于处理所述第一用户首次上传、更新以及下载文件的请求。

一种可能的实现方式，还包括：

获取第一用户上传第二文件的第二请求；根据所述第二请求获取所述第一用户请求上传的所述第二文件和第二文件标识；

当所述第二文件标识的内容为空时，配置所述第二文件标识以及所述第二文件的第二存储位置；存储所述第二文件标识和所述第二存储位置至所述第一资源表；

根据所述第二存储位置，将所述第二文件的文件流写入所述HDFS；

获取所述HDFS返回的第一标识，所述第一标识用于标记所述第二文件的文件流的写入状态，包括成功、失败以及未写完；

当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第一版本；存储所述第二文件标识和所述第一版本至所述第二资源表。

一种可能的实现方式，还包括：

当所述第一标识标记所述写入状态为所述失败时，获取所述第二文件的文件流写入失败的第一原因；删除所述第一资源表中所述第二文件的基本信息以及所述HDFS中的所述第二文件的文件流；

存储所述第二文件标识和所述第一原因至第一管理表，所述第一管理表用于记录对HDFS中文件的首次上传以及更新的失败操作。

一种可能的实现方式，还包括：

当所述第二文件标识的内容为非空时，根据所述第二文件标识查询所述第一资源表，确定所述第二存储位置；且根据所述第二文件标识查询所述第二资源表，确定所述第二文件的第二版本、所述第二版本对应的所述第二文件的第二开始字节以及所述第二版本对应的所述第二文件的第二结束字节；

根据所述第二存储位置以及所述第二结束字节，确定所述第二结束字节加M的位置为所述第二文件的文件流写入所述HDFS的写入开始位置，M为大于0的整数；

当所述第二结束字节加M大于或等于第一阈值时，新增所述第二文件的第三存储位置，所述第三存储位置为所述写入开始位置；

根据所述写入开始位置写入所述第二文件；

获取所述第一标识；当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第三版本，所述第三版本的取值为所述第二版本的取值加N，N为大于0的整数；存储所述第二文件标识和所述第三版本至所述第二资源表。

一种可能的实现方式，获取所述第一标识之后，还包括：

当所述第一标识标记所述写入状态为所述未写完，且未获取到系统异常消息时，新增所述第四存储位置，所述第四存储位置为继续写入所述第二文件的文件流的位置。

本申请实施例提供一种文件管理装置，具体包括：

获取单元，用于获取第一用户下载第一文件的第一请求；

处理单元，用于根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本；根据所述第一文件标识查询第一资源表，确定所述第一文件在分布式文件系统HDFS的第一存储位置，所述第一资源表用于记录所述HDFS中文件的基本信息；根据所述第一文件版本查询第二资源表，确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节；

所述处理单元，用于根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置；

所述处理单元，还用于根据所述下载开始位置和所述下载结束位置下载所述第一文件；当下载所述第一文件成功时，将第一记录存储至第三资源表，所述第三资源表用于记录对所述HDFS中文件的下载操作，所述第一记录用于标记下载所述第一文件成功。

一种可能的实现方式，所述处理单元具体用于：

利用本申请提供的一种文件管理方法及装置，具有以下有益效果：通过对文件版本控制系统调用的数据库进行设计，在其中增加记录文件下载历史的数据表以便于追溯各种版本文件的下载历史。

相应的，本申请实施例还提供了一种计算设备，包括：

处理器、存储器、通信接口；其中，处理器、存储器与通信接口之间通过总线连接；

所述处理器，用于读取所述存储器中的程序，执行上述文件管理方法；

所述存储器，用于存储一个或多个可执行程序，可以存储所述处理器在执行操作时所使用的数据。

相应的，本申请实施例还提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质中存储计算机指令，当其在计算机上运行时，使得计算机执行上述文件管理方法。

相应的，本申请实施例还提供一种包含指令的计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述文件管理方法。

附图说明

图1为本申请实施例中一种文件管理方法流程图；

图2为本申请实施例中一种文件管理方法的首次上传流程图；

图3为本申请实施例中一种文件管理方法的更新版本流程图；

图4为本申请实施例中一种文件管理的实例结构示意图；

图5为本申请实施例中一种计算设备的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互结合。

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链(Blockchain)、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变。图1为本申请实施例中一种文件管理方法流程图，如图所示，具体步骤描述如下。

步骤101：获取第一用户下载第一文件的第一请求；根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本。

具体的，当第一用户有下载第一文件的需求时，将下载第一文件的第一请求发送给文件版本控制系统，文件版本控制系统获取到第一请求，其中，第一文件是指支持各种类型的文件，可以支持的文件类型有文本形式、二进制形式等，尤其在涉及大数据领域时，脚本文件、物料压缩包等文件类型也都适用本申请中的文件管理方法。

进一步具体的，文件版本控制系统中部署有多个实例，每个实例都是一个小型的文件版本控制系统，当文件版本控制系统获取到第一请求时，按照负载均衡算法从至少一个实例中选取负载轻的第一实例；通过第一实例对第一请求进行处理，第一实例可以处理第一用户首次上传、更新以及下载文件的请求。

举例来说，文件版本控制系统中部署有3个实例，3个实例的状态分别是：第一实例的中央处理器(Central Processing Unit，CPU)占用率为40％、第二实例的CPU占用率为50％、第三实例的CPU占用率为75％，按照负载均衡算法，选取负载轻的第一实例接收第一用户的第一请求并进行处理；若其中有2个实例负载相同时可随机选取其中1个实例，其它情况不再赘述。根据第一请求获取其中携带的第一文件标识和第一文件版本。

步骤102：根据所述第一文件标识查询第一资源表，确定所述第一文件在HDFS的第一存储位置，所述第一资源表用于记录所述HDFS中文件的基本信息；根据所述第一文件版本查询第二资源表，确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节。

具体的，预先对文件版本控制系统调用的数据库进行设计时，设计有4张数据表，包括：第一资源表、第二资源表、第三资源表以及第一管理表。

其中，第一资源表用于记录HDFS中文件的基本信息，基本信息包括文件标识、文件的存储位置、文件的所属者、文件的权限等，文件标识和文件的存储位置是第一资源表中最重要的两个字段，具体如表一所示。

表一

第二资源表用于记录HDFS中文件的版本信息，版本信息包括文件标识、文件版本、文件开始字节、文件结束字节等，具体如表二所示。

表二

第三资源表用于记录HDFS中文件的下载历史信息，下载历史信息包括文件标识、文件版本、文件下载时间、文件下载是否成功等，具体如表三所示。

表三

字段	作用	备注
resource_id	记录下载资源的resource_id
version	记录下载资源的version
downloader	记录下载的用户
start_time	记录下载时间
end_time	记录结束时间
status	记录是否成功	0表示成功，1表示失败
err_msg	记录失败原因	null表示成功，否则记录失败原因

第一管理表用于记录对HDFS中文件的首次上传以及更新的失败操作信息，包括文件标识、文件版本、更新的时间、更新失败的原因等，具体如表四所示。

表四

上述4张存储在数据库中的数据表用于文件版本控制系统在收到用户提出的对文件的各种请求时，调用数据表中的内容进行查询、更新以及记录的相关操作，文件的具体内容则存储在HDFS中。

因此，本步骤中根据第一文件标识查询第一资源表，确定第一文件在HDFS中的第一存储位置。

进一步具体的，根据所述第一文件标识查询第一资源表中第一用户对第一文件的第一操作权限；当第一操作权限记录第一用户对第一文件有下载权限时，再根据第一文件版本查询第二资源表，否则第一用户没有权限对第一文件进行下载。

步骤103：根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置。

具体的，第一存储位置标记的是文件在HDFS中的位置，根据这一位置得到待下载的第一文件在HDFS中对应的存储位置，再根据第一文件版本确定出的第一开始字节以及第一结束字节得到待下载的第一文件的准确的下载开始位置和下载结束位置。

举例来说，第一用户请求下载的是第一文件的第二版本文件内容，本申请中文件各版本的内容在HDFS中的存储方式可以是：第二版本的文件内容和第一版本的文件内容都存储在第一存储位置，进一步具体的，第二版本文件内容可以是紧接在第一版本文件内容之后存储的，因此根据第二版本确定出的第二版本对应的第一开始字节和第一结束字节保证了所需下载的这一版本的第一文件内容的准确性。

步骤104：根据所述下载开始位置和所述下载结束位置下载所述第一文件。

步骤105：当下载所述第一文件成功时，将第一记录存储至第三资源表，所述第三资源表用于记录对所述HDFS中文件的下载操作，所述第一记录用于标记下载所述第一文件成功。

具体的，当下载第一文件成功时，将第一记录存储至第三资源表中，通过这种方式记录每次对文件的下载操作的相关信息，以便于追溯各种版本文件的下载历史。

进一步具体的，当下载第一文件失败时，将第二记录存储至第三资源表，第二记录用于标记下载第一文件失败。将失败的操作信息也记录在第三资源表中，从而确保在追溯各种版本文件的下载历史时能更加客观、全面地了解到不同时间、不同用户下载时的不同情况，也便于在排查失败原因时有更多详细的参考线索。

上述步骤内容描述的是多版本文件下载时的处理方法，在下载文件之前，用户对文件会有首次上传的需求，以及对已经存储在HDFS中的文件进行版本更新的需求，下面进一步展开在处理文件首次上传和版本更新时的具体步骤情况。

图2为本申请实施例中一种文件管理方法的首次上传流程图，如图2所示，具体步骤描述如下。

步骤201：获取第一用户上传第二文件的第二请求；根据所述第二请求获取所述第一用户请求上传的所述第二文件和第二文件标识。

步骤202：当所述第二文件标识的内容为空时，配置所述第二文件标识以及所述第二文件的第二存储位置；存储所述第二文件标识和所述第二存储位置至所述第一资源表。

具体的，当用户上传的第二文件为用户首次上传的文件时，第二请求中携带的第二文件标识内容是为空的，文件版本控制系统在接收到第二请求，识别出第二文件标识内容为空时，为第二文件配置第二文件标识和第二文件的第二存储位置；在数据库的第一资源表中新增第二文件的基本信息，第二文件标识和第二文件的第二存储位置作为重要字段存储在第一资源表中。

步骤203：根据所述第二存储位置，将所述第二文件的文件流写入所述HDFS。

步骤204：获取所述HDFS返回的第一标识，所述第一标识用于标记所述第二文件的文件流的写入状态，包括成功、失败以及未写完。

具体的，预先设定HDFS不同的返回值对应着不同的写入状态以及原因。比如：返回值等于0，表示写入状态为成功；返回值小于0，表示写入状态为失败；返回值大于0，表示写入状态为未写完。其中，返回值小于0又分多种不同值对应失败时的不同原因，比如返回值为-1表示因网络中断影响HDFS的存储功能，返回值为-2表示未写完，已到存储位置的容量上限等。

步骤205：当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第一版本；存储所述第二文件标识和所述第一版本至所述第二资源表。

具体的，在上传第二文件至HDFS中时，第二文件的文件流写入状态会有不同的情况，分别是：成功、失败以及未写完，其中，成功状态表示第二文件全部上传至HDFS中；失败状态表示第二文件因一些原因没有全部成功上传至HDFS中，比如，原因有网络中断影响HDFS的存储功能等；未写完状态分有两种，一种是因一些原因没有全部成功上传至HDFS中，这种情况等同于失败状态，另一种是在下文将展开的版本更新时，最新版本上传追加至前一版本的文件内容之后时，所在存储位置的容量有上限，设定上限为第一阈值，比如1G的容量，当超过该上限时，需要存储在新的位置上，这两种未写完的情况是需要区分处理的，但在首次上传文件的情况中，未写完状态下一般不存在超过上限的情况，因此首次上传文件的情况中，文件的写入状态只分两种：成功和失败。文件版本控制系统通过HDFS返回的标记文件写入状态的第一标识，获知文件的上传情况以判断下一步的处理。

在本步骤中，当文件版本控制系统获取到HDFS返回的第一标识标记的写入状态为成功时，配置第二文件的第一版本；在数据库的第二资源表中新增第二文件的版本信息，第二文件标识和第二文件版本作为重要字段存储在第二资源表中，同时将第二文件标识返回给用户，以使用户在下次发起更新文件版本请求时，请求中携带文件标识。

进一步具体的，当所述第一标识标记所述写入状态为所述失败时，获取所述第二文件的文件流写入失败的第一原因；删除所述第一资源表中所述第二文件的基本信息以及所述HDFS中的所述第二文件的文件流；存储所述第二文件标识和所述第一原因至第一管理表，所述第一管理表用于记录对HDFS中文件的首次上传以及更新的失败操作。

其中，当文件版本控制系统获取到HDFS返回的第一标识标记的写入状态为失败时，根据HDFS返回值的具体数值获知文件流写入失败的具体原因；将第二文件标识和第一原因存储至第一管理表中，并删除第一资源表中第二文件的基本信息以及HDFS中的第二文件的文件流，同时本申请在获取消息异常和通知用户时使用两种方式：Rest接口和SDK，SDK用于捕获异常消息，如写入失败，Rest接口则是在后端的SDK捕获异常消息后需要通知用户失败信息时的前端接口，用户在接收到失败信息通知后可选择是否重新上传等处理。

进一步具体的，第一管理表可以用于记录对HDFS中文件的首次上传以及更新的失败操作信息，也可以用于文件的上传、更新以及下载等操作的生命周期管理，记录文件在上传、更新以及下载时的文件标识、文件版本、开始时间、结束时间、是否成功、失败原因，以更全面地记录文件的每次操作，从而能整体管控文件的各类操作。

上述步骤是文件首次上传时的情况，在文件首次上传后，若用户有更新文件版本请求的需求，则可以根据图3所示的步骤执行。如图3所示，为本申请实施例提供的一种文件管理方法的更新版本流程图，具体步骤详见如下描述。

步骤301：当所述第二文件标识的内容为非空时，根据所述第二文件标识查询所述第一资源表，确定所述第二存储位置；且根据所述第二文件标识查询所述第二资源表，确定所述第二文件的第二版本、所述第二版本对应的所述第二文件的第二开始字节以及所述第二版本对应的所述第二文件的第二结束字节。

具体的，当文件版本控制系统获取到的第二文件标识的内容为非空时，表示本次用户上传的第二文件在第一资源表中和第二资源表中都已有记录，根据第二文件标识查询第一资源表得到第二存储位置，查询第二资源表得到第二文件的已有版本、已有版本对应的第二文件的开始字节以及第二文件的结束字节。

步骤302：根据所述第二存储位置以及所述第二结束字节，确定所述第二结束字节加M的位置为所述第二文件的文件流写入所述HDFS的写入开始位置，M为大于0的整数。

具体的，举例来说，M取值为1Kb，根据步骤301中第二文件标识查询到第二资源表中的版本为3，第3版本的第二文件对应的开始字节是1Mb，结束字节是2Mb，新上传的第二文件的开始位置为第3版本的结束字节2Mb+1Kb，即1025Kb的位置为本次上传的第二文件的开始写入位置。

步骤303：当所述第二结束字节加M大于或等于第一阈值时，新增所述第二文件的第三存储位置，所述第三存储位置为所述写入开始位置。

举例来说，第二存储位置的容量上限为第一阈值，取值为1G，当第3版本的第二文件对应的结束字节是1G时，新上传的第二文件的开始位置为 1G+1Kb，已超出第二存储位置的容量上限，这时需要新增第三存储位置以作为第二文件的最新版本的写入开始位置。

步骤304：根据所述写入开始位置写入所述第二文件。

步骤305：获取所述第一标识；当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第三版本，所述第三版本的取值为所述第二版本的取值加N，N为大于0的整数；存储所述第二文件标识和所述第三版本至所述第二资源表。

举例来说，N取值为1，结合步骤302中例子可知，配置的第二文件的最新版本的取值为第3版本+1，即第4版本。

进一步具体的，获取所述第一标识；当所述第一标识标记所述写入状态为所述未写完，且获取到系统异常消息时，确定所述第二文件的文件流写入失败的第二原因，存储所述第二文件标识和所述第二原因至所述第一管理表。

进一步具体的，当所述第一标识标记所述写入状态为所述未写完，且未获取到系统异常消息时，新增所述第四存储位置，所述第四存储位置为继续写入所述第二文件的文件流的位置。

举例来说，当文件版本控制系统获取到HDFS返回的第一标识标记的写入状态为未写完，且获取到系统异常消息时，比如，返回值为-1，确定第二文件的文件流写入失败的原因为因网络中断影响HDFS的存储功能，将这一失败原因和文件标识存储至第一管理表中，同时通过Rest接口通知用户失败信息以供用户选择是否重新上传。

当文件版本控制系统获取到HDFS返回的第一标识标记的写入状态为未写完，且未获取到系统异常消息时，比如，返回值为-2，确定第二文件的文件流写入失败的原因为未写完，已到存储位置的容量上限，将需新增存储位置消息反馈给HDFS，在新增存储位置后继续写入第二文件的文件流。

图4为本申请实施例中一种文件管理的实例结构示意图，如图4所示，系统结构包括：文件版本控制系统401、数据库402以及文件系统HDFS403。

其中，文件版本控制系统401包括3种控制操作，分别是：用户首次上传文件404、用户更新文件405以及用户下载文件406。

数据库402包括第一资源表407、第二资源表408、第三资源表409、第一管理表410。

文件系统HDFS403包括第一文件存储411、第二文件存储412以及第三文件存储413等。

图1-图3所示的方法流程在控制各种文件版本的首次上传、更新以及下载时可以应用到图4所示的文件管理的实例结构中。

基于与上述图1所示的方法相同的构思，本申请还提供一种计算设备，如图5所示，该计算设备包括至少一个处理器520，用于实现本申请实施例提供的图1中任一方法。

计算设备500还可以包括至少一个存储器530，用于存储程序指令和/或数据。存储器530和处理器520耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器520可能和存储器530协同操作。处理器520可能执行存储器530中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理电路(digital signal processor，DSP)、专用集成芯片(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

计算设备500还可以包括通信接口510，用于通过传输介质和其它设备进行通信，从而用于计算设备500中的装置可以和其它设备进行通信。在本申请实施例中，通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。在本申请实施例中，通信接口为收发器时，收发器可以包括独立的接收器、独立的发射器；也可以集成收发功能的收发器、或者是接口电路。

计算设备500还可以包括通信线路540。其中，通信接口510、处理器520以及存储器530可以通过通信线路540相互连接；通信线路540可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。所述通信线路540可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

基于同一发明构思，本申请实施例还提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质中存储计算机指令，当其在计算机上运行时，使得计算机执行上述文件管理方法。

基于同一发明构思，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述文件管理方法。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种文件管理方法，其特征在于，包括：

获取第一用户下载第一文件的第一请求；根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本；

根据所述第一文件标识查询第一资源表，确定所述第一文件在分布式文件系统HDFS的第一存储位置，所述第一资源表用于记录所述HDFS中文件的基本信息；根据所述第一文件版本查询第二资源表，确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节；

根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置；

根据所述下载开始位置和所述下载结束位置下载所述第一文件；

当下载所述第一文件成功时，将第一记录存储至第三资源表，所述第三资源表用于记录对所述HDFS中文件的下载操作，所述第一记录用于标记下载所述第一文件成功。
如权利要求1所述的方法，其特征在于，根据所述第一文件版本查询第二资源表之前，还包括：

根据所述第一文件标识查询所述第一资源表中所述第一用户对所述第一文件的第一操作权限；

当所述第一操作权限记录所述第一用户对所述第一文件有下载权限时，根据所述第一文件版本查询所述第二资源表。
如权利要求1所述的方法，其特征在于，获取第一用户下载第一文件的第一请求之后，还包括：

按照负载均衡算法从至少一个实例中选取负载轻的第一实例；通过第一实例对所述第一请求处理，所述第一实例用于处理所述第一用户首次上传、更新以及下载文件的请求。
如权利要求1所述的方法，其特征在于，还包括：

获取第一用户上传第二文件的第二请求；根据所述第二请求获取所述第一用户请求上传的所述第二文件和第二文件标识；

当所述第二文件标识的内容为空时，配置所述第二文件标识以及所述第二文件的第二存储位置；存储所述第二文件标识和所述第二存储位置至所述第一资源表；

根据所述第二存储位置，将所述第二文件的文件流写入所述HDFS；

获取所述HDFS返回的第一标识，所述第一标识用于标记所述第二文件的文件流的写入状态，包括成功、失败以及未写完；

当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第一版本；存储所述第二文件标识和所述第一版本至所述第二资源表。
如权利要求4所述的方法，其特征在于，还包括：

当所述第一标识标记所述写入状态为所述失败时，获取所述第二文件的文件流写入失败的第一原因；删除所述第一资源表中所述第二文件的基本信息以及所述HDFS中的所述第二文件的文件流；

存储所述第二文件标识和所述第一原因至第一管理表，所述第一管理表用于记录对HDFS中文件的首次上传以及更新的失败操作。
如权利要求5所述的方法，其特征在于，还包括：

当所述第二文件标识的内容为非空时，根据所述第二文件标识查询所述第一资源表，确定所述第二存储位置；且根据所述第二文件标识查询所述第二资源表，确定所述第二文件的第二版本、所述第二版本对应的所述第二文件的第二开始字节以及所述第二版本对应的所述第二文件的第二结束字节；

根据所述第二存储位置以及所述第二结束字节，确定所述第二结束字节加M的位置为所述第二文件的文件流写入所述HDFS的写入开始位置，M为大于0的整数；

当所述第二结束字节加M大于或等于第一阈值时，新增所述第二文件的第三存储位置，所述第三存储位置为所述写入开始位置；

根据所述写入开始位置写入所述第二文件；

获取所述第一标识；当所述第一标识标记所述写入状态为所述成功时，配置所述第二文件的第三版本，所述第三版本的取值为所述第二版本的取值加N，N为大于0的整数；存储所述第二文件标识和所述第三版本至所述第二资源表。
如权利要求6所述的方法，其特征在于，获取所述第一标识之后，还包括：

当所述第一标识标记所述写入状态为所述未写完，且未获取到系统异常消息时，新增所述第四存储位置，所述第四存储位置为继续写入所述第二文件的文件流的位置。
一种文件管理装置，其特征在于，包括：

获取单元，用于获取第一用户下载第一文件的第一请求；

处理单元，用于根据所述第一请求获取所述第一用户请求下载的第一文件标识和第一文件版本；根据所述第一文件标识查询第一资源表，确定所述第一文件在分布式文件系统HDFS的第一存储位置，所述第一资源表用于记录所述HDFS中文件的基本信息；根据所述第一文件版本查询第二资源表，确定所述第一文件版本对应的所述第一文件的第一开始字节和第一结束字节；

所述处理单元，用于根据所述第一存储位置、所述第一开始字节以及所述第一结束字节，确定所述第一文件在所述HDFS中的下载开始位置和下载结束位置；

所述处理单元，还用于根据所述下载开始位置和所述下载结束位置下载所述第一文件；当下载所述第一文件成功时，将第一记录存储至第三资源表，所述第三资源表用于记录对所述HDFS中文件的下载操作，所述第一记录用于标记下载所述第一文件成功。
如权利要求8所述的装置，其特征在于，所述处理单元具体用于：

根据所述第一文件标识查询所述第一资源表中所述第一用户对所述第一文件的第一操作权限；

当所述第一操作权限记录所述第一用户对所述第一文件有下载权限时，根据所述第一文件版本查询所述第二资源表。
如权利要求8所述的装置，其特征在于，所述处理单元具体用于：

按照负载均衡算法从至少一个实例中选取负载轻的第一实例；通过第一实例对所述第一请求处理，所述第一实例用于处理所述第一用户首次上传、更新以及下载文件的请求。
一种计算设备，其特征在于，包括处理器、存储器、通信接口，其中处理器、存储器与通信接口之间通过总线连接；

所述处理器，用于读取所述存储器中的程序，执行权利要求1至7任一所述方法；

所述存储器，用于存储一个或多个可执行程序，以及存储所述处理器在执行操作时所使用的数据。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至7任一所述方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至7任一所述方法。