WO2020093501A1

WO2020093501A1 - 文件存储方法、删除方法、服务器及存储介质

Info

Publication number: WO2020093501A1
Application number: PCT/CN2018/119594
Authority: WO
Inventors: 赖志阳
Original assignee: 网宿科技股份有限公司
Priority date: 2018-11-08
Filing date: 2018-12-06
Publication date: 2020-05-14
Also published as: CN109582642A; EP3876106A1; EP3876106A4; US20200349113A1

Abstract

本发明实施例涉及存储技术领域，公开了一种文件存储方法、删除方法、服务器及存储介质。一种文件存储方法，包括：接收待存储文件；检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件；当存在与待存储文件相同的存储文件时，生成指向相同的存储文件的存储地址的路径，并将生成的路径作为待存储文件进行保存。采用本发明的实施方式，使得文件存储过程中，对同一份文件只存储一次，以实现对存储空间的优化。

Description

文件存储方法、删除方法、服务器及存储介质

技术领域

本发明涉及存储技术领域，特别涉及一种文件存储技术。

背景技术

随着互联网高速发展，产生了诸多新型存储设备，如文件资源服务器等，通常是多个用户共用一个存储空间，每个用户都可拥有自己的空间用于存储文件；随着时间增长，存储空间的消耗会不断增大。

然而发明人发现现有技术中存在如下问题：由于用户行为的不可控性，当多个用户分别存储了同样的文件时，会造成相同文件的重复存储，占用了不必要的存储空间，浪费了有限的存储资源；若通过新增文件资源服务器等来解决文件重复存储占用存储空间的问题，则会产生巨大的成本。

发明内容

本发明实施方式的目的在于提供一种文件存储方法、删除方法、服务器及存储介质，以解决相同文件重复存储时占用存储空间的问题，使得文件存储过程中，对同一份文件只存储一次，以实现对存储空间的优化。

为解决上述技术问题，本发明的实施方式提供了一种文件存储方法，包括以下步骤：接收待存储文件；检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件；当存在与待存储文件相同的存储文件时，生成指向相同的存储文件的存储地址的路径，并将生成的路径作为待存储文件进行保存。

本发明的实施方式还提供了一种文件删除方法，包括以下步骤：接收文件的删除指令；若待删除文件为以路径方式存储的文件，则删除存储的路径。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的文件存储方法，或者，执行上述的文件删除方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时上述文件存储方法，或者，执行上述文件删除方法。

本发明实施方式相对于现有技术而言，接收待存储的文件，首先检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件，当存在与存储文件相同的存储文件时，生成指向相同的存储文件的存储地址的路径，并将生成的路径作为待存储文件保存，即对重复存储过的文件，只保存指向相同存储文件的存储地址的路径，用户通过保存的路径同样可以访问到待存储文件，极大的减少了对存储空间的占用，提升了存储空间的利用率，且从存储文件至存储路径的演变无需用户进行额外的操作，实现简单，实用性高，不会产生过多成本。

另外，检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件，具体为：计算待存储文件的消息摘要；检测在已存储的存储文件中，是否存在与待存储文件具有相同消息摘要的存储文件；如不存在具有相同消息摘要的存储文件，则判定不存在与待存储文件相同的存储文件；若存在具有相同消息摘要的存储文件，则将待存储文件的内容与具有相同消息摘要的存储文件的内容进行比对，若比对结果相同，则判定存在与待存储文件相同的存储文件；若比对结果不相同，则判定不存在与待存储文件相同的存储文件。这样，提供了一种检测相同的存储文件的具体实现方法，首先通过消息摘要检测是否可能存在与待存储文件相同的存储文件，由于每个文件都可以计算出自身的一个固定的消息摘要，因此可以对实现绝大部分相同的存储文件的检测；另外考虑到消息摘要碰撞的情况，即多个文件具有相同消息摘要的情况，再通过对文件内容的比对，判断是否存在与待存储文件相同的文件，有效的提升了检测是否存在相同的存储文件的准确性。

另外，计算待存储文件的消息摘要，具体包括：当待存储文件的大小，小于预设门限时，直接计算待存储文件的消息摘要；当待存储文件的大小，大于或等于预设门限时，将待存储文件按预设大小进行划分，根据划分后的数据计算待存储文件的消息摘要。这样，提供了一种计算待存储文件的消息摘要的方法；消息摘要的计算具体为计算出可代表文件本身的特征串，当待存储文件大小大于或等于预设门限时，通过计算划分的文件的数据的消息摘要，既保证了对消息摘要计算的准确性，也减轻服务器执行上述操作时的计算压力。

另外，将待存储文件的内容与具有相同消息摘要的存储文件的内容进行比对，具体包括：比对待存储文件与具有相同消息摘要的存储文件的长度是否相同；若长度不同，则判定待存储文件的内容与具有相同消息摘要的存储文件的内容不同；若长度相同，则以二分查找法分别对待存储文件与具有相同消息摘要的存储文件进行划分，依次比对每一划分部分的内容是否相同，直至内容的比对结果不同或完成所有内容的比对。这样，首先比对待存储文件与具有相同消息摘要的存储文件的长度是否相同：由于文件的长度不同时文件的内容一定不相同，预先比对文件长度有效减轻了服务器执行上述操作时的工作压力；当长度相同时，再比对文件内容，以二分查找法分别对划分后的文件部分内容进行比对，提升了比对效率和准确性；综上，有效避免了消息摘要发生碰撞时的误判相同的存储文件的情况，有效提升了检测是否存在相同的存储文件的准确性。

另外，生成指向相同的存储文件的存储地址的路径，具体包括：生成待存储文件的软链接或快捷方式；将生成的软链接或快捷方式链接到与相同的存储文件的存储地址；将生成的路径作为待存储文件进行保存，具体为：保存待存储文件的软链接或快捷方式。软链接或快捷方式为存放路径指向的普通文件，其大小远小于待存储文件的大小，且不会影响被指向的相同的存储文件的内容和属性；当用户访问路径时即可跳转到与待存储文件相同的文件，即软链接或快捷方式不会影响用户对待存储文件的访问，同时有效减少了对存储空间的占用，提升了存储空间的利用率，实现了对存储空间的优化；且软链接或快捷方式的生成简单，不会产生过多成本。

另外，当不存在与待存储文件相同的存储文件时，存储待存储文件，并生成待存储文件的定位文件，定位文件包括待存储文件的消息摘要和指向存储地址的路径；将生成的路径作为待存储文件进行保存后，还包括：生成待存储文件的定位文件，定位文件包括待存储文件的消息摘要和相同的存储文件的文件名。这样，当不存在与待存储文件相同的存储文件时，待存储文件也可正常的被保存；且完成待存储文件的保存后，生成的包括待存储文件的消息摘要和待存储文件的路径或存储地址的定位文件，便于快速的了解待存储文件的相关信息，有助于日后对待存储文件的删除等操作的执行。

另外，文件删除方法应用于服务器，服务器中存储有各存储文件的定位文件，定位文件用于存储所述存储文件的消息摘要，以及指向存储地址的路径或相同的存储文件的文件名；文件删除方法还包括：在接收文件的删除指令后，读取待删除文件的定位文件；判断待删除文件的定位文件中，是否存储有相同的存储文件的文件名；如果存储有相同的存储文件的文件名，则判定待删除文件为以路径方式存储的文件；删除待删除文件的定位文件。通过这种方式，提便于对待删除文件的消息摘要和链接等进行删除操作，同时减少了对服务器存储空间的不必要的占用。

另外，服务器中还存储有消息摘要列表，消息摘要列表用于存储消息摘要与各消息摘要对应的存储文件的文件名；服务器中还存储有与消息摘要列表中的各消息摘要一一对应的链接列表，链接列表用于存储至少一个存储文件的链接，链接包括所述存储文件链接到的源文件，以及指向源文件的存储地址的路径或存储地址；文件删除方法还包括：在删除所述待删除文件的定位文件后，根据待删除文件的消息摘要，在消息摘要列表中，删除待删除文件的消息摘要对应的待删除文件的文件名；根据待删除文件的消息摘要，获取与消息摘要对应的链接列表，在对应的链接列表中删除待删除文件的链接。通过这种方式，提供了对存储文件的消息摘要和链接的存储方式，还提供了对存储文件的消息摘要和链接的删除方式。

另外，在删除待删除文件的链接后，还包括：判断在消息摘要对应的链接列表中，是否还存储有与待删除文件链接到相同的源文件的链接；若未存储有与所述待删除文件链接到相同的源文件的链接，则释放待删除文件链接到的源文件所占用的存储空间。通过这种方式，减少了对服务器存储空间的不必要的占用。

另外，在释放所述待删除文件链接到的源文件所占用的存储空间后，还包括：判断在消息摘要列表中，是否还存储有与待删除文件具有相同消息摘要的文件的文件名；若否，在消息摘要列表中删除消息摘要。通过这种方式，减少了对服务器存储空间的不必要的占用。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式的文件存储方法的流程图；

图2是根据本发明第二实施方式的文件存储方法的流程图；

图3是根据本发明第三实施方式的文件删除方法的流程图；

图4是根据本发明第四实施方式的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解，本申请而提出了许多技术细节，但不限制其具体的实现形式。即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种文件存储方法，具体流程如图1所示。本实施方式中，在文件存储过程中，对同一份文件只存储一次，以实现对存储空间的优化。下面对图1的流程做具体说明：

步骤101，接收待存储文件。

具体地说，由用户上传待存储的文件，服务器接收待存储文件，并暂存至服务器中一块专用于暂存文件的空间；暂存的待存储文件可被用户正常访问。通过这种方式，不影响用户对待存储文件的正常访问，未将待存储文件直接保存至存储空间，减少了对存储空间的占用。

步骤102，检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件；若是，执行步骤103；若否，执行步骤105。

具体地说，若存在与待存储文件相同的存储文件，则不重复存储待存储文件，以实现对存储空间的节省和利用；若不存在与待存储文件相同的存储文件，则正常保存待存储文件。

更具体地说，当接收待存储文件后，可利用消息队列的方式，通知服务器执行文件重复性检测的任务，即当接收到待存储文件后，才开始检测在已存储的存储文件中，是否存在与待存储文件相同的存储文件。通过这种方式，更有效的利用了服务器的资源。

步骤103，生成指向相同的存储文件的存储地址的路径。

具体地说，当存在与待存储文件相同的存储文件时，生成指向相同的存储文件的存储地址的路径，即提供一种供用户链接到相同的存储文件的方式，不影响用户日后对待存储文件的访问；且从生成路径的过程无需用户进行额外的操作，实现简单，实用性高，不会产生过多成本。

更具体地说，生成指向相同的存储文件的存储地址的路径，具体包括：生成待存储文件的软链接或快捷方式，例如，在windows系统下生成待存储文件的快捷方式，在linux系统下则生成待存储文件的软链接。软链接或快捷方式为存放路径指向的普通文件，其大小一般为6B，远小于待存储文件的大小，也不会影响被指向的相同的存储文件的内容和属性。

步骤104，将生成的路径作为待存储文件进行保存。

具体地说，不保存重复存储过的文件，只保存指向相同存储文件的存储地址的路径，极大的减少了对存储空间的占用，提升了存储空间的利用率；并且当待存储文件的大小越大时，对存储空间的节省效果越好，对存储空间的利用率越高。例如，由于生成的路径(软链接或快捷方式)的大小一般为6B，当待存储文件大小为5M时，将生成的路径作为待存储文件进行保存，使得存储空间的占用得到了5*1024*1024/6B的优化。

更具体地说，将生成的路径作为待存储文件进行保存，具体为：保存待存储文件的软链接或快捷方式。当用户访问路径时即可跳转到与待存储文件相同的文件，不会影响用户对待存储文件的访问，同时有效减少了对存储空间的占用，提升了存储空间的利用率，实现了对存储空间的优化。

步骤105，存储待存储文件。

具体地说，当经过步骤102判定不存在与待存储文件相同的存储文件时，正常将待存储文件保存至存储空间。

步骤106，生成待存储文件的定位文件。

具体地说，当待存储文件为以路径方式存储的文件时，生成的定位文件包括待存储文件的消息摘要和生成的路径；当待存储文件不是以路径方式存储的文件时，生成的定位文件包括待存储文件的消息摘要和待存储文件的存储地址。通过这种方式，便于用户在打开定位文件时令快速的了解待存储文件的相关信息，有助于日后对待存储文件的删除等操作的执行。

本实施方式相对于现有技术而言，不保存重复存储过的文件，只保存指向相同存储文件的存储地址的路径，有效实现了对存储空间的优化。现有技术中，由于用户行为的不可控性，易造成对相同文件的重复存储。例如，用户A上传了一份大小为5M的材料1，用户B、用户C等也上传了同样的一份材料1，这样有N个用户都上传了材料1，在存储空间中就重复存储了N份大小为5M的材料1，然而其中N-1份的材料1属于冗余存储，也就是说给存储空间带来了(N-1)*5M大小的浪费。而本实施方式中，当用户B、用户C等N个用户都上传了材料1时，只保存指向已存储的材料1的存储地址的路径，这样极大的减少了对存储空间的占用，提升了存储空间的利用率，实现了对存储空间的优化；且从存储文件至存储路径的演变无需用户进行额外的操作，实现简单，实用性高，不会产生过多成本。在完成待存储文件的保存后生成待存储文件的定位文件，便于快速的了解待存储文件的相关信息，有助于日后对待存储文件的删除等操作的执行。

本发明的第二实施方式涉及一种文件存储方法，具体流程如图2所示。第二实施方式与第一实施方式大致相同，主要区别之处在于：在本发明第二实施方式中，对如何检测在已存储的存储文件中，是否存在与待存储文件相同的文件，进行了进一步的细化。下面对图2的流程做具体说明：

步骤201，接收待存储文件。本步骤与步骤101相同，此处不再赘述。

步骤202，计算待存储文件的消息摘要。

具体地说，每个文件都具有一固定的消息摘要，消息摘要的本质是由若干个字节构成的特征串，可以通过一定的计算从由多个字节组成的文件中计算出前述的特征串。本实施方式提供了计算待存储文件的消息摘要的方法：当待存储文件的大小，小于预设门限时，说明待存储文件的字节数较少，可直接计算待存储文件的消息摘要；当待存储文件大小，大于或等于预设门限时，将待存储文件划分为若干组数据，分别计算划分后的若干组数据的的消息摘要。通过这种方式，既保证了对消息摘要计算的准确性，也减轻服务器执行上述操作时的计算压力。

步骤203，检测在已存储的存储文件中，是否存在与待存储文件具有相同消息摘要的存储文件；若是，执行步骤204；若否，判定不存在与待存储文件相同的存储文件，执行步骤207。

具体地说，本步骤提供了一种检测相同的存储文件的具体实现方法，首先通过检测消息摘要判断是否可能存在与待存储文件相同的存储文件：由于每个文件都可以计算出自身的一固定的消息摘要，因此检测是否存在与待存储文件具有相同消息摘要的存储文件，可以实现对绝大部分相同的存储文件的检测。当不存在与待存储文件具有相同消息摘要的文件时，即不存在内容与待存储文件相同的文件，则判定不存在与待存储文件相同的存储文件。

步骤204，比对待存储文件与具有相同消息摘要的存储文件的内容是否相同；若是，判定存在与待存储文件相同的存储文件，执行步骤205；若否，判定待存储文件的内容与具有相同消息摘要的存储文件的内容不同，执行步骤207。

具体地说，当存在与待存储文件具有相同消息摘要的存储文件后，还要考虑到消息摘要碰撞的情况，即多个文件具有相同消息摘要的情况：由于消息摘要算法是从多个字节组成的文件中计算出由若干个字节构成的的特征串，对于超过一定字节的文件来说，计算出的特征串是一个子集，所以必然存在两个或两个以上不同的文件具有相同的特征串。此时，对待存储文件和具有相同消息摘要的存储文件进行文件内容的比对，有效的提升了检测是否存在相同的存储文件的准确性。

更具体地说，比对待存储文件与具有相同消息摘要的存储文件的内容是否相同时，首先比对待存储文件与具有相同消息摘要的存储文件的长度是否相同：由于待存储文件与具有相同消息摘要的存储文件的长度不同时，其文件的内容一定不相同，所以预先比对文件长度有效减轻了服务器执行上述操作时的工作压力；当长度相同时，再对文件内容进行比对，具体为：以二分查找法分别对待存储文件与具有相同消息摘要的存储文件进行划分，依次比对每一划分部分的内容，通过这种方式，有顺序有条理的文件的内容进行比对，且每次比对的每一划分部分的大小在一定范围内，提升了比对效率和准确性。通过这种比对方式，有效避免了消息摘要发生碰撞时的误判相同的存储文件的情况，有效提升了检测是否存在相同的存储文件的准确性。

更具体地说，上述比对过程均在后台执行，不阻塞主线程，不影响服务器的正常使用，即有效利用了服务器的资源。

步骤205，生成指向相同的存储文件的存储地址的路径。本步骤与步骤103相同，此处不再赘述。

步骤206，将生成的路径作为待存储文件进行保存。本步骤与步骤104相同，此处不再赘述。

步骤207，存储待存储文件。本步骤与步骤105相同，此处不再赘述。

步骤208，生成待存储文件的定位文件。本步骤与步骤106相同，此处不再赘述。

本实施方式中，若存在与待存储文件具有相同消息摘要、相同长度、相同内容的存储文件，则说明已存储的存储文件中，存在与待存储文件相同的存储文件，待存储文件无需重复存储；若不存在与待存储文件具有相同内容的存储文件，则说明不存在与待存储文件相同的存储文件，待存储文件将被正常保存。通过这种方式，准确的确定了与待存储文件相同的存储文件，以便于决定待存储文件的存储方式。

下面以一个实例进行具体说明：

服务器中存储有消息摘要列表，消息摘要列表用于存储各存储文件的消息摘要与各存储文件的文件名，各存储文件的消息摘要与文件名对应；服务器中还存储有与消息摘要列表中的各消息摘要一一对应的链接列表，链接列表用于存储至少一个存储文件的链接，链接包括存储文件链接到的源文件，以及指向源文件的存储地址的路径或存储地址。

服务器接收待存储文件A，并将待存储文件A重命名为待存储文件xA，以保证文件名称的唯一性；也可采用时间戳和随机值的组合作为待存储文件的重命文件名。将待存储文件xA暂存至服务器中一块专用于暂存文件的空间。

随后，计算待存储文件xA的消息摘要，例如，以MD5(Message Digest Algorithm 5，消息摘要算法第五版)算法，计算待存储文件xA的MD5值(后文将待存储文件xA的消息摘要，简称为AMD5)。若待存储文件xA的文件大小小于预设门限5M时，直接计算AMD5。若待存储文件xA的文件大小大于或等于预设门限5M时，将待存储文件xA划分为n等份数据，每等份数据的大小为256K；取第1等份、第n/2等份和第n等份共三份数据，然后以第2等份和第((n/2)-1)等份作为起始数据和结束数据，再取三份数据，以第((n/2)+1)等份和第(n-1)等份作为起始数据和结束数据，再取三份数据，直至最后得到20份等份数据，将20份等份数据按序合并后计算合并数据的消息摘要作为AMD5。下面以一实例进行具体说明，将待存储文件xA划分为1000等份数据，每等份数据的大小为256K，取第1等份、第500等份和第1000等份共三份数据，再取第2等份、第250等份、第499等份共三份数据，再取第501等份、第750等份和第999等份共三份数据……依次直至取到20份等份数据，将这20等份数据按等份数顺序合并，对合并后得到的多个字节计算出消息摘要，作为待存储文件xA的 MD5值。通过分散取值的方式，较优于连续取值方式得到的结果。

随后，从消息摘要列表中，查找是否存在AMD5。

若消息摘要列表中不存在AMD5，则说明在已存储的存储文件中，不存在与待存储文件xA相同的存储文件。在服务器中存储待存储文件xA；在消息摘要列表中，新增一项消息摘要AMD5和对应的文件名xA(如表1所示)；并新增AMD5对应的链接列表(即下表2)，在AMD5对应的链接列表中存储待存储文件xA的链接，以“xA_xA”的形式存入(如表2所示)，其中，“xA_xA”表示待存储文件xA的源文件为待存储文件xA本身，待存储文件xA的存储地址为xA；同时在待存储文件xA的存储目录下生成待存储文件xA的定位文件xA.links，在定位文件xA.links中，写入AMD5和指向待存储文件xA的存储地址的路径，以“AMD5_xA”的形式写入。

表1消息摘要列表1-1

消息摘要	文件名
AMD5	xA
CMD5	xC
……	……

表2 AMD5对应的链接列表1-1

xA_xA

若消息摘要列表中存在AMD5，则在AMD5对应的文件名中新增一项文件名xA(如表3和表5)；从AMD5对应的文件名中得知具有相同消息摘要AMD5的文件B(如表3)，从服务器中获取已存储的文件B，比对待存储文件xA与文件B内容是否相同。首先，匹配待存储文件xA与文件B的长度是否相同，若长度不相同，则判定待存储文件xA与文件B内容不一致；若长度相同，将待存储文件xA与文件B分别都划分为n等份数据，每等份数据的大小为256K；分别取待存储文件xA和文件B的第1等份、第n/2等份和第n等份共三份数据进行依次比对，然后分别以待存储文件xA和文件B的第2等份和第((n/2)-1)等份作为起始数据和结束数据，再取三份数据进行依次比对，然后分别以待存储文件xA和文件B的第((n/2)+1)等份和第(n-1)等份作为起始数据和结束数据，再取三份数据进行依次比对，直至比对了全部内容一致，则判定待存储文件xA与文件B内容一致。比对过程中，有任一次比对内容不一致，都判定待存储文件xA与文件B内容不一致。

若判定待存储文件xA与文件B内容一致，则将暂存至服务器的待存储文件xA删除，生成指向文件B的存储地址的路径并命名为xA，将生成的路径xA作为待存储文件xA进行保存至服务器；并在AMD5对应的链接列表中，新增待存储文件xA的链接，以“B_xA”的形式存入(如表4所示)，其中，“B_xA”表示待存储文件xA链接到的源文件为文件B，指向文件B的存储地址的路径为xA；同时在待存储文件xA的存储目录下生成待存储文件xA的定位文件xA.links，在定位文件xA.links中，写入AMD5和与待存储文件xA的相同的存储文件的文件名，以“AMD5_B”的形式写入。

表3消息摘要列表1-2

消息摘要	文件名
AMD5	xA、B
CMD5	xC
……	……

表4 AMD5对应的链接列表1-2

B_xA

若判定待存储文件xA与文件B内容不一致，则在服务器中存储待存储文件xA；在AMD5对应的链接列表中，新增待存储文件xA的存储地址，以“xA_xA”的形式存入(如表6所示)，其中，“xA_xA”表示待存储文件xA链接到的源文件为待存储文件xA本身，待存储文件xA的存储地址为xA；同时在待存储文件xA的存储目录下生成待存储文件xA的定位文件xA.links，在定位文件xA.links中，写入AMD5和指向待存储文件xA的存储地址的路径，以“AMD5_xA”的形式写入。

表5消息摘要列表1-3

消息摘要	文件名
AMD5	xA、B
CMD5	xC
……	……

表6 AMD5对应的链接列表1-3

xA_xA
B_B
B_X
B_Y
….

本实施方式相对于现有技术而言，根据待存储文件的大小采用不同的方式计算待存储文件的消息摘要，保证了对消息摘要计算的准确性，减轻服务器执行上述操作时的计算压力；通过比对待存储文件与具有相同消息摘要的存储文件的长度和内容是否相同来判断是否存在与待存储文件相同的存储文件，有效避免了消息摘要发生碰撞时的误判相同的存储文件的情况，提升了检测是否存在相同的存储文件的准确性，且不影响服务器的正常使用。

本发明的第三实施方式涉及一种文件删除方法。具体流程如图3所示。本实施方式中，服务器中存储有各存储文件的定位文件，定位文件用于存储所述存储文件的消息摘要，以及指向存储地址的路径或相同的存储文件的文件名；服务器中还存储有消息摘要列表，消息摘要列表用于存储消息摘要与各消息摘要对应的存储文件的文件名，各存储文件的消息摘要与文件名对应；服务器中还存储有与消息摘要列表中的各消息摘要一一对应的链接列表，链接列表用于存储至少一个存储文件的链接，链接包括存储文件链接到的源文件，以及指向所述源文件的存储地址的路径或存储地址。本实施方式中，对以路径形式存储的文件提供了删除的方法；还提供了对存储文件的消息摘要和链接的存储方式，便于对存储文件的链接进行快速查找和删除操作；在删除文件的过程中，对消息摘要是否删除进行了判断，有效减少了无用数据对服务器空间的占用。下面对图3的流程做具体说明：

步骤301，接收文件删除指令。

具体地说，接收由用户发出的的删除文件的指令，其中可被用户删除的文件为该用户上传并存储的文件。

步骤302，读取待删除文件的定位文件。

具体地说，在接收到文件删除指令后，在待删除文件的存储目录下读取待删除文件的.links定位文件，从定位文件的内容获取到待删除文件的消息摘要，以及指向存储地址的路径或相同的存储文件的文件名，便于对待删除文件的消息摘要和链接等进行删除操作；若定位文件中存储有相同的存储文件的文件名，则判定待删除文件为以路径方式存储的文件；若定位文件中存储有指向存储地址的路径，则判定待删除文件不是以路径方式存储的文件。随后，删除待删除文件的定位文件，以减少对服务器存储空间的不必要的占用。

步骤303，在消息摘要列表中删除待删除文件的文件名。

具体地说，由于消息摘要列表中各存储文件的消息摘要与文件名对应，因此根据获取到的待删除文件的消息摘要，在消息摘要列表中删除待删除文件的文件名。

步骤304，在链接列表中删除待删除文件的链接。

具体地说，根据读取定位文件获取到的待删除文件的消息摘要，获取与待删除文件的消息摘要对应的链接列表；在对应的链接列表中，删除待删除文件的链接。

步骤305，判断待删除文件是否为以路径方式存储的文件，若是，执行步骤306，若否，执行步骤307。

具体地说，由于读取待删除文件的定位文件后，从定位文件的内容获取到指向存储地址的路径或相同的存储文件的文件名，因此，若定位文件中存储有相同的存储文件的文件名，则判定待删除文件为以路径方式存储的文件，执行步骤306；若定位文件中存储有指向存储地址的路径，则判定待删除文件不是以路径方式存储的文件，执行步骤307。

步骤306，删除存储的路径。

具体地说，若所述待删除文件为以路径方式存储的文件，则删除存储的所述路径，即删除了待删除文件。

步骤307，判断链接列表中是否还存储有与待删除文件链接到相同的源文件的链接，若是，结束；若否，执行步骤308。

具体地说，在待删除文件的消息摘要对应的链接列表中，判断是否还存储有与待删除文件链接到相同的源文件的链接，若是，说明有多个不同来源的文件都链接到了待删除文件链接到的源文件，待删除文件链接到的源文件属于有用数据，需要保留；若否，说明该相同的源文件在存储时存储至链接列表的链接也已经被删除，待删除文件链接到的源文件属于无用数据，需要被删除。

步骤308，释放待删除文件链接到的源文件所占用的存储空间。

具体地说，由于链接列表中不存在待删除文件链接到的源文件的链接，说明不存在其他文件需要链接到待删除文件链接到的源文件，因此从服务器上删除待删除文件链接到的源文件，释放该源文件所占用的存储空间，减少了对服务器存储空间的不必要的占用。

步骤309，判断消息摘要列表中是否还存储有与待删除文件具有相同消息摘要的文件名，若是，结束；若否，执行步骤310。

具体地说，由于消息摘要列表用于存储各存储文件的消息摘要与各存储文件的文件名，各存储文件的消息摘要与文件名对应，因此若还存储有其他与待删除文件具有相同消息摘要的文件的文件名，说明有多个不同文件具有相同的该消息摘要，该消息摘要属于有用数据，需要保留；若不存在其他与待存储文件具有相同消息摘要的文件的文件名，说明该消息摘要属于无用数据，需要被删除。

步骤310，在消息摘要列表中删除消息摘要。

具体地说，由于不存在其他与待存储文件具有相同消息摘要的文件的文件名，说明该消息摘要属于无用数据，需要被删除。通过这种方式，有效减少了无用数据对服务器空间的占用。

下面以一实例为具体说明。接收到对文件xA的删除指令，前往待删除文件xA的存储目录读取定位文件xA.links，定位文件的内容为“AMD5_B”，表示待删除文件xA的消息摘要为AMD5，待删除文件xA的相同的存储文件为文件B，即待删除文件xA为以路径方式存储的文件。根据AMD5，在消息摘要列表中删除AMD5对应的文件名xA(如表7所示)。根据AMD5，获取与AMD5对应的链接列表，在AMD5的链接列表中删除“B_xA”一项链接(如表8所示)。随后在服务器中删除存储的路径xA，即删除了待删除文件xA。此时AMD5对应链接列表中，还存储有B_B和B_xB项，则保留相同的存储文件B。

表7消息摘要列表1-4

表8 AMD5对应的链接列表1-4

下面以另一实例为具体说明。接收到对文件xC的删除指令，前往待删除文件xC的存储目录读取定位文件xC.links，定位文件内容为“AMD5_B”，表示待删除文件xC的消息摘要为AMD5，待删除文件xC的相同的存储文件为文件B，即待删除文件xC为以路径方式存储的文件。根据AMD5，在消息摘要列表中删除AMD5对应的文件名xC(如表9所示)。根据 AMD5，获取与AMD5对应的链接列表，在AMD5的链接列表中删除“B_xC”一项链接(如表10所示)，且得知待删除文件xC链接到的源文件为文件B。随后在服务器中删除存储的路径xC，即删除了待删除文件xC。此时AMD5对应的链接列表中，不存在其他链接到源文件B的链接，因此在服务器中释放源文件B占用的存储空间。此时在消息摘要列表中，AMD5对应的文件名只有B，而文件B已被删除，因此在消息摘要列表中删除消息摘要AMD5(如表11所示)。

表9消息摘要列表1-5-1

表10 AMD5对应的链接列表1-5

表11消息摘要列表1-5-2

下面以另一实例为具体说明。接收到对文件D的删除指令，前往待删除文件D的存储目录读取定位文件D.links，定位文件内容为“DMD5_D”，表示待删除文件D的消息摘要为DMD5，指向待删除文件D的存储地址的路径为D，即待删除文件D不是以路径方式存储的文件。根据DMD5，在消息摘要列表中删除DMD5对应的文件名D(如表12所示)。根据DMD5，获取与DMD5对应的链接列表，在DMD5的链接列表中删除“D_D”一项链接(如表13所示)，且得知待删除文件D连接到的源文件为文件D。随后在服务器中释放待删除文件D占用的存储空间，即删除了待删除文件D。此时DMD5对应的链接列表中，不存在其他链接到待删除文件D的链接，因此待删除文件D占用的存储空间需要被释放。此时在消息摘要列表中，DMD5对应的文件名还有D1、D2，则保留消息摘要DMD5。

表12消息摘要列表1-6

表13 DMD5对应的链接列表1-6

本实施方式相对于现有技术而言，服务器中存储有消息摘要列表和与消息摘要列表中的各消息摘要一一对应的链接列表，提供了各存储文件的消息摘要和链接的存储方式；将存储文件的定位文件，消息摘要与链接进行了对应联系，便于对存储文件的链接进行快速查找和删除操作。提供了对文件删除的具体实现方式，增加了本实施方式的可行性，且在删除文件的过程中，对消息摘要等是否需要删除进行了判断，有效减少了无用数据对服务器空间的占用。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种服务器，如图4所示，包括至少一个处理器402；以及，与至少一个处理器402通信连接的存储器401；其中，存储器401存储有可被至少一个处理器402执行的指令，指令被至少一个处理器402执行，以使至少一个处理器402能够执行上述文件存储方法，或者，执行上述文件删除方法。

其中，存储器401和处理器402采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器402和存储器401的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器402处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器402。

处理器402负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器401可以被用于存储处理器402在执行操作时所使用的数据。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第六实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器402执行时实现上述文件存储方法实施例，或实现上述文件删除方法实施例。

即，本领域技术人员可以理解，实现上述文件存储方法实施例或文件删除方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

一种文件存储方法，其特征在于，包括：

接收待存储文件；

检测在已存储的存储文件中，是否存在与所述待存储文件相同的存储文件；

当存在与所述待存储文件相同的存储文件时，生成指向所述相同的存储文件的存储地址的路径，并将生成的所述路径作为所述待存储文件进行保存。
根据权利要求1所述的文件存储方法，其特征在于，所述检测在已存储的存储文件中，是否存在与所述待存储文件相同的存储文件，具体为：

计算所述待存储文件的消息摘要；

检测在已存储的存储文件中，是否存在与所述待存储文件具有相同消息摘要的存储文件；

如不存在具有相同消息摘要的存储文件，则判定不存在与所述待存储文件相同的存储文件；

若存在具有相同消息摘要的存储文件，则将所述待存储文件的内容与所述具有相同消息摘要的存储文件的内容进行比对，若比对结果相同，则判定存在与所述待存储文件相同的存储文件；若比对结果不相同，则判定不存在与所述待存储文件相同的存储文件。
根据权利要求2所述的文件存储方法，其特征在于，所述计算所述待存储文件的消息摘要，具体包括：

当所述待存储文件的大小，小于预设门限时，直接计算所述待存储文件的消息摘要；

当所述待存储文件的大小，大于或等于所述预设门限时，将所述待存储文件按预设大小进行划分，根据划分后的数据计算所述待存储文件的消息摘要。
根据权利要求2所述的文件存储方法，其特征在于，所述将所述待存储文件的内容与所述具有相同消息摘要的存储文件的内容进行比对，具体包括：

比对所述待存储文件与所述具有相同消息摘要的存储文件的长度是否相同；

若长度不同，则判定所述待存储文件的内容与所述具有相同消息摘要的存储文件的内容不同；

若长度相同，则以二分查找法分别对所述待存储文件与所述具有相同消息摘要的存储文件进行划分，依次比对每一划分部分的内容是否相同，直至内容的比对结果不同或完成所有内容的比对。
根据权利要求1至4中任一项所述的文件存储方法，其特征在于，所述生成指向所述相同的存储文件的存储地址的路径，具体包括：

生成所述待存储文件的软链接或快捷方式；

将生成的所述软链接或所述快捷方式链接到与所述相同的存储文件的存储地址；

所述将生成的所述路径作为所述待存储文件进行保存，具体为：保存所述待存储文件的软链接或快捷方式。
根据权利要求1至4中任一项所述的文件存储方法，其特征在于，还包括：

当不存在与所述待存储文件相同的存储文件时，存储所述待存储文件，并生成所述待存储文件的定位文件，所述定位文件包括所述待存储文件的消息摘要和指向存储地址的路径；

所述将生成的所述路径作为所述待存储文件进行保存后，还包括：

生成所述待存储文件的定位文件，所述定位文件包括所述待存储文件的消息摘要和所述相同的存储文件的文件名。
一种文件删除方法，其特征在于，包括：

接收文件的删除指令；

若所述待删除文件为以路径方式存储的文件，则删除存储的所述路径。
根据权利要求7所述的文件删除方法，其特征在于，所述文件删除方法应用于服务器，所述服务器中存储有各存储文件的定位文件，所述定位文件用于存储所述存储文件的消息摘要，以及指向存储地址的路径或相同的存储文件的文件名；所述文件删除方法还包括：

在所述接收文件的删除指令后，读取待删除文件的定位文件；

判断所述待删除文件的定位文件中，是否存储有相同的存储文件的文件名；

如果存储有相同的存储文件的文件名，则判定所述待删除文件为以路径方式存储的文件；

删除所述待删除文件的定位文件。
根据权利要求8所述的文件删除方法，其特征在于，所述服务器中还存储有消息摘要列表，所述消息摘要列表用于存储消息摘要与各消息摘要对应的存储文件的文件名；所述服务器中还存储有与所述消息摘要列表中的各消息摘要一一对应的链接列表，所述链接列表用于存储至少一个存储文件的链接，所述链接包括所述存储文件链接到的源文件，以及指向所述源文件的存储地址的路径或存储地址；所述文件删除方法还包括：

在所述删除所述待删除文件的定位文件后，根据所述待删除文件的消息摘要，在所述消息摘要列表中，删除所述待删除文件的消息摘要对应的所述待删除文件的文件名；

根据所述待删除文件的消息摘要，获取与所述消息摘要对应的链接列表，在所述对应的链接列表中删除所述待删除文件的链接。
根据权利要求9所述的文件删除方法，其特征在于，在所述删除存储的所述路径后，还包括：

判断在所述消息摘要对应的链接列表中，是否还存储有与所述待删除文件链接到相同的源文件的链接；

若未存储有与所述待删除文件链接到相同的源文件的链接，则释放所述待删除文件链接到的源文件所占用的存储空间。
根据权利要求10所述的文件删除方法，其特征在于，在所述释放所述待删除文件链接到的源文件所占用的存储空间后，还包括：

判断在所述消息摘要列表中，是否还存储有与所述待删除文件具有相同消息摘要的文件的文件名；

若否，在所述消息摘要列表中删除所述消息摘要。
一种服务器，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的文件存储方法，或者，执行如权利要求7至11中任一项所述的文件删除方法。
一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文件存储方法，或者，执行如权利要求7至11中任一项所述的文件删除方法。