WO2022222547A1

WO2022222547A1 - 一种大批量pdf文件合并的方法及系统

Info

Publication number: WO2022222547A1
Application number: PCT/CN2022/000057
Authority: WO
Inventors: 梁俊义
Original assignee: 福建福昕软件开发股份有限公司
Priority date: 2021-04-19
Filing date: 2022-03-30
Publication date: 2022-10-27
Also published as: CN113128175A; CN113128175B; US20240005083A1

Abstract

本发明公开一种大批量PDF文件合并的方法及系统，其中方法包括：输出目标PDF文件的头部信息，输出catalog字典信息，生成PDF页面对象的对象编号并记录；依序解析待合并PDF文件，获取所有间接对象的对象编号和偏移量以及catalog字典信息；依序从catalog字典信息中解析对应待合并PDF文件的页面对象字典信息，并依序读取每个页面对象的对象编号信息；调用全局的对象编号生成器生成新的对象编号，并将原来的对象编号信息和新的对象编号的对应关系记录到映射中；调用PDF间接对象的输出类，将待合并PDF文件的页面对象输出到目标PDF文件的页面对象中，并记录其在目标PDF文件中的开始位置和长度；检查是否所有待合并PDF文件都已经完成合并。

Description

一种大批量PDF文件合并的方法及系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及计算机中PDF文件的处理，更具体地为一种大批量PDF文件合并的方法及系统。

背景技术

PDF(Portable Document Format，便携式文档格式)是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言(简称PS，是主要用于电子产业和桌面出版领域的一种页面描述语言和编程语言)图像模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即PDF会忠实地再现原稿的每一个字符、颜色以及图象。图1为PDF文件结构示意图，如图1所示，PDF文件通常由以下4个元素构成：文件头(header)，标识文件所符合的PDF规范版本；正文(body)，包含了组成文件中所含文档的对象；交叉引用表(cross-reference table)，包含关于文件中间接对象的信息；尾注(trailer)，提供交叉引用表和文件正文内某些特殊对象的位置。

用户在使用PDF文件的过程中，可能会需要将多个PDF文件进行合并，现有的PDF文件合并方法是首先对PDF文件进行解析，然后把要合并的PDF文件内容都clone(Java程序进行对象复制的方法)到一个新生成的PDF文件中，最后保存这个新生成的PDF文件。这种PDF文件的合并方法在执行时需要在内存中保存整个合并后PDF文件的相关信息，因此，会导致程序内存不断增大，尤其当需要合并的PDF文件量非常多的时候，采用此种方法会大量占用计算机内存，并且合并所需要的时间较长，执行效率较低，还会影响计算中其他应用的执行。

发明内容

为了解决上述问题，本发明提供一种大批量PDF文件合并的方法及系统，通过仅从待合并的PDF文件获取到每个对象在文件中的位置信息，解析几个少数的几个字典信息，调用全局对象数值生成器并修改每个待合并PDF文件中的对象数值后输出到新生成的PDF文件中，用以实现只需较少的内存即可在较短的时间内完成大批量PDF文件的合并。

为了达到上述目的，本发明提供了一种大批量PDF文件合并的方法，其包括以下步骤：

步骤1：确定并输出合并后的目标PDF文件的头部信息，输出对应catalog字典信息，生成对应PDF页面对象的对象编号并记录；

步骤2：依序解析多个待合并PDF文件，获取每个待合并PDF文件所有间接对象的对象编号和偏移量，同时获取每个待合并PDF文件的catalog字典信息；

步骤3：依序从每个待合并PDF文件的catalog字典信息中解析对应待合并PDF文件的页面对象字典信息，并从所有页面对象字典信息中依序读取每个页面对象的对象编号信息；

步骤4：调用全局的对象编号生成器生成新的对象编号，并将原来的对象编号信息和新的对象编号的对应关系记录到映射中；

步骤5：调用PDF间接对象的输出类，将每个待合并PDF文件的页面对象输出到合并后的目标PDF文件的页面对象中，并记录其在目标PDF文件中的开始位置和长度；

步骤6：检查是否所有待合并PDF文件都已经完成合并，

如果否，返回步骤2；

如果是，则根据目标PDF文件的页面对象字典信息组合全局信息到合并后的目标PDF文件中。

在本发明一实施例中，其中，步骤3中从每个待合并PDF文件的catalog字典信息中解析的信息还包括对应待合并PDF文件的交互式表单信息和书签信息。

在本发明一实施例中，其中，步骤5具体为：

步骤501：将每个待合并PDF文件的页面对象字典信息中引用的所有间接对象存入一向量中；

步骤502：循环输出所述向量中的所有间接对象到合并后的目标PDF文件中，当任一输出是待合并PDF文件的页面对象的父类字典时，则使用目标PDF文件的页面对象代替并结束对应输出；

步骤503：判断是否所有间接对象都已经输出，

如果是，整理每个待合并PDF文件的页面对象字典信息，并记录所述向量中的所有间接对象在合并后的目标PDF文件中的开始位置和长度；

如果不是，返回步骤3。

在本发明一实施例中，其中，步骤501中每个待合并PDF文件的页面对象的父类的间接对象在存入时，将其修改为合并后的目标PDF文件的页面对象。

在本发明一实施例中，其中，步骤502中任一间接对象的输出仅执行一次。

在本发明一实施例中，其中，步骤6中组合的全局信息包括交互式表单信息和书签信息。

为了达到上述目的，本发明还提供了一种大批量PDF文件合并的系统，其包括：

PDFMerger模块，用于管理合并后的目标PDF文件，其包括PDF合并过程中输出的所有间接对象的对象编号、所有间接对象的偏移量以及目标PDF文件的页面对象字典信息；

MergePDFDocument模块，用于待合并PDF文件的管理与解析，其解析的内容包括所有间接对象的对象编号及偏移量、待合并PDF文件的catalog字典信息、所有页面对象字典信息及交互式表单字典信息。

MergePDFPage模块，用于处理待合并PDF文件所要输出的页面对象字典中的所有间接对象；

PDFObjnumGenerator模块，用于生成合并后的目标PDF文件的间接对象的对象编号，其为一面向全局的类模块。

本发明提供的大批量PDF文件合并的方法及系统，与现有技术相比，在对大批量PDF进行合并时，合并时间较短，整个过程对系统内存的占用很少，合并效率较高，且执行合并的操作不影响其他应用的使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为PDF文件结构示意图；

图2为本发明一实施例的流程图；

图3为本发明一实施例的系统架构图；

图4为本发明一实施例50个PDF文档合并一次的时间消耗比对图；

图5为本发明一实施例50个PDF文档合并一次的内存消耗比对图；

图6为本发明一实施例200个PDF文档合并一次的时间消耗比对图；

图7为本发明一实施例200个PDF文档合并一次的内存消耗比对图；

图8为本发明一实施例1000个PDF文档合并一次的时间消耗比对图；

图9为本发明一实施例1000个PDF文档合并一次的内存消耗比对图；

图10为本发明一实施例2000个PDF文档合并一次的时间消耗比对图；

图11为本发明一实施例2000个PDF文档合并一次的内存消耗比对图。

附图标记说明：10-大批量PDF文件合并的系统；101-PDFMerger模块；102-MergePDFDocument模块；103-MergePDFPage模块；104-PDFObjnumGenerator模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图2为本发明一实施例的流程图，如图2所示，本实施例提供了一种大批量PDF文件合并的方法，其包括以下步骤：

步骤1：确定并输出合并后的目标PDF文件的头部信息，输出对应catalog字典信息，生成对应PDF页面对象(pages)的对象编号(objnum)并记录；

其中，catalog字典，是PDF文档对象层次结构的根，其通过PDF文件尾注(trailer)中的根(Root)条目进行定位，相当于目录，其包含对定义文档内容、大纲(outline)、文章线程(article threads)、命名目标(named destinations)以及其他属性的其他对象的引用；页面对象(pages)，是页面树节点，是文档页面树的根节点，是一个间接对象。

步骤2：依序解析多个待合并PDF文件，获取每个待合并PDF文件所有间接对象的对象编号(objnum)和偏移量(offset)，同时获取每个待合并PDF文件的catalog字典信息；

步骤3：依序从每个待合并PDF文件的catalog字典信息中解析对应待合并PDF文件的页面对象(page)字典信息，并从所有页面对象(page)字典信息中依序读取每个页面对象(page)的对象编号(objnum)信息；

在本实施例中，其中，步骤3中从每个待合并PDF文件的catalog字典信息中解析的信息还包括对应待合并PDF文件的交互式表单(AcroForm)信息和书签(bookmark)等信息。

步骤4：调用全局的对象编号(objnum)生成器生成新的对象编号(objnumber)，并将原来的对象编号(objnum)信息和新的对象编号(objnumber)的对应关系记录到映射(map)中；

步骤5：调用PDF间接对象的输出类，将每个待合并PDF文件的页面对象(page)输出到合并后的目标PDF文件的页面对象(pages)中，并记录其在目标PDF文件中的开始位置和长度；

在本实施例中，其中，步骤5具体为：

步骤501：将每个待合并PDF文件的页面对象(page)字典信息中引用的所有间接对象存入一向量(vector)中；

在本实施例中，其中，步骤501中每个待合并PDF文件的页面对象(page)的父类(parent)的间接对象在存入时，将其修改为合并后的目标PDF文件的页面对象(pages)。

步骤502：循环输出所述向量(vector)中的所有间接对象到合并后的目标PDF文件中，当任一输出的是待合并PDF文件的页面对象(page)的父类(parent)字典时，则使用目标PDF文件的页面对象(pages)代替并结束对应输出；

在本实施例中，其中，步骤502中所有间接对象只输出一次，在循环输出时，如果为已经输出过间接对象则不需要再次输出。

步骤503：判断是否所有间接对象都已经输出，

如果是，整理每个待合并PDF文件的页面对象(page)字典信息，并记录所述向量(vector)中的所有间接对象在合并后的目标PDF文件中的开始位置和长度；

如果不是，返回步骤3。

步骤6：检查是否所有待合并PDF文件都已经完成合并，

如果否，返回步骤2；

如果是，则根据目标PDF文件的页面对象(pages)字典信息组合全局信息到合并后的目标PDF文件中。

在本实施例中，其中，步骤6中组合的全局信息包括交互式表单(AcroForm)信息和书签(bookmark)等信息。

实施例二

图3为本发明一实施例的系统架构图，如图3所示，本实施例提供了一种大批量PDF文件合并的系统(10)，用于实现实施例一的方法，其包括：

PDFMerger模块(101)，用于管理合并后的目标PDF文件，其包括PDF合并过程中输出的所有间接对象的对象编号(objnum)、所有间接对象的偏移量(offset)以及目标PDF文件的页面对象(pages)字典信息；

MergePDFDocument模块(102)，用于待合并PDF文件的管理与解析；在本实施例中，MergePDFDocument模块(102)主要作用是解析待合并PDF文件，获取到这些文件中所有间接对象的对象编号(objnum)及偏移量(offset)，同时也要解析待合并PDF文件的catalog字典，来获取对应文件的所有页面对象(page)的字典信息及交互式表单(AcroForm)的字典信息等。

MergePDFPage模块(103)，用于处理待合并PDF文件所要输出的页面对象(page)字典中的所有间接对象；在本实施例中，页面对象(page)字典中的所有间接对象在输出的过程中不进行解压缩，而是使用待合并PDF文件中原来的压缩方式直接输出到合并后的目标PDF文件中。

PDFObjnumGenerator模块(104)，用于生成合并后的目标PDF文件的间接引用对象编号(objnum)，PDFObjnumGenerator模块(104)为一面向全局的类模块。在本实施例中，所有的对象的新的对象编号(objnum)，均统一由这个类模块生成。

实施例三

在本实施例中，根据实施例一和实施例二搭建测试环境，对不同情况下的PDF文件合并的性能进行测试，并与Adobe Acrobat11.0.0.379合并相同PDF文件的性能进行对比，具体如下：

测试环境：Windows 7 Professional 64位操作系统，4GB内存；

PDF文件总数：8000；

执行方式：自动化执行，设置对应的测试文件路径、合并文件数、测试机等，对文档进行批量合并，获取每次合并过程中的性能数据，并与与Adobe Acrobat11.0.0.379的数据进行比对。

测试一：50个文档合并一次的性能数据

图4为本发明一实施例50个PDF文档合并一次的时间消耗比对图，图5为本发明一实施例50个PDF文档合并一次的内存消耗比对图，其中，图4和图5的横坐标为执行合并操作的组数，在本实施例中，每50个PDF文档为一组，总共合并了265组，纵坐标分别为耗时和内存占用值，如图4和图5所示，在本实施例中，一次合并相同的50个PDF文档时，本发明平均耗时为11秒，平均内存占用为112MB，而Adobe的平均耗时为23秒，平均内存占用为142MB，Adobe Acrobat的平均耗时远高于本发明，内存占用略大于本发明。

测试二：200个文档合并一次的性能数据

图6为本发明一实施例200个PDF文档合并一次的时间消耗比对图，图7为本发明一实施例200个PDF文档合并一次的内存消耗比对图，其中，图6和图7的横坐标为执行合并操作的组数，在本实施例中，每200个PDF文档为一组，总共合并了43组，纵坐标分别为耗时和内存占用值，如图6和图7所示，在本实施例中，一次合并相同的200个PDF文档时，本发明的平均耗时为48秒，平均内存占用为116MB，而Adobe的平均耗时为75秒，平均内存占用为189MB，可见，Adobe Acrobat的平均耗时和内存占用均高于本发明。

测试三：1000个文档合并一次的性能数据

图8为本发明一实施例1000个PDF文档合并一次的时间消耗比对图，图9为本发明一实施例1000个PDF文档合并一次的内存消耗比对图，其中，图8和图9的横坐标为执行合并操作的组数，在本实施例中，每1000个PDF文档为一组，总共合并了8组，纵坐标分别为耗时和内存占用值，如图8和图9所示，在本实施例中，一次合并相同的1000个PDF文档时，本发明的平均耗时为140秒，平均内存占用为124MB，而Adobe的平均耗时为291秒，平均内存占用为204MB，可见，Adobe Acrobat的平均耗时和内存占用均远高于本发明。

测试四：2000个文档合并一次的性能数据

图10为本发明一实施例2000个PDF文档合并一次的时间消耗比对图，图11为本发明一实施例2000个PDF文档合并一次的内存消耗比对图，其中，图10和图11的横坐标为执行合并操作的组数，在本实施例中，每2000个PDF文档为一组，总共合并了3组，纵坐标分别为耗时和内存占用值，如图10和图11所示，在本实施例中，一次合并相同的2000个PDF文档时，本发明的平均耗时为521秒，平均内存占用为133MB，而Adobe的平均耗时为657秒，平均内存占用为244MB，可见，Adobe Acrobat的平均耗时略高于本发明，但Adobe Acrobat的平均内存占用却远高于本发明的平均内存占用。

由此可见，本发明在合并不同数量的PDF文档的操作时间消耗较好，内存占用也相对稳定，在与Adobe Acrobat的性能数据比较中，可以看出在时间消耗上本发明要优于Adobe Acrobat，在内存占用上本发明也优于Adobe Acrobat。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

一种大批量PDF文件合并的方法，其特征在于，包括以下步骤：

步骤1：确定并输出合并后的目标PDF文件的头部信息，输出对应catalog字典信息，生成对应PDF页面对象的对象编号并记录；

步骤2：依序解析多个待合并PDF文件，获取每个待合并PDF文件所有间接对象的对象编号和偏移量，同时获取每个待合并PDF文件的catalog字典信息；

步骤3：依序从每个待合并PDF文件的catalog字典信息中解析对应待合并PDF文件的页面对象字典信息，并从所有页面对象字典信息中依序读取每个页面对象的对象编号信息；

步骤4：调用全局的对象编号生成器生成新的对象编号，并将原来的对象编号信息和新的对象编号的对应关系记录到映射中；

步骤5：调用PDF间接对象的输出类，将每个待合并PDF文件的页面对象输出到合并后的目标PDF文件的页面对象中，并记录其在目标PDF文件中的开始位置和长度；

步骤6：检查是否所有待合并PDF文件都已经完成合并，

如果否，返回步骤2；

如果是，则根据目标PDF文件的页面对象字典信息组合全局信息到合并后的目标PDF文件中。
根据权利要求1所述的方法，其特征在于，步骤3中从每个待合并PDF文件的catalog字典信息中解析的信息还包括对应待合并PDF文件的交互式表单信息和书签信息。
根据权利要求1所述的方法，其特征在于，步骤5具体为：

步骤501：将每个待合并PDF文件的页面对象字典信息中引用的所有间接对象存入一向量中；

步骤502：循环输出所述向量中的所有间接对象到合并后的目标PDF文件中，当任一输出是待合并PDF文件的页面对象的父类字典时，则使用目标PDF文件的页面对象代替并结束对应输出；

步骤503：判断是否所有间接对象都已经输出，

如果是，整理每个待合并PDF文件的页面对象字典信息，并记录所述向量中的所有间接对象在合并后的目标PDF文件中的开始位置和长度；

如果不是，返回步骤3。
根据权利要求3所述的方法，其特征在于，步骤501中每个待合并PDF文件的页面对象的父类的间接对象在存入时，将其修改为合并后的目标PDF文件的页面对象。
根据权利要求3所述的方法，其特征在于，步骤502中任一间接对象的输出仅执行一次。
根据权利要求1所述的方法，其特征在于，步骤6中组合的全局信息包括交互式表单信息和书签信息。
一种大批量PDF文件合并的系统，用于实现权利要求1～6任一项的方法，其特征在于，包括：

PDFMerger模块，用于管理合并后的目标PDF文件，其包括PDF合并过程中输出的所有间接对象的对象编号、所有间接对象的偏移量以及目标PDF文件的页面对象字典信息；

MergePDFDocument模块，用于待合并PDF文件的管理与解析，其解析的内容包括所有间接对象的对象编号及偏移量、待合并PDF文件的catalog字典信息、所有页面对象字典信息及交互式表单字典信息。

MergePDFPage模块，用于处理待合并PDF文件所要输出的页面对象字典中的所有间接对象；

PDFObjnumGenerator模块，用于生成合并后的目标PDF文件的间接对象的对象编号，其为一面向全局的类模块。