WO2009146658A1

WO2009146658A1 - 一种非结构化数据处理方法和系统

Info

Publication number: WO2009146658A1
Application number: PCT/CN2009/072159
Authority: WO
Inventors: 王东临; 刘宁胜
Original assignee: 北京书生国际信息技术有限公司
Priority date: 2008-06-05
Filing date: 2009-06-05
Publication date: 2009-12-10
Also published as: CN101599011B; EP2309398A1; EP2309398A4; CN101599011A

Description

一种非结构化数据处理方法和系统

技术领域本发明涉及信息处理领域，特别是一种非结构化数据处理系统和方法。发明背景信息可大致分为结构化数据和非结构化数据，其中以书面文档和流媒体为主的非结构化数据根据资料统计占有量超过百分之七十。结构化数据的结构比较简单，即一个二维表结构，其处理技术以数据为代表，主要是利用数据库系统进行处理，从上世纪七八十年代开始发展，到九十年代达到顶峰，研发和应用已经比较成熟。非结构化数据则没有固定数据结构 , 因此对非结构化数据的处理非常的复杂。

目前处理各种非结构化数据的软件已经比较普及，形成了多种非结构化格式林立的状况。以办公文档为例，目前就存在 doc、 ODF、 OOXML、 UOF、 WPS等多种办公文档格式。

虽然各大公司目前都努力将自己特有的格式发展为市场标准，各标准组织也致力于制订通用的格式标准。但不管是专有的格式（如. doc )还是开放的格式（如 ODF ), 只要是以格式为标准，就不可避免产生以下问题：

重复开发，效果不统一。使用同一标准的不同软件都需要自己去解释、生成该格式的非结构化数据，造成大量重复开发，而且会因为各家解译程序不同，例如有的完善有的相对简单，有的支持新版本有的只支持旧版本数据，同一非结构化数据在不同软件下显现出不同的版式，甚至出现解译错误导致无法打开。

阻碍创新。软件是不断创新的行业，但由于每增加一个新功能就需要增加描述该功能的信息，而且只有等到标准修订的时候才能增加新的格式，因此把存储格式固定死，将会妨碍技术创新的竟争。

影响检索性能。对海量信息，需要增加大量的检索信息以提高检索性能，但固定死的存储格式难以增加检索信息

影响可移植性和可伸缩性。在不同的系统环境下，不同的应用需求，可能会有不同的存储要求。例如，存储在硬盘上就需要考虑如何减少磁头寻道的次数以提高性能，而在嵌入式应用中数据都相当于存储在内存中的，就不存在这个问题。例如，同一个厂商的数据库软件在不同平台上就可能会使用不同的存储格式。因此，设置文档存储标准将会影响系统的可移植性和可伸缩性。

通常，一个内容管理软件往往要处理二三百种数据格式，而且这些格式还在不断更新，给这类软件的开发带来了巨大的困难。更严重的问题是，由于缺乏互操作性，不同软件不能对同一个文档进行操作，一个环节生成的文档到下一个环节就可能打不开，这样信息流就不能畅通地流动，人们在投入巨资进行了信息化建设后却发现纸张还是最好的互操作平台（任何笔都可以在任何纸上书写，但 Word写的文件用同一家公司的 Excel都写不了），电脑往往只用于编辑环节然后还得打印出来用纸张文件来办事，信息流不能代替纸张流，阻碍了信息化建设的步伐。不仅是书面文档，其它类型的非结构化数据也存在同样的互操作问题，同样影响了数字信息的流 , . ^ ^

可见，实现非结构化数据的互操作意义非常重大。但现有技术都局限于采用制定存储格式标准的方式来解决互操作问题，而这种方式无论是理论上还是实践上都证明成效有限。原因在于这种方式要求每个软件都能完整准确地解析数据格式并正确实现该格式所定义的全部功能，而一种格式如果太简单（例如 ΤΧΤ )则应用范围非常有限，如果比较完备的话（例如 ODF和 OOXML ) 则正确解析并实现该格式所定义的全部功能是非常艰巨的工作，甚至连 IBM和 SUN这样的 IT巨头都没有能力处理 OOXML,就更不用讲其它小公司了，不可能做到每个软件都能处理该格式的数据，更不能做到每个软件的处理算法都是正确的。发明内容本发明提供了一种非结构化数据处理方法和系统，实现非结构化数据的互操作。本发明实施例还提供了一种非结构化数据处理方法，包括：

应用软件，发送至少一个指令到平台软件，发起对非结构化数据的操作；其中所述至少一个指令与非结构化数据的存储形式无关；

平台软件，根据所述至少一个指令，对所述非结构化数据执行所述操作；其中，所述平台软件具有操作所述非结构化数据的内部数据的功能。

本发明实施例还提供了一种非结构化数据处理处理系统，包括：

应用软件，用于发送至少一个指令到平台软件，发起对非结构化数据的操作；其中所述至少一个指令与非结构化数据的存储形式无关；

平台软件，用于根据所述至少一个指令，对所述非结构化数据执行所述操作；其中，所述平台软件具有操作所述非结构化数据的内部数据的功能。

本发明实施例还提供了一种平台软件，具有操作非结构化数据的内部数据的功能，用于，

接收应用软件发送的至少一个指令，其中，所述至少一个指令指示对非结构化数据进行操作，并且符合与非结构化数据的存储形式无关；

根据所述至少一个指令，对所述非结构化数据执行所述操作。

本发明实施例还提供了一种应用软件，用于：

发送至少一个指令到平台软件，发起对非结构化数据进行操作；其中，所述至少一个指令符合与非结构化数据的存储形式无关；并且所述平台软件具有操作所述非结构化数据的内部数据的功能；

其中，根据至少一个指令，平台软件对所述非结构化数据执行所述操作。本发明实施例还提供了一种非结构化数据处理方法，包括：

第一应用软件发送第一指令到平台软件，以创建第一抽象信息；

所述平台软件接收第一指令，创建与第一抽象信息对应的非结构化数据；第二应用软件发送第二指令到所述平台软件以打开创建的非结构化数据；所述平台软件接收所述第二指令，打开并解析所述非结构化数据，生成与所述非结构化数据对应的第二抽象信息；

其中所述第一指令与第二指令符合相同的接口标准。

本发明实施例还提供了一种非结构化数据处理系统，包括： , ，

所述平台软件，用于接收所述第一指令，创建与所述第一抽象信息对应的非结构化数据；

第二应用软件，用于发送第二指令到平台软件以打开创建的非结构化数据；所述平台软件，进一步用于接收所述第二指令，打开并解析所述非结构化数据，生成与所述存储数据对应的第二抽象信息；

其中所述第一指令与第二指令符合相同的接口标准。本发明实施例还提供了一种非结构化数据处理方法，包括：

第一平台软件解析以第一格式存储的第一非结构化数据，生成与所述非结构化数据对应的第一抽象信息；

所述应用软件发送第一指令到所述第一平台软件，以获取所述第一抽象信息的所有信息；发送第二指令到第二平台软件，创建与所述第一抽象信息相同或相似的第二抽象信息；

所述第二平台软件根据所述第二指令，以创建与所述第二抽象信息对应并按第二格式存储的第二非结构化数据；

其中所述第一指令和第二指令符合相同的接口标准。本发明实施例还提供了一种非结构化数据处理系统，包括：

第一平台软件，用于解析以第一格式存储的第一非结构化数据，生成与所述存储数据对应的第一抽象信息；

所述应用软件，用于发送第一指令到所述第一平台软件，以获取所述第一抽象信息的所有信息；发送第二指令到第二平台软件，以创建与所述第一抽象信息相同或相似的第二抽象信息；

所述第二平台软件，用于根据所述第二指令，创建与所述第二抽象信息对应并按第二格式存储的第二非结构化数据；

其中所述第了指令和第二指令符合相同的接口标准。，、到数据存储都由一个软件来完成的现状，将其划分为应用层和平台软件层。平台软件是具备各种非结构化数据操作功能的通用技术平台，应用软件要对非结构化数据进行操作时就向平台软件发出相应指令，平台软件根据该指令执行相应操作。这样，只要各应用软件和各平台软件都遵循同样的标准，不同应用软件就可 ^通过个†台软^对同一非，构化数据，^，即可实现 ^非结^化数据的操作，而不用分别对每种非结构化数据格式都进行单独开发。附图简要说明图 1为依照本发明的非结构化信息处理系统的结构框图。

图 2为依照本发明实施例的文档处理系统的结构框图。

图 3为依照本发明实施例的文档处理系统的处理示意图。

图 4为依照本发明一优选实施例的通用文档模型的组织结构。以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

图 1为依照本发明的非结构化信息处理系统的结构框图。如图 1所示，该非结构化信息处理系统包括应用软件和平台软件，其中存储数据是非结构化数据，位于平台软件侧。

应用软件，用于发送至少一个操作指令到平台软件，以指示对非结构化数据（即存储数据）的操作，其中至少一个操作指令符合与格式无关的接口标准。

平台软件，根据应用软件发来的标准指令，对非结构化数据进行操作，其中，所述平台软件具有非结构化数据的内部数据进行操作的功能。通俗来说，平台软件对非结构化数据具有足够强大的处理功能，可以满足各种不同的应用软件对非结构化数据进行操作的需求，在非结构化数据上执行操作指令指示的操作。如平台软件具备创建、打开、读写、关闭非结构化数据的功能。

在本发明一实施例中，接口标准可以基于抽象信息（ abstract information )定义。抽象信息与存储数据对应，是对存储数据一个或多个特征抽象而获得的，但与存储数据的存储格式无关。在本发明的一个实施例中，抽象信息描述了存储数据的呈现效果。在本发明另一实施例中，抽象信息还可以描述存储数据的安全控制、组织管理、互动信息（如导航导读）、元数据等非可呈现的特征。其中，对于二维静态数据 (书面文档）而言，呈现效果可以是书面文档的可视化外观，又称为版式，对于其他多维数据或者流媒体数据而言，呈现效果可以是声音效果、动态视觉效果以及多维视觉效果等。

这样，应用软件发送的操作指令中，指示的是对抽象信息的操作，平台软件接收到来自应用软件的指令后，将针对抽象信息的操作映射到针对与该非结构化信息对应的存储数据的操作，并且对该存储数据执行该操作。

存储数据是指维护或存储在存储器（包括硬盘等非易失性永久存储器，或 RAM 等易失性存储器）中供长期使用的各种信息，这些信息可由计算装置处理。存储数据可以包括一份完整的或综合的信息，如 office文档、图片或音频 /视频节目等。这里 "长期" 不是指存储的介质，而是指数据的形式，表明数据不是动态存储（例如运行实例中的一个内存指针）的，而是可被其他软件或另一个运行实例以后使用的。

存储数据通常包含于一个磁盘文件中，但也可以包含在多个（相关联的）磁盘文件中或在数据库的多个（相关联的）字段中，或者是在一个独立的磁盘分区的一个区域中。其中，该磁盘分区不由操作系统的文件系统管理，而是由平台软件直接管理。可选的，存储数据还可以分布式存储在不同地理位置的不同设备上，也可以具有其他存储形式。由此可见，存储数据的格式可以包括如上所述的将信息存储为物理数据的各种形式，而不局限于一个或多个磁盘文件的格式。

在本发明一实施例中，非结构化数据为文档，非结构化数据的存储数据可称为文档数据，除了包含文档的可呈现信息以外，还可以包含其它一些信息，例如安全控制信息或编辑过程信息。这时，抽象信息也可称为抽象文档。

这里 "文档" 通常有两个含义：一个是指可打印到纸上的信息，又称书面文档，如静态的二维信息（ static two-dimension information); 另一个则泛指所有可呈现的信， - 。

用法。

此时，应用软件仿佛是对一个抽象文档进行操作，它并不需要关心文档数据的存储方式。平台软件负责维护抽象文档与存储数据（如具有特定格式的文档文件）之间的对应关系，比如：将应用软件对抽象文档执行的操作映射到针对存储数据的实际操作，执行此操作，并在操作需要返回值的情况下，向应用软件返回操作结果。

在本发明一实施例中，抽象文档是对文档数据进行抽象的结果，不同的文档数据可以对应相同的抽象文档。例如，抽象文档可以基于文档的可视化外观（也称为文档的版式）进行抽象，具有相同可视化外观的不同文档数据，无论其以何种方式存储，都可以对应同一抽象文档。比如，当一个 Word文件被转成一个与其具有相同可视化外观的 PDF文件后，该 Word文件与该 PDF文件就是对应同一抽象文档的不同存储数据。又比如当同一文档被保存为不同版本的 Word格式文件时，这些不同版本的 Word格式文件也是对应相同抽象文档的不同存储数据。

在本发明一实施例中，为了更好地记录版式信息，最好能记录文字、图形、图像等可视内容的位置信息，并同时记录所引用的资源，例如被链接的照片和非标准字库。这样，就能保证这些可视内容不会错位、并且随时可用。类似 SEP这样的版式文档满足上述条件，因此常常被用作平台软件的存储数据。

由于平台软件创建的存储数据可被标准指令访问，并且可被符合接口标准的各种应用软件使用，因此平台软件创建的存储数据又可称为通用数据。应用软件不仅可以通过标准指令访问通用数据，也可以定义自己特有的数据格式，如 Office文档格式，但需要自行解析处理。应用软件打开并解析具有自己特有格式的文档后，可以通过一个或多个标准指令来请求生成相应的抽象文档，平台软件再根据这些指令创建相应的存储数据。虽然新生成的存储数据（通用数据）与原始数据的格式不同，但其与原始数据对应相同或相似的抽象文档，如其具有与原始数据相同或者相似的可视化外观。因此，只要一个文档数据（无论其格式如何）对应一个抽象文档，平台软件就可以创建一个与该抽象文档对应的存储数据，这样任何文档数据都可以被转化为与其对应相同抽象文档的通用文档，并可被各种应用软件使用。这就实现了在符合相同接口标准的不同应用软件之间的文档互操作。

下面以两个应用软件和一个平台软件为例（但不限于此）来说明文档互操作过程。第一应用软件发送第一指令到平台软件，以创建第一抽象文档。平台软件接收到第一指令后，创建与第一抽象文档对应的存储数据。第二应用软件发送第二指令到平台软件以打开上述已创建的存储数据。平台软件根据第二指令打开并解析该存储数据，并产生与该存储数据对应的第二抽象文档。这里第二抽象文档与第一抽象文档相同或相似，并且第一指令和第二指令符合相同的接口标准，这样第二应用软件就可以打开由第一应用软件创建的文档。

再以一个应用软件和两个平台软件为例（但不限于此）来说明另一文档互操作过程。第一平台软件解析以第一数据格式存储的第一存储数据，产生与该存储数据对应的第一抽象文档。应用软件发送第一指令到第一平台软件，以获取第一抽象文档的所有信息。应用软件发送第二指令到第二平台软件，以创建一个与第一抽象文件相同或相似的第二抽象文档。第二平台软件根据第二指令，创建与第二抽象文档对应的并且按第二数据格式存储的第二存储数据。这里第一指令和第二指令符合相 ,, , 变。

多个应用软件与多个平台软件情况下的文档互操作过程可由以上例子推知。受到文档格式和相关软件功能等因素的限制，存储数据与抽象文档的映射关系不一定 100%完整准确，往往会存在一定程度上的偏差。例如（但不限于此），不管用什么精度的浮点数还是整型数来存储可视内容的坐标，都不能避免出现偏差。又如，缺乏必要色彩管理功能的用于显示 /打印的软件显示 /打印出来的颜色和预定义的颜色可能会有一定偏差。如果这些偏差不是艮明显的话（例如但不限于此，某个字符的位置偏离了 0.01mm, 或者某个图像用 JPEG进行了失真压缩），这些偏差可以被使用者忽略。使用者所能接受的偏差程度与其实际需求等因素有关，例如一个专业美工对色彩偏差的要求就会比一般人苛刻得多。由此可见，抽象文档与相对应的存储数据不一定能绝对一致，与一个抽象可视化外观对应的多个存储数据，其显示 /打印效果也未必绝对相同。即使用相同的应用软件来处理同样的存储数据，其呈现效果也不一定会完全一样，例如不同的屏幕分辨率下显示效果就会有细微的不同。在本发明中， "相似"、 "一致" 被用来表示偏差处于可接受的范围内（例如偏差程度不超过预设的阈值）。由此可见，存储数据可以与多个相似的抽象文档相对应或相符合。

平台软件可以用多种方式建立抽象信息与存储数据的对应关系。例如，平台软件可以在打开某个文档文件、解析该文档文件的存储数据并形成一个可供应用软件操作的抽象文档时，建立此抽象文档和存储数据的对应关系。又如，平台软件可以在接收到来自应用软件指令以指示创建一个抽象信息、并创建相应的存储数据时，建立此抽象信息和存储数据之间的对应关系。在本发明某些实施例中，应用软件知道其所操作的抽象信息所对应的存储数据（比如：此时应用软件可以通知平台软件该存储数据的地址，或者应用软件可以将文档数据读到内存中，并将内存数据块提交给平台软件供其处理）。在本发明另外的实施例中，应用软件可能对其所操作的抽象信息所对应的存储数据 "一无所知"。例如（但不限于此），应用软件可以要求平台软件在互联网上按某个条件搜索，并打开第一个搜索到的文档。

一般说来，抽象信息是不具有存储的，也就是说其并未存储在任何存储介质中。各种用于记录和描述抽象信息的信息可以包含在对应的存储数据或操作指令中，但这种信息都不是抽象信息本身。因此，抽象信息也可被称为虚拟非结构化信息。

在本发明一实施例中，抽象信息可以用某种抽象模型来描述，如当非结构化数据为文档数据时，抽象模型可以是下文提到的通用文档模型。所谓 "文档数据符合通用文档模型" 可以理解为对文档数据进行抽象得到的抽象文档符合通用文档模型。此时，抽象信息又可以认为是一个抽象模型的实例。在本发明一实施例中，抽象模型和抽象信息都可以是树型结构。

在实际应用中，抽象模型应当具备描述抽象特征的任意值（或其相似值）的能力。例如，当抽象特征是版式时，抽象模型应当具备描述任意版式的能力。在实践中，只要抽象模型所描述的版式与被描述的版式相似即可。这样，对于任意书面文档，都可以用抽象模型描述其版式，得到与其版式相似的抽象文档。同样，当抽象特征是音频时，抽象模型应当具备描述任意声音的能力。

存在多种方式来发送指令以操作抽象信息，如通过发送命令串或调用函数。可以用不同的指令形式来表示对抽象信息进行的操作。之所以将函数调用也视为一种 ,

对应的指令参数。

在本发明一实施例中，描述抽象信息的抽象模型定义了多种对象类型，对应的，抽象信息由这些类型的对象组成。此时，应用软件对抽象信息的操作可以分解为对这些对象的增、删、读、写操作。因此，只要标准指令包含了对各种类型对象进行增、删、读、写操作的指令，平台软件具备执行这些指令的功能（即将这些指令描述的操作映射为对存储数据的操作并对存储数据执行该操作），则平台软件就可以满足各种应用软件对存储数据操作的需求，成为通用技术平台。需要说明的是，这只是实现平台软件通用性的一种方式，也可以用其它方式来达到同样的目的。

另一方面，标准指令也可以采用分别定义操作动作和操作对象，然后再组合的方式来实现，称为 "动作 +对象" 方式。此时，指令中的对象可以与抽象信息中的对象相同，也可以不同。例如，抽象模型中包含了文字对象，设置文字对象位置的指令中的操作对象可以是文字对象，该指令的功能是设置文字对象的位置属性，此时该指令中的对象与抽象模型中的对象相同；或者，指令中的操作对象也可以是文字的位置对象，此时此指令中的对象与抽象模型的对象不同。在实际应用中，为了方便起见，还是应当尽量将指令中的对象与抽象模型的对象统一为好。

另外，本领域技术人员可以理解，在很多情况下，在本发明的一实施例中，并不一定适用于所有的非结构化数据，往往只适用于非结构化数据的一个子集，例如具备特定抽象特征（如可呈现效果）的子集，对该子集中的任意非结构化数据，抽取其抽象特征，并用标准指令创建具有相同或相似抽象特征的通用数据，然后各应用软件就可以通过标准指令对该通用数据进行操作了。其中，抽象模型能够描述抽象特征，用抽象模型描述该抽象特征得到抽象信息（或称抽象模型实例），标准指令描述的是对该抽象信息的操作。

以上描述的方法形成应用软件与平台软件的分工合作，使得文档处理更加便利。在实际应用中，也可能会出现不严格区分抽象信息与存储数据，应用软件甚至可以通过指令直接操作文档数据的情形。但在即使在这种情况下，为了保持通用性，指令应该与具体的文档数据格式无关。

图 2为依照本发明实施例的文档处理系统的处理示意图。如图 2所示，在该实例中，应用软件，如 Red Office, OCR, 网页生成软件、乐谱编辑软件、书生阅读器、 Office编辑软件等阅读器，通过发送符合统一的接口标准的指令指示平台软件 (在该实施例中，又称为文档库系统）对文档进行操作。文档库系统可能会有不同厂商的不同型号，但是对于应用开发厂商来说面向的都是同一个接口标准，因此都可以与之配套使用。

在本实施例中存在多个平台软件，分别标记为文档库系统 1、文档库系统 2和文档库系统 3。文档库系统根据应用软件发来的标准指令对符合通用文档模型的文档进行操作，例如创建、保存、显示、呈现文档。在本发明中，不同的应用软件可以同时或不同时调用同一个文档库系统，同一应用软件可以同时或不同时调用不同的文档库系统。

由此可见，依照本发明，使得应用层和数据处理层一一平台软件真正分离开来。由于应用软件在发送对存储数据进行操作的指令时，关注的是抽象信息，而不是具体的存储格式，因此某种格式的存储数据不再与特定应用软件绑定，应用软件不再。

操作是非常艰巨的任务，但依照本发明，这个艰巨任务是由平台软件来完成的，应用软件只需要调用指令 "发号施令" 即可，而这一点对应用软件开发商来说是很容易掌握的。这样，不同的应用软件可以通过同一平台软件对同一存储数据进行编辑，使不同应用软件之间具有良好的数据互操作性。在实际应用时，对适用的非结构化数据，可以先转换成与其具有相同或相似抽象特征的通用数据，然后各种应用软件就可以向平台软件发送指令来对该通用数据进行操作了。这样，互操作所惠及的非结构化数据范围就艮广泛了。

依照本发明，形成产业分工，减少重复开发，并更加专业、完备、正确；对存储数据的基本操作都在文档库系统中处理，各应用软件不必重复开发。而且由于平台软件是由专业厂商开发，相关技术的专业性、完备性、正确性较有保障，而且应用软件厂商和用户可以选择做的最好的一家平台软件厂商，从而保证处理效果的正因此可以由少数掌握相关专业技术和充足研发资源¹¹的^ "业商投入巨资来实现，这样分摊到每个应用软件的成本比应用软件厂商自行开发要低很多，而且正确性、可靠性、性能要高很多。进一步的，形成合理的产业分工后，各平台软件厂商和各应用软件厂商就会在领域展开竟争，而不会再出现 Microsoft Word一样靠文档格式来垄断应用软件的情形发生。各平台软件厂商也可以在标准之外增加新的功能以吸引用户，标准并不会对创新形成束縛。

依照本发明，便于优化性能，有更好的可移植性和可伸缩性。无论是什么运行平台，什么样的性能，都可以遵循同样的调用接口，使得在不改变接口标准的情况下可以不断优化性能，并移植到不同的运行平台。

图 3为本发明一实施例提供的文档处理系统的结构框图。如图 3所示，该文档处理系统主要包括应用软件、接口层、平台软件（在该实施例中，又称为文档库系统 )和存储设备。

应用软件位于文档处理系统的应用层，包括现有的任何文档处理和内容管理软件。当应用软件欲对文档进行操作时，通过发送符合接口标准的指令，该指令指示对抽象文档进行操作，该抽象文档与文档的具体存储格式无关。这样，即使存储设备中存储有多个文档，但对应用软件而言并不需要关心文档的具体存储方式。

具体的，可以利用通用文档模型描述文档数据，即可获得与该文档数据对应的抽象文档。该通用模型基于书面文档的可呈现信息抽象而成，能与各应用软件所需要处理的各种格式的文档相符合。在本发明一实施例中，接口标准就是基于通用文档模型来确定的。

文档库系统，根据应用软件发来的标准指令，执行具体的文档操作。该文档库系统为文档处理系统的核心层，其具备文档内操作功能，如具有打开、读、写、删除文档数据的能力。具体来说，文档库系统解析文档数据，将对抽象模型的操作映射为对文档数据的操作

接口层符合规范应用层和文档库系统之间交互的接口标准。接口标准除了定义对文档进行操作的各种指令外，还定义了应用软件向文档库系统发送指令的方式。

应用层通过接口层向文档库系统发送标准指令，文档库系统通过接口层向应用层返回执行的结果。优选地，接口层可包括上接口单元和下接口单元，应用层通过，，下接口单元还用于将文档库系统的执行结果通过上接口单元返回给应用系统，本领域技术人员可以理解，在实际上的软件开发中，并不需要开发出接口层，应用软件和平台软件同时遵循相同的接口标准即可。

正是由于本发明的应用软件 /文档库系统的架构，不同的应用软件可以通过同一文档库系统对同一文档进行操作 , 同一应用软件也可以通过不同文档库系统对不同格式的文档进行操作。存储设备为文档处理系统的存储层，常用的是硬盘或者内存，也可以是光盘、闪存、软盘、磁带，也可以是远程的存储设备，总之只要具备数据的存储能力即可。在存储设备中，文档库数据可以自由地存储和组织，例如可以把一个文档库的文件全部都存储在一个磁盘文件中；可以一个文档对应一个磁盘文件，利用操作系统中的文件系统功能实现多文档组织；也可以一页对应一个磁盘文件；还可以完全抛开操作系统，在磁盘上留出一块空间后直接对磁道、扇区进行管理。可以用二进制格式保存文档库数据，可以用 XML或者二进制 XML保存文档数据。页面描述语言（定义页面上的文字、图形、图像等对象的方法）可以采用 PostScript, 可以采用 PDF、 SPD (书生公司使用的页面描述语言），当然也可以采用自定义的任何页面描述语言，只要其符合统一的接口标准。

下面详细介绍一个抽象文档模型的实施例，称为通用文档模型。通用文档模型是参考纸张的特性来定义的，这是因为以纸张作为文档信息的记录手段是通行至今的标准方法，只要能具备纸张的所有功能，就能满足工作、生活等实际应用的需求。

首先抽取书面文档的版式，通用文档模型需要能够描述书面文档上的任意版式效果。一般说来，书面文档上的版式最终都可以归为文字、图形、图像三类。另夕卜，除了能够描述书面文档的版式外，通用文档模型还有必要进一步描述书面文档的组织结构。

图 4为依照本发明一优选实施例的通用文档模型的组织结构。如图 4所示，通常而言，通用文档模型包含文档仓库、文档库、文档集、文档、页、层、对象流、版面对象等多种对象类型。其中，文档集下还可以包括子文档集类型，子文档集下还可以包括子文档集类型。其中，文档、页、版面对象是必要的对象类型，其他的对象类型可根据实际上的情况省略。

另外，在文档仓库、文档库、文档集、文档、页、层等对象类型下均有可能还包括各对象类型的共享对象。共享对象可以是共享字库或者图像等。如文档中涉及到特定字体或特殊字符的话，为了保证在各台电脑上都能有相同的效果，就需要在文档中嵌入相应字库。为了提高存储效率，字库资源应当共享，这样即使在多处使用了同一字符，也只需要嵌入一个字库。图像有时也是可能在多处出现的，例如每一页共同的底图，或经常出现的公司标识，这种情况下最好也能共享这些图像。

在本发明某一实施例中，通用文档模型可以进一步描述书面文档的数据特征信息，如元数据、导航、导读、微缩版面、历史痕迹等信息，这些抽象信息可以作为辅助对象。其中文档仓库、文档库、文档集、文档、页、层等对象类型下均有可能包括各对象类型的辅助对象。

为了进一步保证文档处理的安全性，通用文档模型可以进一步描述书面文档的安全控制信息。此时，通用文档模型中还可以定义角色和权限。

当用通用文档模型描述一个文档时，就可以获得一个通用文档模型实例，即抽、、

象、页对象、层对象、对象流对象、版面对象等。

其中，文档仓库包括一个或多个文档库，文档库之间的关系相对于文档库之下的层次之间的关系相对要松散一些，文档库之间可以非常简单地组合和拆离，而不用对文档库本身的数据做改动，该多个文档库之间往往没有建立统一索引（特别是全文索引），很多对文档仓库的检索操作一般都需要遍历各文档库的索引，而没有统一的索引可用。

每个文档库对象可以包括一个或多个文档集对象、和 /或任意数量文档库辅助对象、和 /或任意数量的文档库共享对象。

其中，文档库辅助对象可以包括元数据对象、角色对象、权限对象、插件对象、索引信息对象、脚本对象、数字签名对象、历史痕迹对象等。文档库共享对象是指文档库中的不同文档可能共享的对象，如字库对象、图像对象等。

每个文档集对象包括一个或多个文档对象、和 /或任意数量的文档集对象和 /或任意数量的文档集辅助对象。文档集辅助对象包括元数据对象、数字签名对象、历史痕迹对象。当文档集对象包括多个文档集对象时，其类似于资源管理器中的文件夹包括多个文件夹的形式。一个文档对象可以只属于一个文档集对 ^，也可以同时属于多个文档集对象。文档库不是多个文档的简单组合，它把多个文档紧密地组织起来，特别是为文档内容统一建立了各种检索索引后就能带来更大的便利性。

相应地，接口标准中包含对多文档的组织管理、查询检索、安全控制等指令。每个文档对象可以包括一个或存在一定顺序（如前后顺序）的多个页面对象、和 /或任意数量的文档辅助对象、和 /或任意数量的文档共享对象。文档辅助对象包括元数据对象、字库对象、导航信息对象、导读信息对象、微缩版面对象、数字签名对象、历史痕迹对象等。文档共享对象包括文档中的不同页面可能共同使用的对象，如图像对象、印章对象等。这里，每页的版心可以不同，而且版心也不一定是矩形的，可以是任意形状，可以用一条或多条封闭曲线表示版心。

每个页面对象可以包含一个或按一定顺序（如上下顺序）的多个层对象、和 /或任意数量的页面辅助对象组成。页面辅助对象可以包括元数据对象、数字签名对象、历史痕迹对象。当页面对象包括多个层对象时，各层之间如同玻璃板的叠加关系。相应地，接口标准中也包含对层的各种操作指令，以及对一个文档某一层所对应源文件的存储和提取。

每个层对象可以包括一个或多个版面对象、和 /或任意数量的对象流、和 /或任意数量的层辅助对象。层辅助对象包括元数据对象、数字签名对象、历史痕迹对象。对象流可以包括任意数量的版面对象、和 /或任意数量的对象流、和 /或可选的数字签名对象。

版面对象是指状态（如字体、字号、颜色、 ROP 等）、文字（包括符号）、图形（如直线、曲线、填充了指定颜色的闭合区域、渐变色等）、图像（如 TIF、 JPEG, BMP, JBIG等）、（如标题开始、标题结束、换行等）、源文件、脚本、插件、嵌入式对象、书签、链接、流媒体、二进制数据流等。

版面对象可以包括任意数量的状态对象、文字对象、图形对象、图像对象、语义信息对象、源文件对象、脚本对象、插件对象、嵌入式对象、二进制数据流对象、链接对象、书签对象以及流媒体对象。 , 、、、

对象、背景色对象、线颜色对象、填充色对象、线型对象、线宽对象、线接头对象、画刷对象、阴影对象、阴影颜色对象、旋转对象、空心字对象、勾边字对象、透明对象和渲染模式对象。文字对象可以是符号对象。图形对象可以是直线对象、曲线对象、渐变色对象等。图像对象可以是 TIF对象、 JPEG对象、 BMP对象、 JBIG对象等。

抽象文档中还可以进一步包括一个多个角色对象，为每个角色对象分配一定权限。权限以文档库、文档集、文档、页、层、对象流、元数据为单元进行分配，定义每个角色对该单元是否可读、是否可写、是否可复制、是否可打印、是否可再授权、是否可收回授权等等或者以上权限的任意组合。如果设置了某角色对某对象的访问权限，则该权限适用于该对象的所有子对象。

本领域技术人员可以理解，通用文档模型可以在上述基础上进一步增强或简化。如果某一种通用文档模型中不包括文档集对象，则文档库对象直接包括文档对象；如果某一种通用文档模型中不包括层对象，则页面对象直接包括版面对象。可以理解，最简化的通用文档模型可能仅包括文档对象、页面对象和版面对象。其中版面对象仅包括文字对象、直线对象和图像对象。

下面具体介绍接口标准的实现方式。在一实施例中，接口标准定义了基于抽象文档对文档进行操作的各种指令，以及应用软件向文档库系统发送指令的方式。

对文档进行操作的指令可以采用 "动作 +对象" 方式。在这种方式下，需要定义多种操作动作，并定义多种操作对象，然后在指令中包含操作动作和该动作所操作的对象。一种操作动作可以与多种操作对象组合，一种操作对象也可以与多种操作动作组合，但并不一定每一种操作动作和操作对象的组合都是合法指令。这种方式便于学习和理解，也便于保持接口标准的稳定性，今后在对接口标准进行扩充时，增加一个对象或动作也艮简单。例如，如果有 10种操作动作和 30种操作对象，采用 "动作 +对象"方式，只需要学习 10+30=40种指令，而采用非 "动作 +对象"方式，可能需要学习 10x30=300种指令。需要说明的是，一个指令中包含的操作动作和操作对象的数量可以是任意的（零、一或多个），并不一定都是一个操作动作加一个操作对象的组合。其中，操作对象可以是抽象文档中包含的对象，也可能不是。

在本发明一实施例中，定义以下 7种操作动作：打开、关闭、获取、设置、删除以及检索查询。

操作对象可以是按照通用文档模型描述文档后获得的抽象文档中的对象。

这样操作动作和操作对象的组成就可以指示一个操作，如：

打开文档库对象：用于创建或打开文档库；

关闭文档库对象：用于关闭文档库；

获取对象：用于获取对象列表、对象相关属性和数据；

设置对象：用于设置 /修改对象数据；

插入对象：插入指定对象或数据；

删除对象：用于删除对象；

检索查询对象：用于根据在文档中找到符合该对象的内容，既可以是准确的信息，也可以是模糊信息。

对文档进行操作的各种指令还可以采用非 "动作 +对象" 方式来定义。如，对每。 .

的每种合法操作都单独定义一条指令，比较繁瑣。

应用软件向文档库系统发送指令的方式可以是将操作指令按照预定义标准格式生成命令串，应用软件通过发送预定义格式生成的命令串到文档库系统的方式来发送指令；可以是平台软件提供接口函数，应用软件通过调用接口函数的方式向文档库系统发送操作指令；还可以是将操作指令定义为类的方法的形式，即将操作对象封装成各个对象类，把该对象可以进行的操作动作定义成该类的方法，应用软件通过调用对象类的方法的形式向文档库系统发送操作指令。

特别地，如果在对文档进行操作的各种指令中包括获取版面位图的指令，将对保障版面一致性和文档互操作性起到非常关键的作用。

利用本发明实施例定义的标准指令，可以对文字、矩形等文档内对象进行操作，而不像现在的文档管理系统只能进行文档级别的操作。

当应用软件发送操作指令到平台软件的方式为生成标准格式的命令串时，可以用扩展标记语言（XML ) 来描述命令串。

国际开放标准组织 OASIS颁布的 UOML标准就是一个用 XML来描述命令串的实施例。当应用软件欲对文档进行操作时，依照 UOML标准的规定生成相应的 UOML指令，将该 UOML指令发给文档库系统，即代表向文档库系统发出了相应操作指令。

在本发明一实施例中，每个操作动作都对应一个 XML元素，每个操作对象也都对应一个 XML元素；在命令串中，将描述操作对象的 XML元"^作为描述操作动作的 XML元素的子元素。例如，可以首先定义动作 INSERT, 其具有以下子元素 parent (父对象句柄）、 xobj (插入对象的描述）以及 pos (插入位置），那么可以用以下命令来完成插入对象的操作：

< INSERT >

<parent val= "123.456.789 〉

<xobj>

</xobj>

</ INSERT>

需要说明的是，虽然上述指令是用 XML定义的，但为了显得更加简洁，在前面省略了类似 "<?xml version="1.0" encoding="UTF-8"?>" 以及 "xmlns:xsi= "http://www.w3.org/200 l/XMLSchema-instance"，，之类的常规 XML格式，只要是熟悉 XML语法的实施者都可以在实施过程中自行添加。

也可以不用 XML方式描述命令串，例如改用类似 PostScript那样的方式描述命令串，这样上例的操作可以用这样的指令来描述：

/docset, 1, "123.456.789" , /Insert

根据同样的思路，还可以定义出其它类型的命令串格式，甚至还可以不用文本方式，而用二进制方式来定义命令串。

在以上的例子中，操作指令由 "动作 +对象" 方式构成。在本发明另一个实施例中，对每一个操作对象的每一个操作动作都用一个命令串来表示，如用 "INSERT— DOCSET"来表示插入一个文档集，该命令的具体定义如下：一

属性：无

子元素： arent: 文档库句柄

pos: 插入位置

返回值：如果执行成功，则在执行结果中包含一个" handle"子元素，表示新插入文档集的句柄

这样上例的操作就可以用这样的指令来描述：

< INSERT— DOCSET >

</ INSERT— DOCSET >

现在介绍用函数调用的方式来实现接口标准的实例。以下以 C++语言为例说明，该实例称为非结构操作接口（UOI ) 。

首先，针对操作指令为 "动作 +对象" 方式的情况，可以首先定义 UOI— Object 作为所有对象的基类，为每个动作定义了一个函数，该函数的参数可以是对类的指针或引用，这样该函数就可适用于所有对象。

先定义一个 UOI返回值结构：

struct UOI— Ret {

BOOL m— bSuccess;

CString m— Errlnfo;

}；一

定义所有 UOI对象的基石出类：

class UOI— Object {

public:

enum Type {

TYPE— DOCBASE,

TYPE:DOCSET，

TYPE=DOC,

TYPE PAGE,

TYPE二 LAYER,

TYPE二 TEXT,

TYPE— CHARSIZE,

Type m— Type;

UOI— Object();

virtual〜 UOI— Object();

static UOI— Object Create(Type objType);

}；一

然后定义如下几个 UOI 函数表示操作动作： UOI— RET U01_0pen(char *path_: BOOL bCreate, HANDLE *pHandle);

UOI— RET UOI— Close(HANDLE handle, HANDLE db— handle);

UOI=RET UOI二 GetHandle(HANDLE hParent, int nPos", HANDLE *pHandle); , —

UOI二 RET UOI=GetObj (HANDLE handle, UOI— Object *pObj);

UOI二 RET UOI二 GetPageBmp(HANDLE hPage,~RECT rect, void *pBuf);

UOI二 RET UOI二 SetObj (HANDLE handle, UOI— Object *pObj);

UOI二 RET UOf Insert(HANDLE hParent, int nPos, UOI— Object *pObj, HANDLE pHandle— = NULL);" ―

UOI— RET UOI— Delete(HANDLE handle);

UOI:RET UOf_Query(HANDLE hDocbase, const char *strCondition, HANDLE

* phResult);

然后定义各 UOI对象，以 UOI— Doc为例说明：

class UOI— Doc： public UOI— Object {

public:

UOI— MetaData m— MetaData;

int m— nPages;

UOI— Page **m_pPages;

int m— nFonts;

UOI— Font **m_pFonts;

UOI— Navigation m— Navigation；

UOI— Thread m— Thread；

UOI— MiniPage *m_pMiniPages；

UOI— Signature m— Signature；

int m_nShared；

UOI Obj *m_pShared;

UOI:Doc();

virtual ~UOI_Doc()；

}； _

创建新对象的函数为：

HANDLE InsertNewObj (HANDLE hParent, int nPos, UOI— Object：: Type type)

{ 一

UOI— Ret ret;

HADNLEhandle；

UOI Obj *pNewObj = UOI_Obj ::Create(type);

if (pNewObj == NULL) ―

return NULL;

ret = UOI_Insert(hParent, nPos, pNewObj, &handle)；

delete pNewObj；

return ret.m— bSuccess？ handle： NULL;

} 一

还可以用同样的方法为 Java、 C#、 VB、 Delphi等各种编程语言开发的应用软件设计各种不同的接口标准。

只要在接口标准中不含有与特定的操作系统（如 WINDOWS , UNIX/LINUX , MAC OS、 SYMBIAN )或特定的硬件平台（如 x86CPU、 MIPS , POWER PC等）相关连的特征，该接口标准就可以具有跨平台性，使得不同平台上运行的应用软件和文档库系统都可以统一使用同样的接口标准，特别是可以让一个平台上运行的应用软件可以调用另一个平台上运行的文档库系统来执行相应操作。例如，应用软件部，，，用的是大型机， Linux操作系统，但应用软件依然可以像调用本地文档库系统一样调用服务器上的文档库系统来执行相应文档操作。

如果在接口标准中不含有与特定编程语言相关的特征，则该接口标准还能做到与编程语言无关。可以看出，用命令串的方式容易构造与平台无关、与编程语言无关的接口标准，更具有通用性。特别是用 XML来构造命令串的话，由于目前在各种不同平台、不同编程语言都存在易于获得的 XML生成解析工具，该接口标准可以具有很好的跨平台性和与编程语言无关性。

以上列举了多种接口标准的实现方法，按照类似的思路设计的更多种类的接口标准也包含在本发明的保护范围之内。

应该理解，可以在上述实例的基础上按同样的思路增加操作指令，也可以简化操作指令，特别是文档模型被简化时操作指令也会相应被简化。最简化情况下只有文档的创建、页面的创建、各版面对象的创建这几个操作指令。

当文档库系统接收到来自应用软件的操作指令后，根据接收到的操作指令，对实际的存储数据执行操作。

在本发明一实施例中，用 XML来描述文档数据，可以完全对照抽象文档建立相应的 XML树。文档库系统对存储数据执行操作实际上就是对 XML执行相应的操作。比如，文档库系统根据应用软件的操作指令执行创建操作，即在 XML树中增加一个结点，该结点与操作指令中指示的操作对象相应。又比如，文档库系统根据应用软件的操作指令执行删除操作，即在 XML树中删掉相应结点；执行设置操作，即在 XML树中设置相应结点的属性；执行获取操作，即在 XML树中取出相应结点的属性并返回给应用软件；执行查询操作，即遍历 XML树查找相关结点。

其中，建立与文档数据对应的 XML树的过程可以是：首先用 XML来描述每个对象，即为每个对象都建立了一个对应的 XML树。然后根据每个对象对应的 XML 树建立 XML文件。其中，在为每个对象建立对应的 XML树时，有的对象属性比较简单，其对应的 XML树就只有根结点，有的对象比较复杂，其对应的 XML树还有子结点。具体描述方法可以参见前面用 XML来定义操作对象的说明。

如新建一个文档库时就新建一个根结点为文档库对象的 XML文件。文档库对象的每个子对象都在以文档库对象为根结点的 XML树中有一个对应的结点。当应用软件发送的操作指令指示在文档库中插入一个对象（如文字对象）时，文档库系统就将该对象对应的 XML树插入到插入位置的父结点（如层 )之下。当应用软件发送的操作指令指示删除一个对象时，文档库系统就删除该对象对应的结点，其下属所有子结点也都被删除，删除过程是从叶子结点开始自下而上遍历的。当应用软件发送的操作指令指示设置一个对象属性时，文档库系统将该对象对应的结点的属性设置成该属性；如果该属性是用子结点表示的，则设置对应的子结点。当应用软件发送的操作指令指示获取一个对象的属性时，文档库系统访问该对象对应的结点，根据该结点的属性和子结点获得该对象的属性。当应用软件发送的操作指令指示获取一个对象的句柄时，文档库系统获取该对象对应的结点的 XML路径。当应用软件发送的操作指令指示复制一个对象（如页面）到指定位置时，文档库系统将该对象对应的结点开始的整个子树都复制到目标位置对应的父结点（如文档）之下。如果操作指令指示的是将一个对象复制到另一个文档库中，则文档库系统需要将该子树引用 _H 。

的操作为获取指定区域内的版面信息时，文档库系统先生成一个指定位图格式的空白位图，其尺寸和指定区域相同，然后遍历指定页面的所有版面对象，凡是位于指定区域内（包括只有一部分在该区域内）的版面对象，都解释其含义，并在版面上相应体现。

在检索查询指令中，除了常规的关键词检索外，还可以提供更加丰富的检索手段。检索查询操作的操作对象除了是纯文字对象外，还可以是其他的版面对象，如字体对象、字号对象、颜色对象、位置对象等或者多个版面对象的组合。这样利用本发明实施例提供的检索查询操作指令，能更充分地利用文档中蕴含的信息来提供更为强大的检索手段，不仅能从文档中提取纯文本信息，还可以提取其他更为细化的信息，如字体信息、字号信息、颜色信息、版面位置信息以及特殊修饰效果信息等。如可以检索出 Times New Roman字体的 "Sursen，，、 20磅以上字体的 "Sursen，，、蓝色的 "Sursen" 、位于页脚的" Sursen"、空心字的" Sursen"、压图的 "Sursen"等等。

下面以 A软件创建一个文档并且 B软件对其进行编辑为例说明本发明实施例中文档处理系统的工作流程。在本例中选用 UOI作为接口标准：

A软件发出指令 UOI— Open("c:\\sample\\mydocbase.sep", TRUE, &hDocBase) , 创建文档库 c:\sample\mydocbase.sep, 夺其句柄存放在 hDocBase;

A 软件发出指令 hDocSet = InsertNewObj (hDocBase, 0, UOI Obj:: TYPE— DOCSET), 在文档库 hDocBase中新建文档集，将其句柄存放在 hDocSet;

A软件发出指令 hDoc = InsertNewObj(hDocSet, 0, UOI— Obj：： TYPE— DOC) , 在文档集 hDocBase中新建文档，将其句柄存放在 hDoc;

定义 age对象： UOI— Page page;

page. size. w=w;

page.size.h=h;

A软件发出指令 UOI— Insert(hDoc, 0, &page, &hPage) , 在文档 hDoc中新建一页 , 版心大小是宽 w,高 h, 将句柄存放在 hPage;

A软件发出指令 hLayer = InertNewObj(hPage, 0, UOI Obj：: TYPE— LAYER) ,在页 hPage中创建一层，将其 ^柄存放在 hLayer;

定义 charSize对象： UOI— CharSize charSize;

charSize.m— Width = charSize. m— Height = s;

A软件发出指令 UOI_Insert(hLayer, 0, &charSize), 设置字号为 s;定义 text对象: UOI— Text text;

text.m_pText = Duplicate ("书生意气挥斥方遒")；

text.m— Encoding = UOI— Text:: ENCODE— GB 13000;

text, m— Start, x = xl;

text.m— Start.y = yl;

A软件发出指令 UOI— Insert(hLayer, 1, &text), 在坐标 (xl,yl)位置插入文字串"书生意气挥斥方遒"；

A软件发出指令 UOI— Close(hDocBase) , 关闭文档库 hDocBase;

B软件发出指令 UOI— Open("c:\\sample\\mydocbase.sep", FALSE, &hDocBase),打开文档库 c:\sample\mydocbase.sep, 夺其句柄存放在 hDocBase;

B软件发出指令 UOI_GetHandle(hDocBase, 0, &hDocSet), 获取文档库 hDocBase ,

B软件发出指令 UOI— GetHandle(hDocSet, 0, &hDoc) , 获取文档集 hDocSet第一个文档的指针，将其句柄¾ "放在 hDoc;

B软件发出指令 UOI— GetHandle(hDoc, 0, &hPage) , 获取文档 hDoc第一页的指针，将其句柄存放在 hPage;

B软件获取该页版面位图 UOI— GetPageBmp(hPage, rect, buf) , 用于显示该页；

Β软件发出指令 UOI— GetHandle(hPage, 0, &hLayer) , 获取 hPage第一层的指针，将其句柄存放在 hLayer;

B软件发出指令 UOI— GetHandle(hLayer, 0, &hObj) , 获取第一个版面对象的句柄 hObj;

B软件发出指令 UOI— GetObjType(hObj, &type) , 获取 hObj的类型；

B软件发现这是一个字号对象 UOI— GetObj(hObj, &charSize) , 获取该对象；为 charSize.m— Height U武值： charSize.m— Height *= 2;

B软件发出指"^ U0I_Set0bj(h0bj, &charSize) , 将字高放大一倍；

Β软件发出指令 UOI— GetPageBmp(hPage, rect, buf) , 重新获取版面位图并显示，这时会发现屏幕上的 "书 ΐ意气挥斥方遒 "变成长体字了。

下面进一步详细介绍本发明上述实施例描述的对层对象的操作。当应用软件欲编辑文档时，可以发送一系列指令给文档库系统，指示在现有文档的基础上新增加一层，并指示将新编辑的内容存放在新建的一层中，文档库系统根据应用软件的指令，新增一层，将新编辑内容存放在新增加的一层中，不修改和删除前面各层的内容。

为了确保每一层内容在生成后没有被修改、删除，可以对每一层做数字签名。可以仅对本层内容进行签名，优选地，也可以是对本层以及本层之前生成的所有层的内容一起签名。签名以后并不妨碍对文档做进一步的批注等编辑，只要新的内容是位于新建的层，没有修改破坏签名时存在的各层，签名依然是有效的，但签名者只对签名以前的内容负责，不对签名以后的内容负责。

上述的技术方案是一种极为严格的只加不改方案，在本发明另一个实施例中，在文档库系统根据应用软件的指令对层内容进行数字签名之前，应用软件可以发送指令到文档库系统，以删除或修改本层已编辑的内容。在本发明另一实施例中，即使一应用软件已完成对每一层的编辑并已指示文档库系统对该层进行了数字签名，该应用软件仍可以发送指令到文档库系统，以删除或修改该层版面对象，并在删除或修改之后，重新签名。但其他应用软件不可以删除或修改该层。

利用以上技术方案，文档中的已有内容不能被修改，或者即使不考虑与纸张特性的兼容以及数字签名问题，需要修改的话也只能做版面级编辑，即对每个版面对象的编辑（增、删、改）都不会对其它版面对象产生影响。

在本发明另一实施例中，应用软件可以首先在源文件（按照应用软件自有的格式存储并记录了各对象之间完整关系的文件，例如. doc文件 )上编辑文档的初始内容或新增内容。并在初始编辑完成后，应用软件发送一系列指令给文档库系统，指示新建一层，并将描述所编辑内容版式的对象存放在新建的一层中，同时指示在文档对象中新建一个源文件子对象，以嵌入源文件；文档库系统接收到应用软件的指令后，新建一层，将描述所编辑内容版式的对象存放在新建的一层中（例如在 XML树 . 、，、文件对象对应的结点，将该源文件嵌入（例如用二进制数据的方式整体嵌入）到该与源文件对象对应的结点中。

当应用软件欲再次编辑该文档时，发送指令到平台软件，以获取源文件，文档库系统从文档中取出该源文件，将所述源文件返回给应用软件。应用软件就可以直接编辑源文件。编辑完成后，应用软件发送一系列指令，指示根据编辑后的结果更新该层内容（例如，首先指示全部删除该层中的版面对象，然后指示增加描述编辑后内容版式的对象），并将新修改的源文件嵌入到源文件子对象中，文档库系统执行这一系列操作。如此循环往复，就可以用原有应用软件按照原有方式对文档中的已有内容进行编辑。

采用上述技术方案，可以最大程度地实现文档的互操作性。在有足够安全权限的前提下，可以实现以下功能：对任何文档，用任何应用软件都可以正确打开、显示、打印。对任何文档，用任何应用软件都可以新添加任何内容，而且不会破坏文档已有签名。对任何文档，在不必考虑文档已有签名（没有签名或者虽有签名但允许破坏）的前提下，用任何应用软件都可以对文档已有内容进行版面级编辑。对任何文档，使用文档已有内容的原始编辑软件可以对该内容进行原有方式的编辑。

由此可见，通过对层的管理，对文档的管理、互操作、安全设置都带来极大的便利。利用本发明实施例提供的方法，每个应用软件都只在现有文档内容基础上添加新的内容，但不修改、不删除已有的内容，使文档的一个页面就像一张纸一样，可以由不同的人用不同的笔在纸上不断写写画画，但谁都不能修改、删除已有内容。即，本发明实施例提供的这种方法支持 "只加不改"，能够更好地模拟纸张的特性。

将页分成多层后，可以实现对不同层实施不同管理和控制，更便于不同应用软件对同一页的操作（可以设计成不同应用软件管理和维护不同层），为以源文件方式进行编辑提供了便利，也是一种很好的保留历史痕迹的方式（不同环节或不同时期或不同主体编辑的内容放在不同层）。

为了进一步保证文档处理系统的安全性，本发明以下实施例提供了一种文档安全技术。即文档库系统在接收到应用软件发送的操作指令后，检查该操作指令指示的文档数据的操作是否被允许；如果是，则按照接收到的操作指令，执行对文档数据的操作；如果否，则拒绝执行对文档数据的操作。

当接收到应用软件发送的操作指令，以指示创建角色对象时，文档库系统根据指令，创建角色对象。进一步的，文档库系统在创建角色对象后向应用软件返回一个密钥，作为应用软件以该角色身份登录的依据，该密钥通常是 PKI的私钥，也可以是登录口令或其它形式。当密钥为 PKI的私钥时，文档库系统可以生成一对随机公私钥对（例如 512位的 RSA密钥 ) , 将公钥存储在角色对象中，将私钥返回给应用软件。

当应用软件以某一角色身份登录时，可以采用"挑战-应答"机制，以更好地保护私钥的安全性。即接收到应用软件的登录指令时，文档库系统用相应角色对象中的公钥加密一块随机数据（如 128 字节）发给应用软件，应用软件解密后返回给文档库系统，文档库系统比较验证，如果应用软件解密正确，则表明应用软件确实拥有该角色对应的私钥，登录成功。为保险起见，该认证过程可以重复多次，多次全部通过才算登录成功。 "挑战 -应答 "机制也可以用以下方式实现，文档库系统将一块随， ,

存的角色的公钥解密，如果解密正确，则表明应用软件确实拥有该角色对应的私钥。如果角色的密钥是登录口令，则需要用户输入正确的登录口令。

应用软件还可以向文档库系统发送指令，指示向某一角色授予目标权限；该目标权限可以是针对文档数据（一个或多个对象），平台软件接收到该指令后，授予角色目标权限。

这样，文档库系统检查操作指令指示的对文档数据的操作是否被允许的一种实现方式可以是：简单记录登录角色对文档数据的权限，如果指令指示的文档数据的操作符合权限则允许相应操作，否则报错返回。应用软件可以以多个角色登录，此时拥有的权限可以是各角色权限的并集，也可以是交集或其它组合，由事先设定的规则确定。

一种更好的实现方式是对文档数据加密，并用密钥来控制权限，如果该角色没有相应密钥就没有对应的权限，这种方式抗攻击能力要更强。具体方案为：

利用一对 PKI 密钥对，用加密密钥对某一数据区域（通常对应抽象文档中的一个子树）进行加密。对具有读权限的角色，授予其解密密钥，该角色可以用该密钥解密该数据区域，从而正确读取这些数据。对具有写权限的角色，将授予其加密密钥，该角色可以将修改后的数据用该密钥加密，从而可以正确写入该区域的数据。

鉴于 PKI 的加密 /解密效率较低，为提高运行效率，也可以用对称密钥来对该数据区域加密，加密密钥用于对该对称密钥进行加密，解密密钥用于解密经过加密后的密钥数据，从而获得正确的对称密钥。为防止只有读权限的角色在获得对称密钥后用其修改数据，可以用加密密钥来对该数据区域进行数字签名，每次拥有写权限的角色修改该数据区域后都重新做一次签名，从而确保数据不会被没有写权限的角色篡改。

当授予某一角色加密密钥或解密密钥时，可以用该角色的公钥对该密钥加密后存储，这样只有拥有该角色的私钥时才能取出该密钥。

当接收到应用软件发送的指令，描述对某一对象进行签名时，文档库系统对以该对象为根结点的子树对应的存储数据进行签名。

为了能够使签名不受具体物理存储方式的影响，需要先做一个正则化，使得逻辑上等效的变化（例如存储位置的改变导致相应指针的变化）不会影响签名有效性。

当需要签名的子树对应的存储数据也是树状结构（例如前面提到的 XML树 )时，该正则化的方法可以是遍历（例如按深度优先或宽度优先遍历）存储数据中需要签名的结点子树中的各个结点结点（对应目标对象及其各个子对象），按照遍历顺序依次计算每个结点结点的正则结果并连接起来。

其中，对子树的某一结点结点计算正则结果的方法为：先计算该结点结点的子结点结点数的 HASH值，然后再依次计算该结点结点类型及其各个属性的各自的 HASH值并按顺序连接在该结点结点的子结点数的 HASH值的后面，再计算该连接结果的 HASH值，得到该结点的正则结果。如果需要对子树中的某个结点引用的对象也一起做签名，则可以将该结点引用的对象也作为该结点的一个子结点来处理，方法同上。

对子树的某一结点计算正则结果的方法还可以是：将该结点的子结点数、类型及其各属性用分隔符隔开后按照顺序连接起来，计算该连接的结果的 HASH值，得。

对子树的某一结点计算正则结果的方法还可以是：将该结点的子结点数、类型及其各属性各自的长度用分隔符隔开后按照顺序连接起来，再与子结点数、类型、各属性连接起来，即得到该结点的正则结果。

总之，计算子树的某一结点正则结果的方法可以采用以下各种方案中的任意一种：对树的某一结点，其子结点数、类型、各属性，子结点数 /类型 /各属性的长度（可选的），原值或经过特定变换（如 HASH、压缩），按照预定顺序连接起来（直接连接或用分隔符隔开）。上述预定顺序的意思是，子结点数长度、类型长度、各属性长度、子结点数、类型、各属性可以按任意顺序排列，只要是预定的顺序即可。

不难给出上述方案的各种变化方式，如每个结点的子结点数用分隔符隔开后按照深度优先的顺序连接起来，再与各结点其它数据的正则结果连接起来。总之，只要对该子树中的所有结点的子结点数、类型和各属性，按照确定的方法排列在一起就属于本实施例的变化。

正则化以后，再做 HASH并用角色的私钥进行签名的处理可采用现有技术，这里不再贅述。

在本发明另一实施例中，对所述子树对应的存储数据进行签名的方法是，遍历所述子树中的每个结点，对该结点对应的存储数据进行签名，并将签名结果连接起来。所述遍历与连接签名结果的方法与上述实施例相类似。

文档库系统还具备对文档的信息安全管理控制功能，如基于角色的细粒度权限管理，并在接口标准中定义了相关的操作指令。

利用本发明实施例提供的文档安全技术，可以细化到文档内的任意粒度，对文档内的任意逻辑数据设定加密和签名，从而提供细粒度的安全管理手段。另外，本发明实施例提供的文档安全技术将信息安全集成在文档处理的核心层，将安全机制与文档操作紧密地结合为一体，同时有更多的空间部署安全管理技术，相关代码也能隐藏得更深，能更有效地防御非法攻击，提高安全可靠度。

需要说明的是，上述实施例所描述的文档安全技术，如基于角色的权限管理、角色的认证方式、多重角色登陆、对树结构的正则化技术、细粒度的权限管理单元、基于加密的权限设置等，不仅适用于本发明实施例中的文档处理系统，还适用于本发明实施例中的非结构化数据处理系统，以及更为广泛的其它应用场合。

本领域技术人员应当明白，以上基于书面文档和文档库系统描述的实施例记载

、以上所仅为本;^明的较佳""实施例而、已， '并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种非结构化数据处理方法，其特征在于，包括：

应用软件，发送至少一个指令到平台软件，发起对非结构化数据的操作；其中所述至少一个指令与所述非结构化数据的存储形式无关；

2、根据权利要求 1 所述的方法，其特征在于，所述至少一个指令描述了对与所述非结构化数据相对应的抽象信息的操作，所述抽象信息与所述非结构化数据的存储形式无关；

在所述平台软件，根据所述至少一个指令，对所述非结构化数据执行所述操作之前，所述方法进一步包括：

所述平台软件将所述至少一个指令描述的对所述抽象信息的操作对应到对非结构化数据的所述操作。

3、根据权利要求 2 所述的方法，其特征在于，在对非结构化数据执行所述操作之前，所述平台软件建立所述抽象信息与所述非结构化数据的对应关系。

4、根据权利要求 3 所述的方法，其特征在于，所述平台软件建立所述抽象信息与所述非结构化数据对应关系为：

平台软件打开所述非结构化数据、解析所述非结构化数据并形成所述抽象信息；或，

平台软件接收到来自应用软件的、指示创建抽象信息的指令，根据所述指令，创建非结构化数据。

5、根据权利要求 1 或 2所述的方法，其特征在于，所述非结构化数据的存储形式是非结构化数据的存储格式。

6、根据权利要求 1 或 2所述的方法，其特征在于，所述非结构化数据为一个或多个磁盘文件，部分磁盘文件，数据库的一个或多个字段，或磁盘分区的一个区域。

7、根据权利要求 2 所述的方法，其特征在于，所述抽象信息描述了所述非结构化数据的一种或多种抽象特征。

8、根据权利要求 7所述的方法，其特征在于，所述抽象特征包括呈现效果、和 /或安全控制、和 /或组织管理、和 /或互动信息、和 /或元数据。

9、根据权利要求 7或 8所述的方法，其特征在于，所述非结构化数据包括书面文档、多维数据、音频数据、和 /或视频数据。

10、根据权利要求 8所述的方法，其特征在于，所述呈现效果包括版式效果、声音效果、动态视觉效果、和 /或静态多维视觉效果。

1 1、根据权利要求 2至 10任一所述的方法，其特征在于，所述抽象信息由一个或多个对象组成。

12、根据权利要求 1 1 所述的方法，其特征在于，所述平台软件具备执行对抽象信息任意对象的增加、删除、读和写操作的功能。

13、根据权利要求 6或 7所述的方法，其特征在于，所述抽象信息为树型结

14、根据权利要求 2至 13任一所述的方法，其特征在于，所述抽象信息符合抽象模型；

所述抽象信息描述了所述非结构化数据的一种或多种抽象特征为：用所述抽象模型描述所述一种或多种抽象特征得到所述抽象信息。

15、根据权利要求 14 所述的方法，其特征在于，所述抽象模型定义了所述对象的类型以及所述对象的关系。

16、根据权利要求 14或 15所述的方法，其特征在于，所述抽象模型能描述任意可呈现效果。

17、根据权利要求 1 1 所述的方法，其特征在于，所述对象包括：代表文档的对象，代表页的对象以及描述版面的对象。

18、根据权利要求 17 所述的方法，其特征在于，所述描述版面的对象包括描述文字的对象、描述图形的对象和描述图像的对象中任一项或任几项的组合。

19、根据权利要求 18 所述的方法，其特征在于，所述描述版面的对象还进一步包括设置状态的对象、记录脚本信息的对象、插件对象、嵌入式对象、记录导航信息的对象、记录书签信息的对象、记录链接信息的对象、描述流媒体信息的对象、记录二进制数据流的对象中任一项或任几项的组合。

20、根据权利要求 11至 19任一所述的方法，其特征在于，所述对象包括代表文档库的对象和 /或代表文档集的对象。

21、根据权利要求 17 所述的方法，其特征在于，所述对象进一步包括代表层的对象和 /或代表对象流的对象。

22、根据权利要求 11至 21任一所述的方法，其特征在于，所述对象包括代表角色的对象以及代表角色访问权限的对象。

23、根据权利要求 21 所述的方法，其特征在于，所述角色的访问权限包括所述角色针对所述抽象信息的至少一个对象的访问权限。

24、根据权利要求 22 所述的方法，其特征在于，所述角色的访问权限包括读权限、写权限、再授权、收回授权中任一项或任几项的组合。

25、根据权利要求 1 至 24任一所述的方法，所述至少一个指令符合一个接口标准，所述接口标准定义了所述至少一个指令的形式。

26、根据权利要求 25 所述的方法，其特征在于，分别定义操作动作和操作对象，所述至少一个指令由操作动作和操作对象的组合形式构成。

27、根据权利要求 26 所述的方法，其特征在于，为每一个对象的每一个合法操作定义一个指令。

28、根据权利要求 25 所述的方法，其特征在于所述接口标准进一步定义了应用软件发送指令到平台软件的方式。

29、根据权利要求 28 所述的方法，其特征在于，所述应用软件发送指令到平台软件的方式是：

按照预定义的标准格式生成命令串，应用软件通过发送预定义格式的命令串到平台软件的方式来发送指令；或

平台软件具有可供应用软件调用的接口函数，应用软件通过调用所述接口函数的方式向平台软件发送指令；或，应 WA^i^il^ 周用对象类中的方法的方式向平台

30、根据权利要求 29所述的方法，其特征在于，所述命令串为字符串。

31、根据权利要求 30所述的方法，其特征在于，所述字符串用 XML描述。

32、根据权利要求 31 所述的方法，其特征在于，所述预定义指令包含操作动作和操作对象的组合方式，所述操作动作对应一个 XML元素，所述操作对象为所述操作动作对应的 XML元素的子元素。

33、根据权利要求 1 至 32任一所述的方法，其特征在于，所述操作包括：获取信息、设置对象属性、插入对象、删除对象以及查询中任一项或任几项的组合。

34、根据权利要求 25至 33任一所述的方法，其特征在于，所述接口标准定义的指令中包括创建任意版式所需的指令。

35、根据权利要求 1 至 34任一所述的方法，其特征在于，所述平台软件进一步为应用软件返回操作结果。

36、一种非结构化数据处理系统，其特征在于，包括：

37、一种平台软件，其特征在于，具有操作非结构化数据的内部数据的功能，用于，

38、一种应用软件，其特征在于，用于：

其中，根据所述至少一个指令，平台软件对所述非结构化数据执行所述操作。

39、一种非结构化数据处理方法，其特征在于，包括：

所述平台软件接收所述第一指令，创建与所述第一抽象信息对应的非结构化数据；

第二应用软件发送第二指令到所述平台软件以打开所述创建的非结构化数据；

所述平台软件接收所述第二指令，打开并解析所述非结构化数据，生成与所述非结构化数据对应的第二抽象信息；

其中所述第一指令与第二指令符合相同的接口标准。

40、根据权利要求 39 所述的方法，其特征在于，所述第一抽象信息与所述第二抽象信息相同或相似。

41、根据权利要求 39 所述的方法，其特征在于，所述非结构化数据包含可呈现信息。

42^Q„H⁶^⁸要求 41 所述的方法，其特征在于，所述 ^T/CS?^⁹^²,¹,⁵^所述第二应用软件呈现所述存储数据的效果相同或相似。

43、一种非结构化数据处理系统，其特征在于，包括：

第一应用软件，用于发送第一指令到平台软件，以创建第一抽象信息；所述平台软件，用于接收所述第一指令，创建与所述第一抽象信息对应的非结构化数据；

第二应用软件，用于发送第二指令到平台软件以打开所述创建的非结构化数据；

所述平台软件，进一步用于接收所述第二指令，打开并解析所述非结构化数据，生成与所述存储数据对应的第二抽象信息；

其中所述第一指令与第二指令符合相同的接口标准。

44、一种非结构化数据处理方法，其特征在于，包括：

其中所述第一指令和第二指令符合相同的接口标准。

45、一种非结构化数据处理系统，其特征在于，包括：

其中所述第一指令和第二指令符合相同的接口标准。