WO2013097805A1

WO2013097805A1 - 双向排版方法和设备

Info

Publication number: WO2013097805A1
Application number: PCT/CN2012/088012
Authority: WO
Inventors: 唐耀珺; 杨燕菲
Original assignee: 北大方正集团有限公司; 北京北大方正电子有限公司
Priority date: 2011-12-31
Filing date: 2012-12-31
Publication date: 2013-07-04
Also published as: US20150019959A1; CN103186519A; CN103186519B; US9613005B2

Abstract

一种双向排版方法和设备。该方法包括：获取为文档进行双向排版而形成的小样；从所述获取的小样中确定出由连续的需要反序的字符组成的至少一个反序区间；以及确定需要反序的所述字符反序后在所述文档中将要所处的位置，并将所述位置记录在大样中。

Description

双向排版方法和设备

交叉引用

本申请要求 201 1年 12月 3 1 日提交的、申请号为 201 1 10459186.3 的发明申请的优先权，其全部内容通过引用并入本文。技术领域

本发明属于排版技术领域，具体涉及一种双向排版方法和设备。背景技术

不同语言有不同的阅读方向，比如中文、英文、拉丁文等通常从左向右读（写），而维文、阿拉伯文、希伯来文等通常从右向左读 (写）；因此，不同语言应使用不同的排版方向（即输入字符的顺序与排版后字符位置间的关系），以使在报纸、书籍等中其显示顺序也不同。

显然，在向小样输入字符时都是根据"意义"的顺序输入，与排版方向无关。现有的双向排版方法是对小样中"字符的顺序"直接进行反序（即颠倒字符的在小样中存储的前后顺序），并用反序后的小样构造大样。例如，在以维文为主体、默认排版方向从右向左的文档中，有"北京北大方正电子 "的中文，现有双向排版方法会将小样中的"北京北大方正电子" 反序成 "子电正方大北京北"，当用反序后的小样构造大样时，按照从右向左的默认排版方向即得如图 1所示的结果，中文和维文都正确显示。

发明人发现现有技术中至少存在如下问题：现有的双向排版方法直接对小样中 "字符的顺序 "进行反序，故小样存储的是反序后的意思混乱的字符。因此，在进行数据交换 (修改小样)时会发生困难；如上述 "北京北大方正电子 "的例子，若要将其修改为"北京市的北大方正电子"，本来在小样中的"北京"后边插入"市的"即可，但因小样存储的是"子电正方大北京北"，不符合中文语言习惯，故操作人员很难判断该将"市的"插入到何处；且"市的"如何反序也存在问题（因为此时其它中文内容已经反序了，而"市的"还未反序）。同时，构造大样时的格式变化 (如折行等）则容易引起错误，如上述 "北京北大方正电子 "的例子，若大样中第一行剩余空间只能容纳 5个汉字，则现有双向排版方法会用反序后小样中顺序在前的"子电正方大" 5个字在大样第一行按从右向左的排版方向生成"大方正电子"，之后小样中剩余的内容再于大样第二行生成"北京北"，从而得到如图 2所示的排版结果，虽然其中每行中的中文顺序都正确（都是从左向右的），但整体的排版结果却为"大方正电子北京北" (即本该在第一行中的部分字符进入了第二行，而本该在第二行中的字符进入了第一行)，意义混乱。

其中，字符、小样、大样均是本领域中的常用技术术语。字符通常指可输入电子设备的最小的文本单元，包括文字字符 (如一个汉字、一个英文字母等)、符号字符 (逗号、句号等)，格式字符 (如折行符等)等类型；小样通常指主要包括文档内容 (如具体是什么字符、字符的前后顺序等) 的排版过程中用的文件；而大样通常指由小样得到的、包括排版位置信息（比如某个字符位于什么位置等）的排版过程中用的文件，其中字符的位置可用行索引（即字符位于哪行)、位置索引（即字符位于行中的什么位置)等表示。发明内容

本申请的一方面提供了一种双向排版方法。该方法可包括：获取为文档进行双向排版而形成的小样；

从所述获取的小样中确定出由连续的需要反序的字符组成的至少一个反序区间；以及

确定需要反序的所述字符反序后在所述文档中将要所处的位置，并将所述位置记录在大样中。

本申请的另一方面提供了一种双向排版设备。该设备可包括用于构造大样的大样构造单元，其中，所述大样构造单元包括：

反序区间确定单元，用于在构造大样时，从为文档进行双向排版而形成的小样中确定由连续的需要反序的字符组成的至少一个反序区间；以及

反序位置确定单元，用于确定需要反序的所述字符反序后在所述文档中将要所处的位置，并将所述位置记录在大样中。

本申请的另一方面提供了这样一种计算机可读存储介质，在该存储介质中存储有：

用于获取为文档进行双向排版而形成的小样的指令；

用于从所述获取的小样中确定出由连续的需要反序的字符组成的至少一个反序区间的指令；以及

用于确定需要反序的所述字符反序后在所述文档中将要所处的位置，并将所述位置记录在大样中的指令。

本发明的双向排版方法中，不是对小样中的 "字符顺序"进行反序，而是在构造大样时直接将"字符位置"反序；因此，一方面其小样中存储的内容意义和顺序均正确，便于进行数据交换，操作简单；另一方面，构造大样时可直接确定字符反序后的准确位置，不会因为格式变化等引发错误，排版结果准确。

本发明特别适用于在同一段中含有阅读方向不同的文字的文档的排版，如同一段中同时含有中文和维文的文档、同时含有英文和阿拉伯文的文档等。附图说明

图 1为现有的双向排版方法的正确的排版结果的示意图；

图 2为现有的双向排版方法折行时的错误的排版结的果示意图；图 3为根据本申请一个实施方式的双向排版设备的方框图。

图 4为根据本申请一个实施方式的双向排版方法的流程意图；以及图 5为根据图 4所示的方法形成的排版结果的示意图。具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

图 3 示出了根据本申请一个实施方式的双向排版设备 300。如图 3 所示，设备 300至少包括小样生成单元 301和大样构造单元 302。小样生成单元 301用于为文档进行双向排版而形成小样。例如，形成文档内容 (如具体是什么字符、字符的前后顺序等）的排版过程中用的文件。大样构造单元 302包括：反序字符判断单元 3021、反序区间确定单元 3022 和反序位置确定单元 3023。

反序字符判断单元 3021用于根据默认排版方向以及字符的种类，从小样生成单元 301构成的小样中判断字符是否需要反序。例如，反序字符判断单元 3021 可将阅读方向与默认排版方向相反的文字字符判断为需要反序的字符。

反序区间确定单元 3022用于在构造大样时，从形成的小样中确定由连续的需要反序的字符组成的至少一个反序区间。具体地，反序区间确定单元 3022可首先确定所需要反序的字符的行索引，然后将全部行索引相同的、连续的需要反序的字符确定为一个反序区间。

反序位置确定单元 3023 用于确定需要反序的所述字符反序后在所述文档中将要所处的位置，并将该位置记录在大样中。在一个实施方式中，反序位置确定单元 3023 首先确定反序区间中的字符在反序前的位置，然后交换反序区间中第 n个字符与第（k+1-n)个字符的位置，得到所述字符在反序后的位置，其中 k为所述反序区间中的字符总数， n为大于等于 1且小于等于 k/2的整数。可选地，反序位置确定单元 3023被配置为对反序区间中的字符的顺序进行反序，然后确定反序后的字符在反序区间中的位置。

下面将参照图 4所示的方法 400进一步对上述各单元之间的协作进行描述。

方法 400从构造大样开始。具体地，在步骤 S401中，反序字符判断单元 3021判断字符是否需要反序。本步骤的目的在于确定哪些字符需要反序，从而为反序区间的确定提供依据。当然，本判断步骤也不是必须的；例如，如果在输入小样时已经直接附带了哪些字符需要反序的信息，或者在构造大样时人为规定哪些字符需要反序，就可不必进行本步骤。但从操作简单的角度出发，优选进行本判断步骤（因为本步骤可通过计算机等自动进行，不必人为操作）。该判断可为逐一对文档中的每个字符进行判断，也可为只对部分选定的段落进行判断。优选的，判断字符是否需要反序可根据文档默认的排版方向以及字符的种类进行；更优选的，若字符为阅读方向与默认排版方向相反的文字字符 (如汉字、英文字母等）则判断字符需要反序。其中，默认排版方向通常根据文档主体内容的习惯排版方向确定，以减少反序步骤的运算量。如上述 "北京北大方正电子 "的例子，文档以维文为主，故默认排版方向从右向左，而中文通常的阅读方向为从左向右，即"北京北大方正电子"为阅读方向与默认排版方向相反的文字字符，故可判断其全为需要反序的字符，而维文则不需要反序。因为字符是否需要反序主要由语言种类决定，故这种判断方法可有效减少判断所需的运算量。当然，具体的判断方法也可进行许多变化，例如判断时还可考虑是否有特殊的格式要求 (如是否有某段中文被特别规定为从右向左排版），或者对于符号字符 (逗号、句号、空格等)釆用的是何种判定方法 (现有的对符号字符排版方向的判断有按前序字符判断、按后序字符判断、单独判断等多种方法，其具体方法是已知的，在此就不再详细叙述了）。

在步骤 S402 , 反序区间确定单元 3022确定需要反序的字符的行索引（即确定字符应位于哪行中）。也就是说，反序区间确定单元 3022在确定出需要反序的字符后，先对文档进行 "预排版"，以确定需要反序的字符分别应当处于哪行中（当然不需要反序的字符的行索引也可一起确定），以便确定哪些需要反序的字符是连续而应位于一个反序区间中的，避免将分别位于两行中的字符一起反序而弓 1发错误。例如上述"北京北大方正电子"的例子，其"预排版 "后确定第一行只能容纳 5个汉字，故"北京北大方" 5个字的行索引被定为 01 , 而"正电子 "3个字的行索引被定为 02。当然，如果在小样中已经用折行符等对全部格式做了规定，则本判断步骤也可不进行。

在步骤 S403 , 反序区间确定单元 3022将全部行索引相同的、连续的需要反序的字符确定为一个反序区间。也就是说，每个反序区间中应该是处于同一行中的、连续的、需要反序的字符，其间没有折行符、换行符、不需反序的字符等；同时，处于一行中的所有连续的需要反序的字符应被确定为一个反序区间，而不会被分成几个反序区间；当然，如果一行中的需要反序的字符是不连续的几个部分（即其间夹杂有不需反序的字符等），则它们应被分为几个反序区间，以保证每个反序区间中的需要反序的字符都是连续的。其中，由于单个的需要反序的字符 (例如一段维文中突然出现一个汉字）不可能是"连续"的，也就不必被确定为反序区间。在上述 "北京北大方正电子 "的例子中， "北京北大方 "5个需要反序的字符连续 (之间没有维文等)且处于一行中（行索引均为 01) , 故被确定为第一个反序区间，而 "正电子"被确定为第二个反序区间。

在步骤 S404, 反序位置确定单元 3023计算反序区间中的字符反序后的位置。例如，反序位置确定单元 3023可确定反序区间中的字符在反序前的位置，即按默认排版方向先排出各字符所在的位置。在上述 "北京北大方正电子 "的例子中，如下表 1所示，在第一个反序区间中，按默认排版方向， "北京北大方 "分别为第 1、第 2、第 3、第 4、第 5个字符，它们在该行中的位置索引（或称 X位置，也就是按默认排版方向排版后所处的位置）分别为 10、 11、 12、 13、 14, 其中每个位置索引代表该行中的一个特定位置，对应的字符排版后应位于该位置处。

交换反序区间中第 n个字符与第（k+1-n)个字符的位置，得到两字符在反序后的位置，其中 k为反序区间中的字符总数， n为大于等于 1且小于等于 k/2 的整数。上述"北京北大方正电子"的例子中，第一个反序区间中 k=5 , 则当 n=l时，反序前第 n个 (第 1个)字符为 "北"，在该行中的位置索引为 10, 第（k+1-n)个字符 (第 5个)为"方"，在该行中的位置索引为 14, 对它们的位置进行交换，从而"北"的位置索引变为 14, 而"方" 的位置索引变为 10, 二者完成反序；这样依次取 n的全部可能值 (本例中为 1和 2) , 即可得到该反序区间中的全部字符在反序后的位置。

字符北京北大方字符的序号 (n) 1 2 3 4 5 反序前的位置索引 10 1 1 12 13 14 与其交换位置的字符的序号 5 4 3 2 1 ( n+k- 1 )

反序后的位置索引 14 13 12 1 1 10 表 1、交换反序区间中字符位置的：禾呈不意表与此类似，再计算第二个反序区间中"正电子 "3 个字符反序后的位置，即可得到如图 3所示的排版结果。

在本实施例中，由于反序是在构造大样时进行的，故小样中存储的是顺序正确的字符，便于进行修改等；同时，由于每个反序区间中都是连续的需要反序的字符，因此，当涉及到格式变化 (如折行等）时，反序区间会被分为两个，每个反序区间中的字符都是该反序区间的位置所应对应的字符 (例如 "北京北大方 "必然位于第一行，而"正电子 "必然位于第二行)，这样在对各反序区间进行反序后，必然能得到全部字符的正确位置，不会出现现有双向排版方法那样的错误 (例如 "北京北"被排入第二行，而"正电子，，进入第一行）。

可选地，在步骤 S404中，反序位置确定单元 3023还可以通过以下步骤计算反序区间中的字符反序后的位置： 1 )对反序区间中的字符的顺序进行反序；以及 2) 确定反序后的字符在反序区间中的位置。也就是说，在该步骤中，先将反序区间中字符的前后顺序进行颠倒，再按默认排版方向对前后顺序颠倒的字符进行排版，同样可以得到正确的排版结果。在上述 "北京北大方正电子 "的例子中，先将第一个反序区间中的"北京北大方" 5 个字符的顺序直接反序为"方大北京北"，之后将 "方大北京北" 5 个字符按照默认排版方向（从右向左）直接排版，则排版后各字符的位置就是反序区间中的字符反序后的位置；同理，对第二个反序区间中的"正电子 "3个字符也按相同方法排版，同样可得到如图 5所示的排版结果。这种方法在确定字符位置前对字符的顺序进行反序，而不是在排好位置后再交换位置，用不同的方法实现了本发明的目的。

在步骤 S405 , 反序位置确定单元 3023将字符反序后的位置 (或称索引）记录在大样中；当然，未反序的字符的位置信息、文档的格式信息等其它的常规信息也可一同保存在大样中。图 5所示即为根据图 4所示的方法形成的排版结果的示意图。

根据本申请上述的方法和设备不是对小样中的"字符顺序"进行反序，而可按上述方法在构造大样时直接将"字符位置"反序；因此，一方面其小样中存储的内容意义和顺序均正确，便于进行数据交换，操作简单；另一方面，构造大样时可直接确定字符反序后的准确位置，不会因为格式变化等引发错误，排版结果准确。

所公开的和其它实施例以及该说明书中所描述的功能性操作能够以数字电路或者包括该说明书中所公开的结构及其结构等同物的计算机软件、固件或硬件来实施，或者以它们的一个或多个的组合来实施。所公开的和其它实施例可作为一个或多个计算机程序产品来实施，即在计算机可读介质上进行编码的计算机程序指令的一个或多个模块，以便由数据处理装置来执行或者控制其操作。所述计算机可读介质可以是机器可读的存储设备、机器可读的存储基片、存储器设备、影响机器可读的传播信号的合成物质或它们的一个或多个的组合。术语"数据处理装置 "包含用于处理数据的所有装置、设备和机器，例如包括可编程处理器、计算机、多个处理器或计算机。除了硬件之外，所述装置可包括创建所讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议枝、数据库管理系统和操作系统或它们的一个或多个组合的代码。传播信号是人工生成的信号，例如机器生成的电、光或电磁信号，其被生成来对信息进行编码以便传送到适当的接收器装置。

计算机程序（还被称为为程序、软件、软件应用、脚本或代码）可以以任意形式的编程语言来书写，包括编译的或解释性语言，并且其可以以任意形式被部署，包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序无需对应于文件系统中的文件。程序可存储在保存其它程序或数据 (例如，存储在标记语言文档中的一个或多个脚本〉的文件的一部分中、专用于所讨论的程序的单个文件中、或者多个协同文件 (例如，存储一个或多个模块、子程序或代码部分的文件）中。计算机程序可被部署为在一个计算机或位于一个地点或分布在多个地点并且通过通信网络互连的多个计算机上执行。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而釆用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围

Claims

权利要求书

1. 一种双向排版方法，包括：

获取为文档进行双向排版而形成的小样；

2. 根据权利要求 1所述的双向排版方法，还包括：

根据默认排版方向以及字符的种类，从所述生成的小样中判断所述字符是否需要反序。

3. 根据权利要求 1所述的双向排版方法，其中，所述判断的步骤包括：

判断所述字符是否为阅读方向与默认排版方向相反的文字字符，若是则所述字符需要反序。

4. 根据权利要求 1所述的双向排版方法，其中，所述确定由连续的需要反序的字符组成的至少一个反序区间的步骤包括：

从所述生成的小样中确定出需要反序的字符的行索引；以及将全部行索引相同的、连续的需要反序的字符确定为一个反序区间。

5. 根据权利要求 1至 4中任意一项所述的双向排版方法，其中，确定需要反序的所述字符反序后在所述文档中将要所处的位置的步骤包括：

确定所述反序区间中的字符在反序前的位置；以及

交换所述反序区间中第 n个字符与第（k+1-n)个字符的位置，得到所述字符在反序后的位置，其中 k为所述反序区间中的字符总数， n为大于等于 1且小于等于 k/2的整数。

6. 根据权利要求 1至 4中任意一项所述的双向排版方法，其特征在于，确定需要反序的所述字符反序后在所述文档中将要所的位置包括：对所述反序区间中的字符的顺序进行反序；以及

7. 一种双向排版设备，包括用于构造大样的大样构造单元，其中，所述大样构造单元包括：

8. 根据权利要求 7所述的双向排版设备，还包括：

反序字符判断单元，用于根据默认排版方向以及字符的种类，从所述生成的小样中判断所述字符是否需要反序。

9、根据权利要求 7所述的双向排版设备，还包括：

反序字符判断单元，用于将阅读方向与默认排版方向相反的文字字符判断为需要反序的字符。

10、根据权利要求 7所述的双向排版设备，其中，所述反序区间确定单元还被配置为确定所述需要反序的字符的行索引，并将全部行索引相同的、连续的需要反序的字符确定为一个反序区间。

1 1、根据权利要求 7所述的双向排版设备，其中，所述反序位置确定单元被配置为：

确定所述反序区间中的字符在反序前的位置；以及

12、根据权利要求 7所述的双向排版设备，其中，所述反序位置确定单元被配置为：

对所述反序区间中的字符的顺序进行反序；以及