WO2010043117A1

WO2010043117A1 - 一种数字编码方法及其应用

Info

Publication number: WO2010043117A1
Application number: PCT/CN2009/001153
Authority: WO
Inventors: 劳英杰
Original assignee: Lo Yingkit
Priority date: 2008-10-17
Filing date: 2009-10-19
Publication date: 2010-04-22
Also published as: CN101382931A

Description

一种数字编码方法及其应用

技术领域

本发明涉及一种数字编码方法，特别是一种对任何音频及视频模拟信号进行编码及压缩存储，以及一种文字的字元、部首、笔画、字母、符号或图形统一编码的用于电子、信息及通信系统的交换内码。背景技术

电子电路的开与关以二进制数字 0与 1表示关系以后，过往在现实世界以模拟方式记录及存储音频及视频信号，都能通过不同层级的数字编码，以数字方式记录、存储及传送音频及视像数据；实现零失真的数字档案拷贝，及通过电子介质传送。目前现代社会的音频及视像记录及传送基本上已完全是数字化了，但要高传真地记录音频及视像，必需要大量的数字表示，更要以压缩方式把大量重复的冗余数字缩小，甚至以有损坏数据的压缩方法，达到方便传送及存储目的。

电子及半导体高速而廉宜的发展，推动人类追求更高质量的音频及视像，并会通过高成本的语音或数字网络传送，数据容量越大占用的频宽资源更会越长越大；数据一直不停地按几何级数递增，并要使用更大计算能力的硬件处理及编解码大容量的压缩音频及视像。过往编码标准一般都以 2⁸的 256个编码表示，再扩展 2⁸x2⁸ 的 16位元表示 65， 536个编码组合及 2⁸x2⁸x2⁸的 24位元等，会令目前大量移动性的电子产品加快电能消耗，亦不容易实现高质量高解析度的进行实时视像串流（Video Streaming)传送。

众所周知，任何数字数据的管理、存储及传送，都是基于有效利用频宽以最佳压缩比率优化数据容量，经有损或无损压缩存储及传送，以至涉及硬件对压缩数据的最佳编解译计算能力；例如各种大容量的网页、音频、图像及视像档案。

现代电脑系统交换内码的标准 ( American Standards Code for Information Interchange), 简称 ASCII, 开始是 7位元表示 1字节，为 2⁷；以 128个合表示一些控制键、大小写拉丁字母及阿拉伯数字；及後以二进制 2⁸表示 1字节，扩充至 256个编码组合表示，包含某些西欧国家的交换内码需要； 1967 年并于瑞士的日内瓦建议成为国际组织标准 (International Organization for Standardization) , 简称 IS0。全球经济发展都需要现代电脑系统交换及显示相同信息，所以必需统一内码，随着亚洲个别国家及地区的需要，不同国家及地区都相继以不同方式及位元数量进行编码。包括日本工业标准 (Japan Industrial Standard I JIS)、 TR0N、台湾的 Big- 5、香港地区的 Big-5 加上香港增补字符集（Hong Kong Supplementary Character Sets/ HKSCS) , 韩文及中国的 GBK，最早是简体字编码的 GB2312、及後包含繁体字的 GB18030等。以上亚洲个别国家及地区的文字应用都有一共同点，都是使用简体或繁体汉字，而当中有大部份的汉字字型是相同的，但编码表示方法不同，就完全不能互相兼容；其数量差距相当大，由数千至数万不等。互联网的兴起，世界文字的编码表示方法亦随着产生变化，互不兼容的问题导致不能在互联网显示不同的世界文字，催生 Unicode 的出现。从 1990年开始，首先把七千多个的世界文字编码，然后再将二万多个中日韩使用的汉字编码；及後再加入生僻的世界文字及汉字，应付整理各地古藉的需要，至目前为止共有十万个字容量。目前，不断出现的中阶及高阶电脑程序语言，及以电脑程序语言写成的操作系统都同时兼容 Unicode , 最新的标准是 IS010646 , 但其实对任何电脑或电子系统的硬件来说，用 Unicode编码的电脑程序语言，巨大的位元量对任何运算都会造成极大负担。 Uni code的缺点主要是沿用最早期的编码方法，导致要扩大字库时，必需要按照旧有方式横向发展，但以 2⁸横向发展；其产生的运算量极大，虽能满足编码的需要，却拖慢了电脑或电子系统的排序等运算能力。而且， Uni code的编码方法及逻辑并不符合大部份国家及地区的文字发展需要；例如，对成千上万个的汉字系统，可用二百多个部首分类，但 Uni code并未把二百多个部首全部置入 Unicode 内，数万个汉字编码的位置非常混乱，无法做到部首与汉字系统间的逻辑属性对应关系，令汉语学者无法处理古藉内码的交流需要。以下为 8位 1 字节的编码组合列表分析：

表 1

Uni code的编码系统内予留了私人造字空间，用户可以自行以不同文字符号安放在造字区内；但这私人造字区的设置，却不能以交换码方式进行公众传递。一直以来， Uni code的发展，并不是以固定长度方式编码；西方的常用字母字节编得较少，罕用的文字符号编得较多，较多的位元量不容易实现高效率排序。目前，电脑程式语言的发展要解决兼容问题，都以 Unicode 为内码，直接令大部份程式语言的空间扩大，加大记忆空间及硬体的负担。目前的文字信息数据编码方法，其主要目的是为了扩大编码组合数量及准确记录文字字型，文字记录语义，西方的文字是以字母串组织语义；东方的中国是是以方块汉字组织语义。从 ASCII到 Unicode的编码发展，都并没有对任何文字或字母在语义属性方面进行编码。电脑和互联网的发展产生了极大量的文字信息，信息全球化更是以几何级数增加，及以关键词捡索，但结果虽大量却并不准确，因为海量信息是不可能以人手方式进行语义属性分类。

世界上任何一种拼写文字都由是长短不一的字符串所组成，对极大量不同长短的字符串进行排序需要耗费极大的运算成本。最有效的管理是以固定长度数据 (Fixed-Length Data)进行存储及排序运算，自动地对任何一种文字所表达的信息实现语义属性分类，从而以最快速度捡索出最具有语义关联性的结果。海量信息的捡索，首要条件是先区分语义属性，再在自动分类後的数据内进行深度挖掘；重新对文字或字母以属性编码是唯一让文字具备分类语义的方法。

手机最早的应用是单纯的通信设备，及後电脑的功能越来越大，体积却越来越小，现时的发展已是把电脑的功能建立在手机上；所以通信设备的手机其电子结构就是电脑。但碍于旧有的编码表示方法，交换内码的极大负担，少量的文字数据都不容易应付，所以不可能在手机上以低成本发展电脑的所有功能；主要是高速排序，其他包括文字及数据库处理、搜索及网页浏览等。若能以相同效率的硬件提供比目前更高速的运算能力，手机可即时向更强大的功能发展。发明内容

本发明的目的是克服现有技术的不足，提供一种运算速度高、无损式高压缩比率的数字编码方法。

为了达到上述发明目的，本发明釆用了以下技术方案：一种用于记录、存储及转换音频及视频信号的数字编码方法，其特征在于：包括以 3位元作为一位元集、并以 3个或 3个以上的位元集，以更少的编码组合提供更高的无损耗压缩比率。本发明以固定长度位元集、多个位元集模式对任何字元进行编码，每个位元集是 2³, 即 8种编码组合；由于 2³是最接近机器 2¹的位元数量，基数少可以产生更具弹性的位元组合，适应任何的电子芯片，因此大大提高了计算机的运算速度及运算精度。

以及，提供一种运算速度高、节省存储空间的用于电子、信息及通信系统的交换内码。

为了达到上述发明目的，本发明釆用了以下技术方案：一种用于电子、信息及通信系统的交换内码，其特征在于：包括以 3位元作为一位元集、并以 3个或 3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库，其中，汉字元、部首、笔画依据部首属性编码规则进行编码；及包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。

由所述图形字元码构成的标准字符库及或汉语关键词映射表存储于计算机的 CPU或 ROM中。

用 2^:i作为一个位元集对字符、符号及图像进行编码，在字符量增加时，可根据字符量的需要，增加一个或者一个以上位元集，以切合不同规模信息系统的运算需求，达到最适当的编码扩展需求，最大限度的节省编码空间，同时提高编译器的运算速度。而在 Unicode 的编码环境下，即使字符量增加一点，也只能横向增加一个字节或者更多的字节，造成编码空间的严重浪费，拖慢编译器的运算速度。本发明用固定长度编码，可发展更高速的顺逆并行的排序算法。 ' 已应用了数千年的汉字属于象形文字，是由偏旁部首及部件组合而成，而部首具有表示本质属性的特点，因此汉字具有可根据部首系统进行分类及归纳属性的特征。世界上除汉字以外的任一种其它文字都能根据词意与汉字建立映射对应关系，从而间接地具备自动分类的属性，从而转换为更少的位元量得以存储、排序运算及传输。本发明的汉语关键词映射表是根据相同的语义，将汉语词组与英语或者世界上其他文字建立语义对应关系，从而实现以最少位元量映射 /表达其他文字编码，节省字符的编码空间，同时以固定长度位元集实现高速排序。附图说明

图 1是本发明输入及或转换音频及视频模拟信号编码流程示意图。

图 2是本发明编码流程示意图。

图 3是用 6个位元集对任何文字的字元、部首、笔画及字母、标音符号、符号等进行编码建立标准字符库的示意图；

图 4是按汉字部首编码规则对汉字系统进行编码的示意图；

图 5是汉字部首与汉字词组编码的属性关系示意图；

图 6是任何文字词组与汉语根据关键词建立映射关系示意图；

图 7是用汉字编码映射相同语义英文词组的示意图；

图 8是本发明的应用流程示意图。具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不是对本发明的限定。

如图 1所示，本发明用 n (n l)组二进制位元集进行编码，每个位元集有 2³=8种编码组合，因此，一共可提供（2³ 种编码空间进行编码。记录音频信号包括声音及音乐，转换为 2³的编码数据；以及记录视频信号，包括静止图像、动态图像，以及任何数字档案：包括声音、音乐、图像、视像及文本等转换为 2³的编码，只有 8种编码组合，可提供更高倍数的有损或无损数据压缩存储，及以更少位元量实时传送压缩后的高解析度视频串流（Video Streaming)。以实例比较及解释，下表以 3个位元集与目前标准 2⁸分析比较_:

A的 9位元比 B的 8位元多占 1位元即 12. 5%数字空间，但 A可编码的 512层级表示组合比 B的 256层级却多 1倍的解析度， A的 3组 8个编码组合（为 8+8+8)与 B 的 256 个编码组合比较，可提供多 10. 67 倍的压缩比率；减去多占的 1 位元空间 (12. 5%)，得出最高压缩比率是 9. 4倍。

亦等于 A的压缩效率功耗，存储所占位元空间及传输速率，会比 B少 9. 4倍；若以相同质量解析度比较，即 A的压缩档案优于图像 B18. 8倍。

若以相同质量通过相同频宽的网络的视频档案计算，效率会提高 353. 44倍。而且越多位元集组合，表示越高解析度的视频，效率是以几何频数的 2 倍、 4 倍及 8 倍的方式递增。

如图 2所示，本发明首先建立标准字符库，用于对任何字元、符号及图形用 n (n 1)组二进制位元集进行编码，每个位元集有 2³=8 种编码组合，因此，一共可提供 (2³) »种编码空间进行编码。

图 3示出了根据本发明的编码方式，将目前世界上应用的任何一个字元、字型、文字、部首、标音符号、符号、图形及图像等，以唯一的字型符号进行编码。编码组合以 6组为例，是 2³x2³x2³x2⁸x2³x2'^, ₍ 能对 262， 144个文字及符号进行编码，而每个编码的位元数量只是 18。图内的示例分别有汉字、阿拉伯数目字、拉丁字母、希腊字母、罗马数目字、音乐符号、韩国标音符号及日本假名文字等。

现以 6个二进制位元集对汉字字型进行编码为例，即 2³ _X2³ _X2³ _X2³ _X2³x2³，共有编码组合数量为 26万 2千个，满足现在世界文字的 10万个编码需求，是目前全世界文字编码组合需要的 2. 6倍，还有 16万个编码组合的编码扩展空间；足够应付未来数年文字扩展需要，其计算方式如下列表：

表 2

从上表可见，以 6个位元集进行编码，其编码组合可达到 262, 144个，与 Unicode 相比；仍有 16万个字符的编码空间，足以应付目前及未来数年的扩展需要，而所占的空间总容量只有 2. 25字节（Byte) , 且记忆空间及运算能力要求不高，适合发展便携式信息及通信系统的交换内码。而未来根据文字扩展及应用的需要，可用 6个以上二进制位元集进行编码，其要求的记忆空间及运算能力较高，适合发展大型信息系统的交换内码。

对单一汉字字型进行编码时，按照部首属性编码规则用二进制多位元集进行编码，例如如图 4，偏旁部首〃与具有 " 〃部首的汉字具备相同的部首关联属性，体现在它们的编码具有本质相同的表达；如此类推，偏旁部首 " 4 " 、 ^v† " 、 ^w i " 及及其系列汉字都如是；本例中，具有相同部首的汉字字元，其编码的前三位数字也是相同的，从而实现汉字按部首属性分类规则编码，准确区分出不同汉字字型的部首属性。

例如图 5，汉字系统内与 "水"含义有关系的，其部首是 1 " ，设 " " 的编码为 111 000 , 凡是与 "水"含义相关的汉字或部首都可以编入 111 000组内识别属性时，前三位为 111 的编码组合，都具有水的属性，并能自动以水的属性分类。例如汉字 "海水〃用 6个位元集编码，分别为 111 661及 111 660，而汉字 "海水〃的部首都是 "† " ，编码为 111 000; 利用部首属性进行编码的方法能将编码与汉字系统内涉及词意 ^w水〃的汉字联系在一起，字元编码的前三位数字是相同的，都为 111。

以上示例中，是按汉字的笔画顺序将汉字拆分成至少一个部首或部件，该字的首部首占用了编码中的前三个位元集，余下的三个位元集可以作流水编号也可考虑采用更进一步的部首属性编码。

在实际应用中，首部首或首部件占用的位元集也可以是 1个，或 2个，或 4个，本发明不对此作出限定。

除了采用按汉字笔顺将汉字拆分成至少一个部首 /部件的方式以外，所采用的部首属性编码规则还可以是按笔画顺序及预定笔画集合将汉字拆分成至少一个笔画，并采用一个以上的位元集来对该笔画进行编码。例如：设定预定笔画集合由.点. "、" 一一代表点类笔画、短撇 " " 一一代表短撇及短捺类笔画、长撇 " " — 一代表长撇及长捺类笔画、短划" - "——代表短横及短竖类笔画及长划"一" 一一代表长横及长竖类笔画组成，分别对应于 1~5五个数字，字型笔画不足部分以数字 " 0 " 表示。则汉字 "海" 的部首编码则为 111661，即笔画占用一个位元集。

以部首属性编码规则建立的标准字符库内的汉字字元，同时设立汉语关键词映射表，用于将其它文字根据关键词语义匹配关系对应映射至汉语词组，即将标准字符库内的汉语与世界上其他文字的词组对应起来，用汉语来表示其它文字。如图 6; 世界上任何语言文字都能映射到汉语关键词映射表，从而间接地以自动方式实现语义属性分类。 .

如图 7所示，通过把其它文字映射到汉语关键词映射表的方式，可以转换得到更少的位元量，这样其他文字需要排序运算时，可以以列表方式映射相同语义的汉语从而使编码位元量大大减少，采用标准字符库的汉字字元组成的汉语关键词映射表映射相同语义的英语，可取代 Unicode非固定长度及多位元量进行存储、排序运算及传输。例如，在汉语及字符的映射表中，根据语义的对应关系， " Sea Water" 的汉语语义为 "海水"，因以 " Sea Water "转换为汉语关键词 "海水" 的 36个位元为代码存储，即其编码码位为 36位，远远少于本身英语的 72个位元。因此，当要进行检索时，无论输入的是哪一种文字表述的关键词，都可以根据语义匹配关系，在汉语关键词映射表中映射到对应的汉语词组，从而转换得到更少的位元量，加快计算机系统的存储、排序运算及传输速度。应用时，将上述标准字符库及或汉语关键词映射表直接置入 ROM (Read Only Memory)或 CPU (Central Processing Unit) , 可更快速存取任何字元的编码组合及属性数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种数字编码方法，其特征在于：以 3位元作为一位元集、并以 3个或 3个以上的位元集，以更少的编码组合提供更高的无损耗压缩比率。

2、根据权利要求 1所述的数字编码方法，其特征在于：所述的无损耗压缩比率是以 2³编码进行高压缩比率，以实时传送视频串流。

3、一种用于电子、信息及通信系统的交换内码，其特征在于：包括以 3位元作为一位元集、并以 3个或 3个以上的位元集对字元、部首、笔画、字母、符号或图像以固定位元长度编码并建立的标准字符库，其中，汉字字元、部首、笔画依据部首属性编码规则进行编码；及

包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射表。

4、根据权利要求 3所述的交换内码，其特征在于：所述位元集的个数为 6。

5、根据权利要求 4所述的交换内码，其特征在于：所述部首属性编码规则是指汉字按照笔画顺序拆分成至少一个部首或部件、以一位以上的位元集进行编码。

6、根据权利要求 5所述的交换内码，其特征在于：每一部首或部件以 3位位元集进行编码。

7、根据权利要求 4所述的交换内码，其特征在于：所述部首属性编码规则是指汉字按照预定笔画集合和笔画顺序拆分成至少一个笔画、以至少一位的位元集编码表示。

8、根据权利要求 7所述的交换内码，其特征在于：所述预定笔画集合由点. "、"一一代表点类笔画、短撇 " " 一一代表短撇及短捺类笔画、长撇 " 一一代表长撇及长捺类笔画、短划 " - "一一代表短横及短竖类笔画及长划 "一" 一一代表长横及长竖类笔画组成，分别对应于 5 五个数字，字型笔画不足部分以数字 " 0 " 表示。

9、根据权利要求 3所述的交换内码，其特征在于：所述标准字符库或汉语关键词映射表存储于电子系统的 CPU或 ROM中。

10、一种应用权利要求 3-9任一权利要求所述的用于电子、信息及通信系统的交换内码进行检索、排序、存储或数据输出的方法，其特征在于包括以下步骤- (1) 输入以源文字表述的关键词；

(2) 系统根据所述汉语关键词映射表的关键词语义匹配关系将源文字与汉语词组映射对应；

(3) 对以汉语表达的关键词进行排序、检索、存储或数据输出操作。