WO2010043117A1 - 一种数字编码方法及其应用 - Google Patents

一种数字编码方法及其应用 Download PDF

Info

Publication number
WO2010043117A1
WO2010043117A1 PCT/CN2009/001153 CN2009001153W WO2010043117A1 WO 2010043117 A1 WO2010043117 A1 WO 2010043117A1 CN 2009001153 W CN2009001153 W CN 2009001153W WO 2010043117 A1 WO2010043117 A1 WO 2010043117A1
Authority
WO
WIPO (PCT)
Prior art keywords
chinese
radical
stroke
bit
encoding
Prior art date
Application number
PCT/CN2009/001153
Other languages
English (en)
French (fr)
Inventor
劳英杰
Original Assignee
Lo Yingkit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lo Yingkit filed Critical Lo Yingkit
Publication of WO2010043117A1 publication Critical patent/WO2010043117A1/zh

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Definitions

  • the invention relates to a digital encoding method, in particular to encoding and compressing any audio and video analog signals, and for uniformly encoding a character, radical, stroke, letter, symbol or graphic of a character. , exchange of internal codes for information and communication systems. Background technique
  • the audio and video signals are recorded and stored in the real world in an analog manner, and the audio can be digitally recorded, stored and transmitted through different levels of digital encoding.
  • Video data digital file copying with zero distortion and transmission via electronic media.
  • audio and video recording and transmission in modern society are basically completely digital. However, to record audio and video in a high-fidelity manner, a large number of digital representations are required, and a large number of repeated redundant numbers are reduced in a compressed manner. Even for compression methods with corrupted data, it is convenient for transmission and storage purposes.
  • ASCII American Standards Code for Information Interchange
  • ASCII starts with 7 bits representing 1 byte and is 2 7 ; 128 combinations for some control keys, uppercase and lowercase Latin letters and Arabic numerals. And then expressed in binary 2 8 for 1 byte, expanded to 256 coded combination representations, including the need for exchange of internal codes in some Western European countries; 1967 and Geneva in Switzerland recommended to become an International Organization for Standardization (International Organization for Standardization), Referred to as IS0.
  • IS0 International Organization for Standardization
  • the global economic development requires modern computer systems to exchange and display the same information, so it is necessary to unify the internal code. With the needs of individual countries and regions in Asia, different countries and regions have successively coded in different ways and in the number of bits.
  • Korean and Chinese GBK are the first to be the simplified character code GB2312 and the traditional Chinese characters including GB18030.
  • the above-mentioned text applications in some Asian countries and regions have one thing in common. They use simplified or traditional Chinese characters. Most of the Chinese characters are the same, but the coding methods are different, so they are not compatible with each other. The gap is quite large, ranging from thousands to tens of thousands.
  • the Uni code's encoding system leaves a private space for writing. Users can place their own text symbols in the word-making area. However, the setting of the private word-making area cannot be exchanged by the public. All along, the development of Uni code is not coded in a fixed length; the common alphabetic bytes in the West are compiled less, and the rarely used text symbols are compiled more, and more bit quantities are not easy to achieve high efficiency sorting. At present, the development of computer programming languages should solve the compatibility problem. All of them use Unicode as the internal code, which directly expands the space of most programming languages and increases the burden of memory space and hardware.
  • the current text information data encoding method its main purpose is to expand the number of coding combinations and accurately record text fonts, text record semantics, Western texts are organized in alphabetic strings; Eastern China is organized in square Chinese characters.
  • the development of encoding from ASCII to Unicode does not encode any text or letter in terms of semantic attributes.
  • the development of computers and the Internet has produced a very large amount of text information.
  • the globalization of information has increased in geometric progression and searched with keywords. However, the results are large but inaccurate, because massive information cannot be carried out manually. Semantic attribute classification.
  • Any spelling text in the world consists of strings of varying lengths. Sorting a very large number of different lengths of strings requires a lot of computational cost.
  • the most effective management is the storage and sorting operation of Fixed-Length Data, which automatically classifies the semantic attributes of any kind of text, so as to find the most semantic relevance at the fastest speed. the result of.
  • the first condition of mass information is to distinguish semantic attributes first, and then perform deep mining in the automatically classified data. Re-encoding the words or letters with attributes is the only way to make the words have classification semantics.
  • An object of the present invention is to overcome the deficiencies of the prior art and to provide a digital encoding method with high computational speed and lossless high compression ratio.
  • a digital encoding method for recording, storing, and converting audio and video signals comprising: using a 3-bit as a bit set, and Three or more sets of bits provide a higher lossless compression ratio with fewer coding combinations.
  • the invention encodes any character in a fixed length bit set and a plurality of bit set patterns, each bit set is 2 3 , that is, 8 kinds of coding combinations; since 2 3 is the number of bits closest to the machine 2 1
  • the small number of bases can produce a more flexible combination of bits, adapting to any electronic chip, thus greatly improving the computing speed and accuracy of the computer.
  • a switching inner code for an electronic, information, and communication system that provides high computation speed and saves storage space.
  • One for electronics, information and The exchange internal code of the communication system is characterized in that: a 3-bit is used as a bit set, and a character set, a radical, a stroke, a letter, a symbol or an image is fixed by 3 or more bit sets.
  • a standard character library and or a Chinese keyword mapping table composed of the graphic character code is stored in a CPU or ROM of a computer.
  • Use 2 :i as a bit set to encode characters, symbols and images.
  • one or more bit sets can be added according to the needs of the character quantity to meet the computing requirements of different scale information systems. Achieve the most appropriate coding extension requirements, maximize the coding space, and increase the speed of the compiler.
  • the present invention uses fixed length coding to develop a higher speed sequential and parallel parallel sorting algorithm. 'Chinese characters that have been applied for thousands of years belong to hieroglyphs, which are composed of radicals and components.
  • the radicals have the characteristics of representing essential attributes. Therefore, Chinese characters have the characteristics of classifying and summarizing attributes according to the radical system. Any other text in the world except Chinese characters can be mapped according to the meaning of the word and the Chinese characters, thereby indirectly having the attributes of automatic classification, thereby converting to a smaller number of bits for storage, sorting and transmission.
  • the Chinese keyword mapping table of the present invention establishes a semantic correspondence between a Chinese phrase and other words in English or the world, thereby realizing mapping/expressing other character encodings with a minimum number of bits, thereby saving the coding space of characters, and simultaneously High-speed sorting is achieved with a fixed-length set of bits.
  • FIG. 1 is a schematic diagram of a coding flow of an input and/or conversion audio and video analog signal according to the present invention.
  • FIG. 2 is a schematic diagram of the encoding process of the present invention.
  • Figure 3 is a schematic diagram of encoding a standard character library by encoding a character, a radical, a stroke, and a letter, a diacritic symbol, a symbol, etc. of any character with a set of 6 bits;
  • FIG. 4 is a schematic diagram of encoding a Chinese character system according to a Chinese character radical encoding rule
  • Figure 5 is a schematic diagram showing the relationship between the Chinese character radical and the Chinese character phrase encoding
  • Figure 6 is a schematic diagram showing the mapping relationship between any word phrase and Chinese according to keywords
  • Figure 7 is a schematic diagram of mapping the same semantic English phrase with Chinese character encoding
  • FIG. 8 is a schematic diagram of the application flow of the present invention. detailed description
  • Audio signals include sound and music, converted to 2 3 encoded data; and recorded video signals, including still images, moving images, and any digital archives: including sound, music, images, video, and text, converted to 2 3 encoding
  • Only 8 encoding combinations provide higher multiple lossy or lossless data compression storage, and real-time transmission of compressed high-resolution video streams (Video Streaming) with fewer bits.
  • the following table compares the current 3 8 analysis with a set of 3 bits :
  • the 9-bit of A occupies 1 bit more than the octet of B. That is 12.5% of the digital space, but the 512-level code that A can encode indicates that the combination is 1 times more resolution than the 256-level of B, and the 3 groups of A 8 coding combinations (8+8+8) compared with B's 256 coding combinations provide a compression ratio of 10.67 times; minus 1 bit space (12.5%), The maximum compression ratio is 9.4 times.
  • A's compression efficiency power consumption, storage bit space and transmission rate which is 9.4 times less than B; if compared with the same quality resolution, that is, A's compressed file is better than image B18. 8 times.
  • the efficiency will increase by 353.44 times. And the more the combination of bit sets, the higher the resolution of the video, the efficiency is increased by 2 times, 4 times and 8 times the geometric frequency.
  • the combination therefore, provides a total of (2 3 ) » coding spaces for encoding.
  • FIG. 3 shows an encoding method according to the present invention, which encodes any character, font, character, radical, diacritics, symbols, graphics and images currently applied in the world by a unique font symbol.
  • Code combinations to 6 groups for example, is 2 3 x2 3 x2 3 x2 8 x2 3 x2 ', ( 262 can be encoded, 144 symbols and characters, and each The number of encoded bits is only 18. Examples in the figure are Chinese characters, Arabic numerals, Latin letters, Greek letters, Roman numerals, musical symbols, Korean phonetic symbols, and Japanese kana characters.
  • the Chinese character font is encoded by 6 binary bit sets, that is, 2 3 X 2 3 X 2 3 X 2 3 X 2 3 x2 3 , and the total number of coding combinations is 260,000, which satisfies the current world text.
  • the 100,000 encoding requirements are currently 2.6 times that of the world's text encoding combination, and there are 160,000 encoding combinations of coding expansion space; enough to meet the needs of text expansion in the next few years, the calculation is as follows:
  • encoding with a set of 6 bits can achieve a coding combination of 262, 144, compared with Unicode; there is still a coding space of 160,000 characters, which is sufficient for the expansion needs of the current and future years.
  • the total space occupied is only 0.25 bytes (Byte), and the memory space and computing power are not high, which is suitable for the development of the exchange internal code of the portable information and communication system.
  • more than 6 binary bit sets can be used for encoding.
  • the required memory space and computing power are high, which is suitable for the development of exchange internal codes of large information systems.
  • the radical head ⁇ When encoding a single Chinese character font, it is encoded by a binary multi-bit set according to the radical attribute encoding rule.
  • the radical head ⁇ has the same radical association attribute as the Chinese character having the ⁇ radical, reflecting In their coding, they have essentially the same expression; and so on, the radicals "4", v ⁇ ", w i " and their series of Chinese characters are the same; in this case, the Chinese characters with the same radical, the encoding
  • the first three digits are also the same, so that the Chinese characters are encoded according to the classification rules of the radicals, and the radical attributes of different Chinese fonts are accurately distinguished.
  • the Chinese character system has a relationship with the meaning of "water”. Its radical is 1 ", and the code for "" is 111 000. Any Chinese character or ministry related to the meaning of "water” can be grouped into 111 000 groups.
  • the attribute is identified internally, the first three digits of the code combination of 111 have the attribute of water and can be automatically classified by the attribute of water.
  • the Chinese character “sea water ⁇ is coded with 6 bit sets, which are 111 661 and 111 660 respectively, and the Chinese character “the capital of the sea otter is " ⁇ ", coded 111,000;
  • the encoding method using the radical attribute can encode relates to the meaning of the word w with water ⁇ kanji characters associated with the system, character encoding first three digits are the same, are 111.
  • the Chinese characters are split into at least one radical or component according to the stroke order of the Chinese characters.
  • the first header of the word occupies the first three bit sets in the code, and the remaining three bit sets can be used as the serial number. Further radical code encoding can also be considered.
  • the first or first component of the header may also occupy one, or two, or four, which is not limited by the present invention.
  • the radical attribute encoding rule may be divided into at least one stroke by a stroke order and a predetermined stroke collection, and one is adopted.
  • the above set of bits is used to encode the stroke. For example: Set the set of scheduled strokes by .., "," one-point representative strokes, short ⁇ “” one for short and short ⁇ strokes, long ⁇ “ “ - one for long ⁇ and long ⁇ strokes , short dash “ - " - represents short and short vertical strokes and long strokes "one” one by one representing long horizontal and long vertical strokes, respectively, corresponding to 1 to 5 five numbers, the lack of font strokes The number "0" is indicated.
  • the radical code of the Chinese character " ⁇ " is 111661, that is, the stroke occupies one bit set.
  • the Chinese character character in the standard character library established by the radical attribute encoding rule, and the Chinese keyword mapping table is set at the same time, and the other words are mapped to the Chinese phrase according to the keyword semantic matching relationship, that is, the Chinese character in the standard character library
  • the phrases of other characters in the world correspond to each other, and other words are expressed in Chinese.
  • any language in the world can be mapped to the Chinese keyword mapping table, thereby indirectly implementing semantic attribute classification in an automated manner. .
  • the Chinese keyword mapping table composed of Chinese character characters of the standard character library maps the English of the same semantics, and can replace the Unicode non-fixed length and multi-bit quantity for storage, sorting operation and transmission. For example, in the mapping table between Chinese and characters, according to the semantic correspondence, the Chinese semantics of "Sea Water” is “sea water", because the 36 bits of "Sea Water” are converted into Chinese keywords "sea water”.

Description

一种数字编码方法及其应用
技术领域
本发明涉及一种数字编码方法, 特别是一种对任何音频及视频模拟信号进行编 码及压缩存储, 以及一种文字的字元、 部首、 笔画、 字母、 符号或图形统一编码的 用于电子、 信息及通信系统的交换内码。 背景技术
电子电路的开与关以二进制数字 0与 1表示关系以后, 过往在现实世界以模拟 方式记录及存储音频及视频信号, 都能通过不同层级的数字编码, 以数字方式记录、 存储及传送音频及视像数据; 实现零失真的数字档案拷贝, 及通过电子介质传送。 目前现代社会的音频及视像记录及传送基本上已完全是数字化了, 但要高传真地记 录音频及视像, 必需要大量的数字表示, 更要以压缩方式把大量重复的冗余数字缩 小, 甚至以有损坏数据的压缩方法, 达到方便传送及存储目的。
电子及半导体高速而廉宜的发展, 推动人类追求更高质量的音频及视像, 并会 通过高成本的语音或数字网络传送, 数据容量越大占用的频宽资源更会越长越大; 数据一直不停地按几何级数递增, 并要使用更大计算能力的硬件处理及编解码大容 量的压缩音频及视像。 过往编码标准一般都以 28的 256个编码表示, 再扩展 28x28 的 16位元表示 65, 536个编码组合及 28x28x28的 24位元等, 会令目前大量移动性的 电子产品加快电能消耗, 亦不容易实现高质量高解析度的进行实时视像串流(Video Streaming)传送。
众所周知, 任何数字数据的管理、 存储及传送, 都是基于有效利用频宽以最佳 压缩比率优化数据容量, 经有损或无损压缩存储及传送, 以至涉及硬件对压缩数据 的最佳编解译计算能力; 例如各种大容量的网页、 音频、 图像及视像档案。
现代电脑系统交换内码的标准 ( American Standards Code for Information Interchange), 简称 ASCII, 开始是 7位元表示 1字节, 为 27; 以 128个合表示一些控制键、 大小写拉丁字母及阿拉伯数字; 及後以二进制 28表示 1字节, 扩充至 256个编码组合表示, 包含某些西欧国家的交换内码需要; 1967 年并于瑞士的日内瓦建议成为国际组织标准 (International Organization for Standardization) , 简称 IS0。 全球经济发展都需要 现代电脑系统交换及显示相同信息, 所以必需统一内码, 随着亚洲个别国家及地区 的需要, 不同国家及地区都相继以不同方式及位元数量进行编码。 包括日本工业标 准 (Japan Industrial Standard I JIS)、 TR0N、 台湾的 Big- 5、 香港地区的 Big-5 加上香港增补字符集(Hong Kong Supplementary Character Sets/ HKSCS) , 韩文及 中国的 GBK, 最早是简体字编码的 GB2312、 及後包含繁体字的 GB18030等。 以上亚 洲个别国家及地区的文字应用都有一共同点, 都是使用简体或繁体汉字, 而当中有 大部份的汉字字型是相同的, 但编码表示方法不同, 就完全不能互相兼容; 其数量 差距相当大, 由数千至数万不等。 互联网的兴起, 世界文字的编码表示方法亦随着 产生变化, 互不兼容的问题导致不能在互联网显示不同的世界文字, 催生 Unicode 的出现。 从 1990年开始, 首先把七千多个的世界文字编码, 然后再将二万多个中日 韩使用的汉字编码; 及後再加入生僻的世界文字及汉字, 应付整理各地古藉的需要, 至目前为止共有十万个字容量。 目前, 不断出现的中阶及高阶电脑程序语言, 及以 电脑程序语言写成的操作系统都同时兼容 Unicode , 最新的标准是 IS010646 , 但其 实对任何电脑或电子系统的硬件来说, 用 Unicode编码的电脑程序语言, 巨大的位 元量对任何运算都会造成极大负担。 Uni code的缺点主要是沿用最早期的编码方法, 导致要扩大字库时, 必需要按照旧有方式横向发展, 但以 28横向发展; 其产生的运 算量极大, 虽能满足编码的需要, 却拖慢了电脑或电子系统的排序等运算能力。 而 且, Uni code的编码方法及逻辑并不符合大部份国家及地区的文字发展需要; 例如, 对成千上万个的汉字系统, 可用二百多个部首分类, 但 Uni code并未把二百多个部 首全部置入 Unicode 内, 数万个汉字编码的位置非常混乱, 无法做到部首与汉字系 统间的逻辑属性对应关系,令汉语学者无法处理古藉内码的交流需要。 以下为 8位 1 字节的编码组合列表分析:
表 1
Figure imgf000004_0001
Uni code的编码系统内予留了私人造字空间,用户可以自行以不同文字符号安放 在造字区内; 但这私人造字区的设置, 却不能以交换码方式进行公众传递。 一直以 来, Uni code的发展, 并不是以固定长度方式编码; 西方的常用字母字节编得较少, 罕用的文字符号编得较多, 较多的位元量不容易实现高效率排序。 目前, 电脑程式 语言的发展要解决兼容问题, 都以 Unicode 为内码, 直接令大部份程式语言的空间 扩大, 加大记忆空间及硬体的负担。 目前的文字信息数据编码方法, 其主要目的是为了扩大编码组合数量及准确记 录文字字型, 文字记录语义, 西方的文字是以字母串组织语义; 东方的中国是是以 方块汉字组织语义。 从 ASCII到 Unicode的编码发展, 都并没有对任何文字或字母 在语义属性方面进行编码。 电脑和互联网的发展产生了极大量的文字信息, 信息全 球化更是以几何级数增加, 及以关键词捡索, 但结果虽大量却并不准确, 因为海量 信息是不可能以人手方式进行语义属性分类。
世界上任何一种拼写文字都由是长短不一的字符串所组成, 对极大量不同长短 的字符串进行排序需要耗费极大的运算成本。 最有效的管理是以固定长度数据 (Fixed-Length Data)进行存储及排序运算, 自动地对任何一种文字所表达的信息实 现语义属性分类,从而以最快速度捡索出最具有语义关联性的结果。 海量信息的捡 索, 首要条件是先区分语义属性, 再在自动分类後的数据内进行深度挖掘; 重新对 文字或字母以属性编码是唯一让文字具备分类语义的方法。
手机最早的应用是单纯的通信设备, 及後电脑的功能越来越大, 体积却越来越 小, 现时的发展已是把电脑的功能建立在手机上; 所以通信设备的手机其电子结构 就是电脑。 但碍于旧有的编码表示方法, 交换内码的极大负担, 少量的文字数据都 不容易应付, 所以不可能在手机上以低成本发展电脑的所有功能; 主要是高速排序, 其他包括文字及数据库处理、 搜索及网页浏览等。 若能以相同效率的硬件提供比目 前更高速的运算能力, 手机可即时向更强大的功能发展。 发明内容
本发明的目的是克服现有技术的不足, 提供一种运算速度高、 无损式高压缩比 率的数字编码方法。
为了达到上述发明目的, 本发明釆用了以下技术方案: 一种用于记录、 存储及 转换音频及视频信号的数字编码方法, 其特征在于: 包括以 3位元作为一位元集、 并以 3个或 3个以上的位元集, 以更少的编码组合提供更高的无损耗压缩比率。 本 发明以固定长度位元集、 多个位元集模式对任何字元进行编码, 每个位元集是 23, 即 8种编码组合; 由于 23是最接近机器 21的位元数量, 基数少可以产生更具弹性的 位元组合, 适应任何的电子芯片, 因此大大提高了计算机的运算速度及运算精度。
以及, 提供一种运算速度高、 节省存储空间的用于电子、 信息及通信系统的交 换内码。
为了达到上述发明目的, 本发明釆用了以下技术方案: 一种用于电子、 信息及 通信系统的交换内码, 其特征在于: 包括以 3位元作为一位元集、 并以 3个或 3个 以上的位元集对字元、 部首、 笔画、 字母、 符号或图像以固定位元长度编码并建立 的标准字符库, 其中, 汉字 元、 部首、 笔画依据部首属性编码规则进行编码; 及 包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映射 表。
由所述图形字元码构成的标准字符库及或汉语关键词映射表存储于计算机的 CPU或 ROM中。
用 2:i作为一个位元集对字符、 符号及图像进行编码, 在字符量增加时, 可根据字 符量的需要, 增加一个或者一个以上位元集, 以切合不同规模信息系统的运算需求, 达到最适当的编码扩展需求, 最大限度的节省编码空间, 同时提高编译器的运算速 度。 而在 Unicode 的编码环境下, 即使字符量增加一点, 也只能横向增加一个字节 或者更多的字节, 造成编码空间的严重浪费, 拖慢编译器的运算速度。 本发明用固 定长度编码, 可发展更高速的顺逆并行的排序算法。 ' 已应用了数千年的汉字属于象形文字, 是由偏旁部首及部件组合而成, 而部首 具有表示本质属性的特点,因此汉字具有可根据部首系统进行分类及归纳属性的特 征。 世界上除汉字以外的任一种其它文字都能根据词意与汉字建立映射对应关系, 从而间接地具备自动分类的属性, 从而转换为更少的位元量得以存储、 排序运算及 传输。 本发明的汉语关键词映射表是根据相同的语义, 将汉语词组与英语或者世界 上其他文字建立语义对应关系, 从而实现以最少位元量映射 /表达其他文字编码, 节 省字符的编码空间, 同时以固定长度位元集实现高速排序。 附图说明
图 1是本发明输入及或转换音频及视频模拟信号编码流程示意图。
图 2是本发明编码流程示意图。
图 3是用 6个位元集对任何文字的字元、 部首、 笔画及字母、 标音符号、 符号等进 行编码建立标准字符库的示意图;
图 4是按汉字部首编码规则对汉字系统进行编码的示意图;
图 5是汉字部首与汉字词组编码的属性关系示意图;
图 6是任何文字词组与汉语根据关键词建立映射关系示意图;
图 7是用汉字编码映射相同语义英文词组的示意图;
图 8是本发明的应用流程示意图。 具体实施方式
以下结合附图对本发明的优选实施例进行说明, 应当理解, 此处所描述的优选 实施例仅用于说明和解释本发明, 并不是对本发明的限定。
如图 1所示, 本发明用 n (n l)组二进制位元集进行编码, 每个位元集有 23=8种 编码组合, 因此,一共可提供(23 种编码空间进行编码。记录音频信号包括声音及音 乐, 转换为 23的编码数据; 以及记录视频信号, 包括静止图像、 动态图像, 以及任 何数字档案: 包括声音、 音乐、 图像、 视像及文本等转换为 23的编码, 只有 8种编 码组合, 可提供更高倍数的有损或无损数据压缩存储, 及以更少位元量实时传送压 缩后的高解析度视频串流(Video Streaming)。 以实例比较及解释, 下表以 3个位元集与目前标准 28分析比较:
Figure imgf000007_0001
A的 9位元比 B的 8位元多占 1位元即 12. 5%数字空间, 但 A可编码的 512层级 表示组合比 B的 256层级却多 1倍的解析度, A的 3组 8个编码组合(为 8+8+8)与 B 的 256 个编码组合比较, 可提供多 10. 67 倍的压缩比率; 减去多占的 1 位元空间 (12. 5%), 得出最高压缩比率是 9. 4倍。
亦等于 A的压缩效率功耗, 存储所占位元空间及传输速率, 会比 B少 9. 4倍; 若 以相同质量解析度比较, 即 A的压缩档案优于图像 B18. 8倍。
若以相同质量通过相同频宽的网络的视频档案计算, 效率会提高 353. 44倍。 而 且越多位元集组合, 表示越高解析度的视频, 效率是以几何频数的 2 倍、 4 倍及 8 倍的方式递增。
如图 2所示, 本发明首先建立标准字符库, 用于对任何字元、 符号及图形用 n (n 1)组二进制位元集进行编码, 每个位元集有 23=8 种编码组合, 因此,一共可提供 (23) »种编码空间进行编码。
图 3示出了根据本发明的编码方式, 将目前世界上应用的任何一个字元、 字型、 文字、 部首、 标音符号、 符号、 图形及图像等, 以唯一的字型符号进行编码。 编码 组合以 6组为例, 是 23x23x23x28x23x2', ( 能对 262, 144个文字及符号进行编码, 而每 个编码的位元数量只是 18。 图内的示例分别有汉字、 阿拉伯数目字、 拉丁字母、 希 腊字母、 罗马数目字、 音乐符号、 韩国标音符号及日本假名文字等。
现以 6个二进制位元集对汉字字型进行编码为例, 即 23 X23 X23 X23 X23x23, 共有编码 组合数量为 26万 2千个, 满足现在世界文字的 10万个编码需求, 是目前全世界文 字编码组合需要的 2. 6倍, 还有 16万个编码组合的编码扩展空间; 足够应付未来数 年文字扩展需要, 其计算方式如下列表:
表 2
Figure imgf000008_0001
从上表可见,以 6个位元集进行编码,其编码组合可达到 262, 144个,与 Unicode 相比; 仍有 16万个字符的编码空间, 足以应付目前及未来数年的扩展需要, 而所占 的空间总容量只有 2. 25字节(Byte) , 且记忆空间及运算能力要求不高, 适合发展便 携式信息及通信系统的交换内码。 而未来根据文字扩展及应用的需要, 可用 6个以 上二进制位元集进行编码, 其要求的记忆空间及运算能力较高, 适合发展大型信息 系统的交换内码。
对单一汉字字型进行编码时, 按照部首属性编码规则用二进制多位元集进行编 码,例如如图 4,偏旁部首 〃 与具有 " 〃 部首的汉字具备相同的部首关联属性, 体现在它们的编码具有本质相同的表达; 如此类推, 偏旁部首 " 4 " 、 v† " 、 w i " 及 及其系列汉字都如是; 本例中, 具有相同部首的汉字字元, 其编码的前 三位数字也是相同的, 从而实现汉字按部首属性分类规则编码, 准确区分出不同汉 字字型的部首属性。
例如图 5, 汉字系统内与 "水"含义有关系的, 其部首是 1 " , 设 " " 的编 码为 111 000 , 凡是与 "水"含义相关的汉字或部首都可以编入 111 000组内识别属 性时, 前三位为 111 的编码组合, 都具有水的属性, 并能自动以水的属性分类。 例 如汉字 "海水〃 用 6个位元集编码, 分别为 111 661及 111 660, 而汉字 "海水〃 的 部首都是 "† " , 编码为 111 000; 利用部首属性进行编码的方法能将编码与汉字系 统内涉及词意 w水〃 的汉字联系在一起,字元编码的前三位数字是相同的,都为 111。
以上示例中,是按汉字的笔画顺序将汉字拆分成至少一个部首或部件,该字的首 部首占用了编码中的前三个位元集,余下的三个位元集可以作流水编号也可考虑采 用更进一步的部首属性编码。
在实际应用中, 首部首或首部件占用的位元集也可以是 1个, 或 2个, 或 4个, 本发明不对此作出限定。
除了采用按汉字笔顺将汉字拆分成至少一个部首 /部件的方式以外, 所采用的部 首属性编码规则还可以是按笔画顺序及预定笔画集合将汉字拆分成至少一个笔画, 并采用一个以上的位元集来对该笔画进行编码。 例如: 设定预定笔画集合由.点. "、" 一一代表点类笔画、 短撇 " " 一一代表短撇及短捺类笔画、 长撇 " " — 一代表长撇及长捺类笔画、 短划" - "——代表短横及短竖类笔画及长划"一" 一一代表长横及长竖类笔画组成, 分别对应于 1~5五个数字, 字型笔画不足部 分以数字 " 0 " 表示。 则汉字 "海" 的部首编码则为 111661, 即笔画占用一个 位元集。
以部首属性编码规则建立的标准字符库内的汉字字元, 同时设立汉语关键词映射 表, 用于将其它文字根据关键词语义匹配关系对应映射至汉语词组, 即将标准字符 库内的汉语与世界上其他文字的词组对应起来, 用汉语来表示其它文字。如图 6; 世 界上任何语言文字都能映射到汉语关键词映射表, 从而间接地以自动方式实现语义 属性分类。 .
如图 7所示, 通过把其它文字映射到汉语关键词映射表的方式, 可以转换得到更 少的位元量, 这样其他文字需要排序运算时, 可以以列表方式映射相同语义的汉语 从而使编码位元量大大减少, 采用标准字符库的汉字字元组成的汉语关键词映射表 映射相同语义的英语, 可取代 Unicode非固定长度及多位元量进行存储、 排序运算 及传输。 例如, 在汉语及字符的映射表中, 根据语义的对应关系, " Sea Water" 的 汉语语义为 "海水", 因以 " Sea Water "转换为汉语关键词 "海水" 的 36个位元为 代码存储, 即其编码码位为 36位, 远远少于本身英语的 72个位元。 因此, 当要进 行检索时, 无论输入的是哪一种文字表述的关键词, 都可以根据语义匹配关系, 在 汉语关键词映射表中映射到对应的汉语词组, 从而转换得到更少的位元量, 加快计 算机系统的存储、 排序运算及传输速度。 应用时, 将上述标准字符库及或汉语关键词映射表直接置入 ROM (Read Only Memory)或 CPU (Central Processing Unit) , 可更快速存取任何字元的编码组合及 属性数据。
以上所述仅为本发明的优选实施例而已, 并不用于限制本发明。 对于本领域的 技术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所 作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求 书
1、 一种数字编码方法, 其特征在于: 以 3位元作为一位元集、 并以 3个或 3个以上 的位元集, 以更少的编码组合提供更高的无损耗压缩比率。
2、 根据权利要求 1所述的数字编码方法, 其特征在于: 所述的无损耗压缩比率是以 23编码进行高压缩比率, 以实时传送视频串流。
3、 一种用于电子、 信息及通信系统的交换内码, 其特征在于: 包括以 3位元作为一 位元集、 并以 3个或 3个以上的位元集对字元、 部首、 笔画、 字母、 符号或图像以 固定位元长度编码并建立的标准字符库, 其中, 汉字字元、 部首、 笔画依据部首属 性编码规则进行编码; 及
包括以标准字符库的汉字字元及其它文字按照语义匹配关系组成的汉语关键词映 射表。
4、 根据权利要求 3所述的交换内码, 其特征在于: 所述位元集的个数为 6。
5、 根据权利要求 4所述的交换内码, 其特征在于: 所述部首属性编码规则是指汉 字按照笔画顺序拆分成至少一个部首或部件、 以一位以上的位元集进行编码。
6、 根据权利要求 5所述的交换内码, 其特征在于: 每一部首或部件以 3位位元集进 行编码。
7、 根据权利要求 4所述的交换内码, 其特征在于: 所述部首属性编码规则是指汉 字按照预定笔画集合和笔画顺序拆分成至少一个笔画、 以至少一位的位元集编 码表示。
8、 根据权利要求 7所述的交换内码, 其特征在于: 所述预定笔画集合由点. "、"一 一代表点类笔画、 短撇 " " 一一代表短撇及短捺类笔画、 长撇 " 一一 代表长撇及长捺类笔画、 短划 " - "一一代表短横及短竖类笔画及长划 "一" 一一代表长横及长竖类笔画组成, 分别对应于 5 五个数字, 字型笔画不足部 分以数字 " 0 " 表示。
9、 根据权利要求 3所述的交换内码, 其特征在于: 所述标准字符库或汉语关键词映 射表存储于电子系统的 CPU或 ROM中。
10、一种应用权利要求 3-9任一权利要求所述的用于电子、信息及通信系统的交换内 码进行检索、 排序、 存储或数据输出的方法, 其特征在于包括以下步骤- (1) 输入以源文字表述的关键词;
(2) 系统根据所述汉语关键词映射表的关键词语义匹配关系将源文字与汉语词组映 射对应;
(3) 对以汉语表达的关键词进行排序、 检索、 存储或数据输出操作。
PCT/CN2009/001153 2008-10-17 2009-10-19 一种数字编码方法及其应用 WO2010043117A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810218455.5 2008-10-17
CNA2008102184555A CN101382931A (zh) 2008-10-17 2008-10-17 一种用于电子、信息及通信系统的交换内码及其应用

Publications (1)

Publication Number Publication Date
WO2010043117A1 true WO2010043117A1 (zh) 2010-04-22

Family

ID=40462776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2009/001153 WO2010043117A1 (zh) 2008-10-17 2009-10-19 一种数字编码方法及其应用

Country Status (2)

Country Link
CN (1) CN101382931A (zh)
WO (1) WO2010043117A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111669394A (zh) * 2020-06-04 2020-09-15 西安空间无线电技术研究所 卫星通信图像语音信息隐藏传输方法
CN112329389A (zh) * 2019-07-30 2021-02-05 北京大学 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382931A (zh) * 2008-10-17 2009-03-11 劳英杰 一种用于电子、信息及通信系统的交换内码及其应用
CN102955779B (zh) * 2011-08-18 2017-11-07 深圳市世纪光速信息技术有限公司 软件搜索的方法和装置
CN113362263B (zh) * 2021-05-27 2023-09-15 百度在线网络技术(北京)有限公司 变换虚拟偶像的形象的方法、设备、介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155690A (zh) * 1995-11-27 1997-07-30 王道通 三键输入法
CN1519686A (zh) * 2003-01-20 2004-08-11 郭松森 汉字大小字元输入法
CN101276645A (zh) * 2006-11-03 2008-10-01 意法半导体股份有限公司 采用三电平单元的存储装置及相关的管理方法
CN101382931A (zh) * 2008-10-17 2009-03-11 劳英杰 一种用于电子、信息及通信系统的交换内码及其应用
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知系统及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155690A (zh) * 1995-11-27 1997-07-30 王道通 三键输入法
CN1519686A (zh) * 2003-01-20 2004-08-11 郭松森 汉字大小字元输入法
CN101276645A (zh) * 2006-11-03 2008-10-01 意法半导体股份有限公司 采用三电平单元的存储装置及相关的管理方法
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知系统及其应用
CN101382931A (zh) * 2008-10-17 2009-03-11 劳英杰 一种用于电子、信息及通信系统的交换内码及其应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329389A (zh) * 2019-07-30 2021-02-05 北京大学 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
CN112329389B (zh) * 2019-07-30 2024-02-27 北京大学 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法
CN111669394A (zh) * 2020-06-04 2020-09-15 西安空间无线电技术研究所 卫星通信图像语音信息隐藏传输方法
CN111669394B (zh) * 2020-06-04 2022-03-04 西安空间无线电技术研究所 卫星通信图像语音信息隐藏传输方法

Also Published As

Publication number Publication date
CN101382931A (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN101199122B (zh) 使用语言模块扩展通配符
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN103294776A (zh) 一种智能手机通讯录模糊搜索的方法
WO2004109492A1 (fr) Procede et appareil de traitement et de representation d'objets
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
WO2010043117A1 (zh) 一种数字编码方法及其应用
EP1836612B1 (en) Method and system for formatting and indexing data
CN1581158A (zh) 汉语/拼音/英语字典
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
Vijayalakshmi et al. LOSSLESS TEXT COMPRESSION FOR UNICODE TAMIL DOCUMENTS.
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN101667099A (zh) 一种连笔键盘文字输入的方法和设备
CN114595665A (zh) 一种二进制极短码字符词编码集的构建方法
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
Awajan et al. Hybrid Technique for Arabic Text Compression
Arif et al. An enhanced static data compression scheme of Bengali short message
CN112926314A (zh) 文档的重复性识别方法、装置、电子设备以及存储介质
CN1119758C (zh) 汉语盲文到汉字的自动转换方法
CN112417812A (zh) 地址标准化方法、系统及电子设备
CN85100094A (zh) 汉字拼音联想编码及双拼键盘
Mokter et al. An Efficient Technique for Representation and Compression of Bengali Text
CN103176616A (zh) 古琴减字谱字符的输入方法和装置
CN100390711C (zh) 一种中文词的计算机处理和键盘输入的方法
Fan et al. CHARM: An Improved Method for Chinese Precoding and Character-Level Embedding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09820193

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09820193

Country of ref document: EP

Kind code of ref document: A1