TW517204B - Compression in the presence of shared data - Google Patents

Compression in the presence of shared data Download PDF

Info

Publication number
TW517204B
TW517204B TW090121191A TW90121191A TW517204B TW 517204 B TW517204 B TW 517204B TW 090121191 A TW090121191 A TW 090121191A TW 90121191 A TW90121191 A TW 90121191A TW 517204 B TW517204 B TW 517204B
Authority
TW
Taiwan
Prior art keywords
file
computer
string
sub
strings
Prior art date
Application number
TW090121191A
Other languages
English (en)
Inventor
Dafna Sheinwald
Michael Factor
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW517204B publication Critical patent/TW517204B/zh

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

517204 A7 B7 五、發明説明(1 發明領域 本舍明係關於用以資料編碼之系統與方法,並特別是關 於多項資料壓縮方法。 發明背景 根據文字替換的壓縮演算法現已廣泛應用於資料檔案的 儲存和傳輸方面。這種類型的傳統方法可如Ziv和Lempel 所著 “λ Universal Algorithm for Sequential Data Compression”乙文所述之Lempel-Ziv演算法,該文出版於 IEEE Transactions on Information Theory 23(3),第 337- 裝 3 43頁(1977),茲按引用方式併入本文。這些演算法係基 於在一檔案内不同片段之間尋得文字相似性。而在稍後出 現之給定片段會被一指向於早前出現處之指標所取代。 訂 線 文子替代 >貝异法為全通適用,就是在於彼等並不要求對 於該檔案内容的先驗知識。在漸近極限裡,對於給定之樓 案這種演算法能夠達到可能的最佳壓縮結果。不過,依其 本質而言’業界眾知之演算法僅在檔案的初始部分(有時 為顯著長度)既經處理之後,才可獲得壓縮結果,而其所 獲致之壓縮程度不甚明顯。
Wyner和Ziv在所著後文中探究了利用一固定、預先決定 而外置於待加壓縮之檔案之參考字.串的壓縮效益性,該文 為 “Fixed Data Base Version of the Lempel-Ziv Data
Compression Algorithm”,出版於 IEEE TransacU〇ns ⑽ Information Theory 37(3),第 878 — 88〇頁(1991),茲按引用 方式併入本文。彼等展示了類似於傳統演算法所能獲得之 -4- 517204 A7 B7 五、發明説明(2 p棄。果如3參考字串確是產生自和產生該待加壓縮之 同的來源。,然而,作者們並未說明應如何選取該參 發明概要 裝 :明幸父佳具體實施♦"里,目標檔案係藉由該檔案内 斟虛目付片奴而壓縮成為一參考檔案或檔案集合之中的諸 1片段。本發明採用-項事實,此即通常多台電腦會呈 =同二即已存駐於其碟片上的共用㈣集合,像是求救 7、、程式槽案和其他由特定廠商或其來源所供應的來源 仏木由相同來源所提供,或是根據相同來源集合之新檔案 吊會再用諸多早先槽案的大致等同片&。藉由利用這 一,先存在、共用貧源作為參考檔案,則有可能將極長的 子字串從該目標檔案比對到諸參考檔案中的適當片段,如 此即可達到優於業界已知方法的壓縮結果。 ,本發明一些較佳具體實施例中,伺服器可根據由該伺 服器與一客戶端所分享之共同參考檔案集合,來壓縮待加 載送至該客戶端處的目標檔案。該伺服器通常會事先知乘 該客戶端所存握之諸參考檔案,這通常會包括該客戶端二 作業系統檔案(即使是相異於該伺服器之作業系統亦然), 和其他軟體平台元件。另者或此外,該伺服器可從預先與 该客戶端的通訊中導出這項資訊。該伺服器會將目標槽案 編碼為一標示子,或指標,列表,指向於該客戶端處參考 樓案内的諸多片段,而該參考檔案相符於該目標樓案中的 連續子字串。各個標示子最好是包括一參考檔案識別子, -5-
517204 A7
以及該片段在參考檔案内的位移與長度。該目標檔案裡對 任何參考檔案皆無足夠長度之比對結果的子字串,最好a 按其原樣被加入該指標列表,而尤以按一旗標俾表示該 未經編碼為最佳。 取好,該飼服器可藉由編碼該列表内的諸標示子,來壓 細經編碼之列表。該標示子列表通常是仰賴於整體參考檔 案的子集合。因此,可根據其等之出現頻率,用例如: 是Huffman編碼方法,來有效地編碼該等參考檔案識別子 。孩伺服态最好是可將一標頭增附至該結果壓縮檔案,以 識別出該者所用之諸參考檔案及其各自的數碼。 在本發明一些較佳具體實施例中,該伺服器可維護多重 個參考檔案集合,這些通常是對應到不同的客戶端平台, 藉此產生該待加送出之目標檔案的不同壓縮版本。另者或 此外,該電腦可備置並事先快取各種不同版本。應瞭解本 些較佳具體實施例雖係參酌於客戶端/伺服器端架構所描 述,然點對點式電腦也可根據本發明原理,來I縮、儲^ 及/或彼此之間傳送既經有效壓縮之檐案。 在本發明較佳具體實施例中,為解壓縮檔案,該客户端 會讀取標頭’ ϋ開啟其碟片中的適當參考檔案。然後該者 會處理指標列表、#由該等標示子所標指之參考檔案中擷 取出諸連續片段。這些片段會經鍵接,並視適當情況連同 任何未經編碼之子字串,以供重建出該目標檔案。 ,在此諸較佳具體實施例雖係參酌於檀案壓縮和傳輸所描 述,然應瞭解本發明原理實可等同適用於壓縮其他具有文
五 、發明説明(4 利申请案=另款符號之資料項目標檀案。因此,在本專 、“目e矜宏專利範圍所述之情境裡,該些名詞“擋荦” 腦可續料和“參考擋案”實應被視為概指大致為任何電 。:二實二且本發明原理確得適用於該者 與明晰地分:名詞“子字串… 亚應明瞭確可表稱在 付琬子串 和適當型態的字串 权貝科貫體内實為任意長度 縮二;=發明較佳具體實施例,提供-種用以壓 目&付唬字串之方法,包括: 識別一組由電腦所收存之參考字串集合; :該:標:串内諸多連續性子字串進行,比對到在其— 3夕個4考字串内所尋得之各個片段; 八 ^各個片段標示子指配給諸子字串, 別出各個彼等所屬相符之片段;並且 -子串了識 輪出一既經排序之標示子列表。 最好,識別該參考字串隹人白人地σϊ 多標案的集合為佳。最:二二腦所使用之諸 取于k二檔案與該電腦的作業平台 /者另者或此外,這些槽案包含程式槽案與求救播案至 串t好,比對諸子字串包含對於各個子字串尋得在參考字 中的個別片段,藉此將子字串長度最大化。更進—步最 子’比對諸子字串包含將今玄墓灸 ,3將孩專參考字串按-樹狀結構編碼 構裡具有對應於該些片段内符號之線緣所連接 對廡並且哥得個別片段者包括連續性地指派該樹狀結構内 :到該子字串之符號的諸線緣。而尤甚最好者,指派該 田/結構之線緣包括指派該樹狀結構,直到該連續序列内 個線緣所觸抵之諸節點中—者,並且指配各自的片 又T不子包含回返一相關於諸節點中一者的節點標示子。 此外或另者,指配個別片段標示子包含僅將該些標示 ,曰配給相符於某—短於預定最小值長度之片段的諸子字串 s將僅合配於較預定最小值長度為短之片段的諸子 子增附到該經排序之標示子列表内。 取好1配個別片段標示子包含標示該些其中出現諸片 人扭:考字串的個別標示子,在此指配個別片段標示子包 ::示出該等在所出現之參考字串裡該片段的位移與長度 b外或另者’輸出該排序列表包含壓縮該列表。最好, 經排序之列表包含壓縮該些參考字串的識別子,其 麼縮該些識別子包含回應於該排序列表内各識別子個別 的出現頻率,來對諸識別子加以編碼。 一2好」冑出該數碼的排序列表包含透過一通訊鏈路,將 各有该列表的輸出檔案傳送給電腦。 較佳具體實施例中,識別該參考字串集合包含識別 一第乡考字串集合’❼比對眾多子字串且指配該片 又广不子包含將第_和第二諸多子字串分別地關聯到第一 =二參考字串集合内的個別合配片段,且按此指配第一 示子集合,而同時輸出該排序列表則包含分別地 則、〜於該等第一和第二參考字串集合之第一和第二集 五、發明説明(6 ) 合裡的第一和第二列表。 袁好’ 5亥4第一和第二參考字串崖 第-雷腦在妨 #子串集5係分別地由第-和 第一電恥存放,而輸出該第一和第二列 列表給第一電腦,曰、矣山兮势 匕s k出a弟一 包恥且迗出该弟二列表給第二電腦。 根據本發明較佳具體實施 通訊之方法,其中包含: 纟此缺供一種用以資料 檔:送ώ電腦處識別至少一個由接收電腦處所收存之參考 :目標樓案内的其一或多個子字串比對到至少一 樓案的個別片段; / 藉由將其—或多個子字串替代成可識別出諸片段之片段 識別子來壓縮該目標檔案;以及 將該壓縮樓案從該送出電腦處傳送到該接收電腦處,菸 此該接收電腦可利用該至少—個參考擋案來解壓縮該擋案。 在-較佳具體實施例中,該至少一個參考檔案與一由該 接收電腦,但非由該送出電腦,所執行之程式相關。 在另-較佳具體實施例中,識別至少一個參考檔案包含 透過該通訊鏈路以接收來自力該接&電腦的至少一個參 標案之識別資料’並且傳送該屋縮檔案包含回應於所二 的識別資料以選出壓縮檔案俾供傳送。 最好’識別至少-個參考檔案包含叫回由該送出電腦所 收存之至少-個參考檔案的拷貝,並且比對至少一 串包含利用所叫回之至少一個參考擋案的拷貝,來尋得相 符於該送出電腦處之子字串的片段。 517204 A7
八在較佳具體實施例中,識別至少一個參考擋案包含識別 別由該第一和第二接收電腦所收存的第一和第二來考槽 案’而比對與替換該其一或諸多子字串包括將第一和第二 :多子字串分別地關聯於該等第一和第二參考檀案中個別 、相付片段,並且按此將該些子字串替換成第一和第二尸 :::合,裨以產生第一和第二壓縮標案,而傳送該壓: 田案包含傳送該第一壓縮檔案到該第一接收電腦,以及傳 =二壓縮檔案到該第二接收電腦。最好,壓縮該目標 :案:含將該第一和第二壓縮稽案存放在該送出電腦處, =傳送該等第一和第二壓縮標案包含叫回該既 裝 核案以供傳輸。 訂 線 在另一較佳具體實施例中’該目標檔案包含一第一目护 檔案’而壓縮該目標檔案包含壓縮該第一目標檔案且將: 參考檔案的識別資料插入於該壓縮檔案的標頭内:、同時該 ==將一第二目標標案内的諸子字串替換成朝: ’ w〜子:在該第一目標檔案中早前出現處之内部指標 /查縮該第二目標擋案中該壓縮檔案的標頭内含有 用以指出該第二目標檔案先前時係、按該等内 部指標所壓縮者。 =發明較佳具體實施例’尚另提供—種用以解壓縮 金細杈案的方法’該檔含有一排序數碼列表,可桿示出 =所儲存之其一或諸多參考字串内的個別片段,該方法 從該列表中讀出數碼;
五、發明説明(8 擷取由該些數 從電腦所儲存之其—或諸多參考字串内 碼所標示之片段;並且 ==之片段以供重建出該目標檀案。 案取進一;最好==:串;含該電腦所利用的諸標 含讀出-長度值和内好者,操取諸片段包 ^ ^ ^ ^ 子串内之位移值的一序列符號,而 ^ ’、 ^數碼其中一項所標示。另者戋此外,兮壓 縮檔案進一步更包含一以分 力m夕卜,該壓 子字串,且盆φ μ 目標檔案之未經編碼的字元 ^ Γ 所擷取之諸片段包含按所擷取之片段 來鏈接該未經編碼子字串。 β仅 在此根據本發明較传呈辦每A y f 以愿r 一…、例,尚進一步提供-種用 :細-目私付遽字串之裝置,其中包括一壓縮處理号, 該者經調適俾以接收—組由電腦所收存之 _ 資料;俾以將該目標字串内諸多連續性子字串比對; 一或多個參考字串内戶斤| p 々 /、 +件之各個片段;俾以將各個片 標示子指配給諸子字串,而這些子字串可識別出各個彼等 所屬相付之片段,並且俾以輸出—既經排序之標示子列表。 在此根據本發明較佳具體實施例,尚進一步提供—種 於資料通訊之伺服器中包括一壓縮檔案處理器 經調適俾以接收至少-個參考㈣的識別資料,該^係 由該接收電腦所存放,並俾以將一壓縮檔案傳送至該接收 電腦’其中該壓縮檔案係藉由將該目標檔案内其一‘諸夕 子子串比對於該至少一個參考擋案的個別片段,以及藉由 -11 - 五、發明説明(9 ::或諸二子子串替換為可識別各個片段之片段標示子 2者藉此该接收電腦可利用該至少-個參考檔案來 解壓縮該檔案。 “伺服器端包含一儲存裝置為佳,該者可經調適 、收存至夕一個參考檔案的拷貝,其中該處理器經調適 俾以從該儲存裝置中叫回至少-個參考播案,藉以利用該 叫回檔案來產生一壓縮檔案。 在此根據本發明較佳具體實施例,可進—步提供—種用 以將壓縮檔案予以解I缩之裝置,該者包含—經排序之數 碼列表丄才票示出其—或諸多參考字串内的個別片段,彼等 片&相符於-目標檔案内的各個子字串,該裝置包括: 儲存袭置,經調適以收存其一或諸多參考字串;以及 解壓縮處理器’經調適以從該列表中讀出數碼,並且 奴祕|乂從由其—或諸多收存於該儲存裝置内之來考字 串所標示的數碼中褐取出諸連續片段,並以鏈接所榻取之 片段俾供重建出該目標槽案。 在此根據本發明較佳具體實施例,亦提供-種用以壓縮 -目標符號字串之電腦軟體產品,該產品包含一其中存放 有各項程式指令之電腦可讀取媒體 ’這些指令可令該電腦接收一組由電腦所收存二;= 的識別資料;+以將該目標字串内諸多連續性子字串比對 到在其-或多個參考字串内所尋得之各個片段;令以將各 個片段標不子指配給諸子字串,而這些子字串可識別出各 個彼寻所屬相符之片段;並且令以輪出_既經排序之標示 -12 本紙乐尺度適用甲國國豕標準(CNS) A4規格(210X297公著) 517204 A7 B7 五、發明説明(10 ) 子列表。 在此根據本發明較佳具體實施例,亦另提供一種用於次 料通訊之電腦軟體產品,該產品包含_其中存放有各項= 式指令之電腦可讀取媒體’而當由一送出電腦讀出時,迕 些指令可令該送出電腦接收至少一個參考檔案的識別資料 ’該樓案係由該接收電腦所存放,並令將該目標樓案内盆 -或料子字串比對於該至少一個參考標案的個別片段:、 且令错由將其一或諸多子字串替換為可識別各個片段之片 段標示子來壓縮該目標檀案,並令以將該壓縮檀 該接收電腦,其中該接收電腦可利用該至少夫 來解壓縮該檔案。 >号植案 裝· 在此根據本發明較佳具體實施例,亦另提供一種用以蔣 塵縮檔案予以解壓縮之電腦軟體產品,該者含有_ 2數碼列表’標示出由一電腦所收存之其_或諸 =的個別片段,彼等片段相符於一目標槽案内的各個子 ^體該2包含一其中存放有各項程式指令之電腦可讀 取媒體,而當由一電腦讀出時,這些指八 列表中讀出數碼,並且令以從由盆::厂、腦從該 - ^次邊多收存於該儲存 二置内之麥考子串所標不的數碼中擷取出諸連 令以鏈接所擷取之片段俾供重建出該目標播案。 二藉ΐ發:月之較佳具體實施例詳細說明並聯同其隨附圖 工 于’木入瞭解本發明,而該等圖式中: 圖式簡單說明 圖1為根據本發明較佳具體實施例,-種用於檔案麗縮
13-:297^>5T
傳輸與解壓縮之系統繪列略圖; 圖2為根據本發明較佳具體實施例,圖式說
厫μ 從用U % —目標擒案方法之流程圖; 圖3和4為根據本發明較佳具體實施例,圖式說明如圖2 方法之細節的流程圖; .回 圖5為根據本發明較佳具體實施例,圖式說明一種用以 將一壓縮檔案解壓縮之方法的流程圖。 較佳具體實施例詳細說明 ^圖1為根據本發明較佳具體實施例,一種用來對於目栌 檔案進行壓縮、傳輸與解壓縮之系統20繪列略圖。該目枳 =案係經一壓縮處理器22,該者通常為一伺服器,藉由^ 罪於對一組存放在碟片24或其他儲存媒體上之共同參考檔 案集合所壓縮者,即如後文中所詳述。該壓縮檔案最好: 透過一通訊線路26而傳送到一解壓縮處理器28,一般為二 客戶端。線路26通常是屬於一區域網路(LAN)或一廣域網 路(WAN),即如網際網路。處理器28可利用一組參考檔案 μ解C縮4播案,該等亦會同樣地被存放在碟片3 〇或該客 =端可接取之其他的本地儲存媒體上。處理器22和28最好 $含有一通用型電腦,該者會在軟體的控制下執行其等功 :而可為例如#妝電子形式透過網路將這些軟體提供給 =處理器,或另者可依像是CD-ROM或非揮發性記憶體之 實體性媒體來提供。 處理為22可利用下述而依據於存放在該客戶端碟片3〇上 之參考擋案預備知識的方法’來壓縮一待加傳送給處理器 14- 五、發明説明(12 28的目標播幸。尤 些諸客戶端I、*甘°夕現代的LAN環境中,特別是其中彼 與客戶端必哨4 ^或諸多伺服器所為管理者,該伺服器 1、 菸八口悉至少一部份彼此間碟片上的内容。即使 (' Ρ);;專的共同通訊協定,亦是以交換平台資 瀏覽項貧訊通常會包括例如該客戶端作業系統、 ^或Η丁丁Ρ看守者的識別資料。少量的组合可實^ 地涵蓋幾乎所右的穸各山η 97、、且口 J貫際 '戶知。取好,該伺服器維護有對應於 組態之諸參考㈣,並針對各個給定客戶端來 田的參:檔案集合。另者或此外,該伺服器端可快 目示檔案的壓縮版本’並最好是許多對應於相異、已知 :客戶端組態的不同壓縮版本。該些客戶端組態甚至是可 為依據與該伺服器互異之作業系統者,如由騎伺服器所 祠服之Windows™客戶端0 σ視It況為要,s该客戶端組態並不對應於該伺服器所 握持之參考㈣集合巾任—者時,可利用傳統式 Z1V式凟异法或其他的業界眾知方法來壓縮該檔案。由該 伺服器所傳送之壓縮檔案的標頭最好是包含一個旗標,該 者可指示該客戶端如為解壓縮該檔案是否應採用外部的^ 考檔案。 圖2為根據本發明較佳具體實施例,圖式說明一種被處 理器22用來壓縮一目標檔案4〇之方法的流程圖。該壓縮作 業是參酌於一組被伺服器所握持,且已知存在於該客戶端 碟片30上之共同檔案42。即如其他的文字替換演算法,該 517204 A7 --------— __ B7 五、發明説明(13 ) 壓縮方法極為耗時,並因而最好是由處理器22,或是其他 電腦,在該伺服器與該客戶端間的任何通訊之前先予執行 。即如前述,該伺服器可備置並儲存該目標檔案4〇之諸多 壓縮版本,各個皆係針對不同、共用的客戶端組態,而接 者會選取和傳送適合於該客戶端的版本。下文中將依其中 一種組恶來說明圖2之方法,但如此並未失其一般性。 在比對步驟44處理器,處理器22會將該目標檔案4〇裡的 子子串比對到對應於該共同檔案集合42内的各子字串或片 段。在此,該共同檔案集合也稱為一參考檔案集合。為有 效地壓縮,該處理器會對該目標檔案裡的各個連續子字串 ,搜尋最長的可能相符片段,即如業界所眾知的文字替換 演算法。用以尋得該相符片段之較佳方法可如後文中參酌 圖3所說明。 少 訂 按此方式所尋得之各個相符片段最好是依下列三項名詞 來標不. <參考檔案識別子字串,在該參考檔案内的位移值,片段 長度> 在列表產生步驟46處,該處理器可產生—份如上述之三項 名詞資料的經排序列表,而這是對應該目標檔案的連:子 字串。最好,該列表也包含該目標檔案的較短子字串,而 對於彼等子字串在參考檔案裡並未尋獲足夠長度的相符結 果。試圖將極短的子字串(像是單一個字彙)予以編碼,通 $會產出一反倒冗長於該子字串本身的三詞資料。因此, 最好是將這些未經比對的子字串逕予增人該列表而無另編
517204 A7
碼為佳。 為產生一具有最小大小之壓縮檔案5〇,由步驟46而來的 二詞資料列表最好是本身亦被壓縮,即如步驟48。茲參酌 於圖4説明一種根據於Huffman編碼的較佳壓縮方法。或另 者,亦可於本步驟中採取其他業界所眾知用以壓縮文字幹 案的壓縮方法。 田 圖3為根據本發明較佳具體實施例,圖式說明一種用以 將目標檔案40内子字串比對於共用檔案42中諸片段之方法 的机耘圖。該方法對應於如圖2方法中的步驟44和料。為 便於子字串比對,處理器22最好是事先針對各個參考檔案 集合備妥一樹狀物(trie),即於樹狀物建購步驟6〇者。所 謂樹狀物是一種業界眾知的樹狀結構,可被用來編碼該集 合中所有槽案的所有片段。該樹狀物的線緣即如按字元$ 藏不。離開同一節點之不同線緣會被記註以不同的字元。 按此’ /;ϋ著從该源根點以下的路徑而行,籤示出沿兮路 之諸線緣的字元可構成一個字串,而不同的路徑會讀取 不同字串。該樹狀物建購步驟60可表示出該等所有參考 案内的所有片段。對於各個片段,一片段標示子字串 <參考檔案識別子,在該參考檔案内的位移值,片段長肩 ’會相關聯於從讀出該片段之源根,點降行沿旅至該路徑 點時所得觸抵的節點(該片段標示子如此即成為一節點 示子)。由於一給定片段可出.現於超過一個以上的參考 案裡,因此可能會有兩個或更多與同一節點相關聯的片 標示子。該片段長度等於從該源根點領降至該節點之路 -17- 裝 訂 線 本紙張尺度適用 t ®W#?(CNS) A4k^(21〇X297^) 517204 A7 B7
五、發明説明(15 長度。 該樹狀物建購步驟60如此可容納儲存諸多片 、, θ ί又,ΤΡ有效 地令其為一簡易作業以將該目標檔案比 J j麥亏檔案内的 诸片段。為進行比對,可從該目標檔案的起點開始,在第 -子字串步驟62處’從該源根點而按指派於外離該源根點 之線緣(即‘‘離出線緣”)上而離出,該者係依該目桿檔案之 第二字元所籤記,並持續之直到觸抵一節點,而::處並 沒有標著該目標檔案目前字元的離出線緣外離。如此, 得確定出該第一子字串。 該第二子字串起始自隨後於該目標檔案中第一子字串最 末子元之子元。當指派該樹狀物時,伺服器會讀取該者, 再次地從該源根點開始。按指派其標以該第二子字串中第 一字凡之離出線緣而外離於該源根點,據此所抿達的節點 ,是從指派其標示有該目標樓案第二子字串第二字元之離 出線緣而離出者等等。 對於各個子字串,該舰器可繼續從該目標標案附加連 續性字π至該子字串,並可指派相對應之樹狀物分支,上 達至由在比對步驟6 8内相符於# 4今+ 田/ 邓Μ子目付於S子子串之線緣所觸抵到的 最後-個節點。這個節點如此對應於在該參考檔案集合中 >可相符於目前子字串的最長片段。當如程式或求救擋案 之參考檔案的大部分已被重用於該目標檔案内[即通常 會出現的情況’最長片段可為數百甚而數千字元。最好, 事先預定-Η檻相符長度L,這通常會等於數個位元組。 在比對評估步驟64中’會對所發現的相符長度加以評估。 -18- 本紙張尺度適财關家Wcns)A4規格(210χ297公gy 如果該值觸抵L ,則該二甸次企丨、 詞資料會在分段標示子:返1驟=定這個最末節點的三 表内。 返步驟70中被增入該三詞資料列 過二’假使該目標檔案裡的-給定字串,於指派經 :广點之前即已觸抵該樹狀物 點 =項子:串成為三詞資料將會不具效率性。相反: ^⑴述:取好是在子字串回返步驟66中,將該子字串本 内入°亥…司貝料列表内的某適當位置處。而最佳者,另 子字串補附來自1^目標檔案的額外、連續性字元, f到長度L為止。會對該列表内的各個項目額外加增一 個别領位π,#此指明本項為三詞資料抑或短型子字串, 以有助於該列表的編碼和解碼效率。 後Ik於步驟66和70,編媽程序會繼續從該目標檐案裡 一既經編碼子字串之後的下-個字元進行,即於次一子字 串步驟72 ’直到整個目標樓案既經編碼完畢為止。 圖4為根據本發明較佳具體實施例,按圖式說明如 壓縮步驟48諸細節之流程圖。如圖4之方法係基於瞭解: ,通常即使是當整組參考檔案集合確屬龐大時,一給定目 標檔案仍實主要仰賴於該參考檔案的少數子集合。藉= 效率地將該三詞資料列表内的參考檔案識別子字串加以編 碼,如此即有可能大幅減少該壓縮檔案5〇的最終大小。 在識別子列表步驟80中,處理器22可從該列表中所有、 三詞資料抽擷出諸檔案識別子。在此,會從各個參考檔= 出現在該列表内的次數維護出一計數值,包括 胃 四見在二詞 517204 五、發明説明(π 料内者1¾心些是顯現於與該檔 三詞資料之諸集合中。接荽^ 1杲片&相關的多重 兮#姿 接者’會按返覆方式來解析屮斜认 該棺案的特定片段之三詞資料多重性。在:c於 排序步驟82處,會選出具有 ^ 中,於 於任何尚未门计數值的檔案。然後,對 1仃尚未為其疋義出一獨具性三丁 於諸相關三詞資料之集合中 又以及對 吞司貢料的檔案元件為目前所選—、汁而绝個二 粗1 士、A 4 疋之衩案者’則該項三詞資 /斗就成為該片段的獨具性 、 段相關之三詞資料内的其餘==現在其他與該片 這項“貪婪,,程序的目的在:產:會減去-值。 加激ώ 牡y、屋侍少1的參考檔案,具有較 低亂度的相對性出現頻率, ' 而利用如下所述之Huffman編 碼方法,即可令其獲致良好的壓縮結果。 於數碼指配步驟84處,會將-簡短數碼,尤以二進位字 串為佳,指配給各個槽案識別子。最好,該短碼屬可變長 度者,並且將該最短可用數瑪指配給最常出現參考檔案, 而以利用Huffman編碼方法可為更佳。碼與相 關之編碼方法,可如Cover與Th〇mas所著之
Information Theory (Wiley & Sons,New Y〇rk,1991)中第 90-101頁所述者,兹將其併入本文以為參考。 在識別子替換步驟86處,三詞資料列表内的諸檔案識別 子會被相對應之短碼所替換。而在標頭產生步驟8 8處,會 從應用在最終、經壓縮之三詞資料列表内的所有參考檔案 ,連同被指配給各個檔案識別子的短碼,組裝出一索引值 。這項索引值會被接附到壓縮檔案50以作為標頭。最好, 裝 訂 線 -20- 517204 五、發明説明(18 該標頭也包括其他資訊,像是該壓縮檔案的名稱和長度, 和被指配給該者的獨具性壓縮標案識別子。該項後者識別 子特別適用在定義出該客戶端平台,或該目標樓案4〇由此 而為壓縮之共用檔案集合42方面。另者或此外,該識別子 可標指出一給定檔案先前係利用内部指標所壓縮,即如業 界所眾知I,而無須參考到外部的共用檔案集合。進一步 另者或此外’ -給定檔案或為透過逐一片段方式,將該檔 案裡部分的子字串替換成外部指標(標示子)而所壓縮,而 其他的子字串是按内部指標所替換。 圖5為根據本發明較佳具體實施例,圖式說明一種用以 將檔案50解壓縮之方法的流程圖。在檔案接收步驟卯中, 解壓縮處理器28從伺服器處接收到該壓縮檔案。在壓縮 查步驟92裡,處理器28會檢核該壓縮檔案的標頭,以決定 壓縮作業所按之依據的共用檔案集合42。即如前述,假使 該標頭表指出並無採用外部參考檔案,該處理器28會於内 部解壓縮步驟94處,利用適當、標準化的解壓縮方法將檔 案5 0解壓縮。 田 假定該檔案標頭確實包含應用於產生該壓縮檔案的參考 檔案列表,則處理器28會在檔案開啟步驟96處,於其碟片 3〇^開啟既經表列之參考檔案。接著,該處理器返覆旅經 該三詞資料壓縮列表。而又對於各個三詞資料,該處理器 會在片段查核步驟98查核短碼以識別出適當的參考檔案。 然後會前進到由該三詞資料内位移值所標示之檔案=的位 置,並讀出所標指之長度值的片段。如此所讀出諸連續片 21- 本紙張尺度適财a國家標準(CNS) A4規格(2iQ χ 29ϋ 517204 A7
段會在鏈接步驟100處,連同任 表内的子字串而彼此依序增附。這=、.=顯現在該列 能且可快速完成的程序將繼續進行,直到整個目標擋;:力。 既經重建妥當為止。 茶40 前文中雖係按特定參考於從伺服器到客戶端之檔案 作業以描述較佳具體實施例,然應瞭解壓縮本揭方法確; 實質上應用於任何電腦資料通訊及/或健存的情境内。 外’雖彼等具體實施例係參考於目標檔案4〇和共用檔案Ο ’或參考㈣’然應明瞭本發明原理確可等同適用^任 資料體項之壓縮作業。換言之,本文所採行之諸項名气 “目標檔案”、“共用檔案,,與“參考擋案,,應被視為參指於更為 廣義方式,而為實質上任何其中含有待加壓縮之符號字串 的電腦可讀取式資料體項。 ^ 如此即可知悉前揭示較佳具體實施例進係按範例所引述 ,同時本發明實不受限於前文中該等既經特定揭示與說明 者。而是,本發明範圍包括前揭示各式特點之組合與次組 合兩者,以及熟諳本項技藝人士經覽閱前揭說明所得思及 與著手,然未經先前技藝所涵蓋之該等變化與修姊。 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)

Claims (1)

  1. Μ/204 Α8 Β8
    :用以壓縮一目標符號字串之方法,其中包括: 識別-組由電腦所收存之參考字串集合; ,=二票字串内諸多連續性子字串比對到在其-或 夕個4考子串内所尋得之各個片段; :各個片“不子指配給諸子字串,而這些子字 可識別出各個彼等所屬相符之片段;以及 輸出一既經排序之標示子列表。 2. 如申請專利範圍第1項之方法 集合包含識別該電腦所使用之 3. 如申請專利範圍第2項之方法, 的作業平台相關。 ’其中識別該參考字串 諸多槽案的集合。 其中這些檔案與該電腦 ’其中這些檔案包含程式 ’其中比對諸子字串包含 字串中的個別片段,藉此 裝 4·如申請專利範圍第2項之方法 槽案與求救槽案至少一者。 5.如申請專利範圍第1項之方法 對於各個子字串尋得在參考 將子字串長度最大化。 線 &如申請專利範圍第5項之方法,其中比對諸子字串包含 將该等參考字串按一樹狀結構編石馬,該結構裡具有對 應於該些片段内符號之線緣所連接的節點,並且 其中尋得個別片段者,句扭、当体u , 匕括連續性地指派該樹狀結 構内對應到該子字串之符號的諸線緣。 7.如申請專利範圍第6項之方法,甘 /、中才曰派該樹狀結構 之線緣包括指派該樹狀結構,亩 ^ 罝到該連續序列内最後 一個線緣所觸抵之諸節點中一者口 有’亚且指配各自的片 -23- A8
    子包含回返一相M_ 子。 關於堵郎點中一者的節點標$ 8·如申請專利範圍第丨項之方 子包含僅將該歧桿示子&中指配個別片段標方 小值長度之片段二給相符於某一短於預定1 定最小值長度為短.之片段的諸將僅合配於較芳 之標示子列表内。 的老子子串增附到該經排月 9,如申請專利範圍第1項之方、去甘 子包含標示該歧直中出規1其中指配個別片段標开 示子。 ’、出見啫片段之參考字串的個別褶 装 10 ·如申睛專利範圍第9項之 子包含;P +、 /去,其中指配個別片段標开 與=‘不該專在所出現之參考字串裡該片段的㈣ U·如申請專利範圍第9項之方 表mi % n ^ / ,其中輸出該經排序之歹1 反縮該些參考字串的識別子。 •如申請專利範圍第u 線 包含回應於該排序列】=去,其中壓縮該些㈣ 1來對諸識別子加以編碼。$別子個別的出現頻率, 13 ·如申請專利範圍第1 含壓縮該列表。、法’其中輸出該排序列表自 14.如申請專利範圍第1 列表包含透過-通訊鍵路將其 案傳送給電腦。 將-…列表的輸" a如申請專利範圍第1ΙΜ之方法,其中識別該參考字串_ 本紙張尺度適用中國國家標準格⑽x 29TIiT 517204 AB c D 、申請專利範圍 和弟二參考字串集合,並且 合包含識別第一 其中比對眾多子字串且指配該片段標示子包人-—和第二諸多子字串分別地關聯到第一和第二I將第 串集合内的個別合配片段,且按此指―:二考字 示子集合,而且 和弟二標 其中輸出該排序列表則包含分別地輸出 第-和第二參考字串集合之第一和第二集合=等 和第二列表。 $ 如申請專利範圍第15項之方法,其中該等第一和第二 苓考字串集合係分別地由第一和第二電腦存放,一 出該第一和第二列表包含送出該第一列表給第—2 ’且送出該第二列表給第二電腦。 包 17·一種用以資料通訊之方法,其中包含: 在送出電腦處識別至少一個由接收電腦處所收疒 參考檔案; 子之 將目標檔案内的其一或多個子字串比對到至少一個 參考檔案的個別片段; 藉由將其一或多個子字串替代成可識別出諸片段之 片段識別子來壓縮該目標樓案;以及 將該壓縮檔案從該送出電腦處傳送到該接收電腦處 ,藉此該接收電腦可利用該至少一個參考檔案來解壓 縮該檔案。 18.如申請專利範圍第17項之方法,其中該至少一個參考 檔案與一由該接收電腦所執行之程式相關。 -25- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐)
    •如申凊專利範圍第.1 7項 ^ ^ 栲茔6人 貝爻方去,其中該至少一個參考 c該接收電腦所利用之程式檔案與求救檔案至 20.如申請專利範圍第17項 甘士 4 κ之方法,其中該至少-個參考 由該接收電腦’但非由該送出電腦, 夂耘式相關。 21·:Π專利範圍第17項之方法,其中識別至少-個參 :檔案包含透過該通訊鏈路以接收來自於該接收電腦 的至少一個參考擋案之識別資料,並且 、—傳送該壓縮檔案包含回應於所收到的識別資料, 以選出壓縮檔案俾供傳送。 22·^凊專利範圍第17項之方法,其中識別至少一個參 考標案包含叫回由該送出電腦所收存之至少—個參考 檔案的拷貝,並且比對至少一個子字串包含利用所叫 回之至少一個參考檔案的拷貝,來尋得相符於該送出 電腦處之子字串的片段。 23 ·如申明專利|已圍第i 7項之方法,其中識別至少一個參 考榀案包含識別分別由該第一和第二接收電腦所收存 的第一和第二參考檔案,並且 ★其中比對與替換該其一或諸多子字串包括將第一和 第二眾多子字串分別地關聯於該等第一和第二參考檔 案中個別的相符片段,並且按此將該些子字串替換成 第一和第二標示子集合,裨以產生第一和第二壓縮檔 案,並且 ______-26- 本纸張尺度適用中國國豕標準(CNS) Α4規格(210X297公董) 六、申請專利範圍 第 收 其中傳送該壓縮檔案包含傳送該第一壓縮檔案到該 一接收電腦’以及傳送該第二壓縮檔案到該第二接 電腦。 认如申請專利範圍第23項之方法,其中㈣該目標樓案 包含將該第一和第二壓縮標案存放在該送出電腦處, 並且其中傳送該等.第一和第二壓縮擋案包含叫回該既 存之壓縮檔案以供傳輸。 25·:申請專利範圍第17項之方法’其中該目標檔案包含 -第-目標檔案’並且其中壓縮該目標檔案包含壓縮 該第-目標檔案,且將該參考檔案的識別資料插入於 該麗縮檔案的標頭内,同時包括藉由將一第二目標檔 f内的諸子字串替換成朝向於該等子字串在該第二目 標槽案中早前出現處之内部指標,來壓縮該第二目標 檔案’其中該壓縮檔案的標頭内包含有一襴位,這是 用以指出該第二目標槽案先前時係按該等内部指標所 該檔含有一排序 一或諸多參考字 26.—種用以解壓縮一壓縮檔案的方法, 數碼列表,可標示出電腦所儲存之其 串内的個別片段,該方法包含: 從該列表中讀出數碼; 從電腦所儲存之其一 些數碼所標示之片段; 鍵接所擷取之片段以 27·如申請專利範圍第26項 或諸多參考字串内,擷取由該 並且 供重建出該目標播案。 之方法,其中該其一或諸多參
    本紙張尺度適用巾國國家標準(Cns) A4規格(21Q><297公复) 517204 A8 B8 , C8 考子串包含該電腦所利用的諸樓案。 如申明專利範圍第26項之方法,其中讀出數码包含將 該其一或諸多參考字串之諸壓縮識別子予以解碼。 29^申請專利範圍第%項之方法,其中擷取諸片段包含 項出一長度值和在一字串内之位移值的一序列符號, 而該字串係由該等數碼其中一項所標示。 & 30·:申請專利範圍第26項之方法,其中該壓縮槽案進一 Y更包3 —源於該目標檔案之未經編碼的字元子字串 ,且其中鏈接所擷取之諸片段包含按所擷取之片段來 鏈接該未經編碼子字串。 31·:種用以壓縮一目標符號字串之裝置,其中包括一壓 縮處理器,該者經調適俾以接收一組由電腦所收存之 參考字串的識別資料:俾以將該目標字串内諸多連續 性子子串比對到在其一或多個參考字串内所尋得之各 個片&,俾以將各個片段標示子指配給諸子字串,而 這二子子串可識別出各個彼等所屬相符之片段;並且 俾以輸出一既經排序之標示子列表。 32.如申請專利範圍第31項之裝置,其中該參考字串集合 包含識別該電腦所使用之諸多檔案的集合。 如申响專利範圍第32項之裝置,其中這些檔案與該電 月1¾的作業平台相關。 34. 如申請專利範圍第32項之裝置,其中這些檔案包含程 式檔案與求救檔案至少一者。 35. 如申請專利範圍第31項之裝置’其中該處理器係經調 -28- Μ 7204 AS Β8
    適以對於各個子丰.电盖温太 — 子串寸付在參考字串中的個別片段, 糟此將子字串長度最大化。 3 6 ·如申請專利範圍第 、 靶固弟31項之裝置,#中該處理器係經調 適以壓縮該排序列表。 37.如申請專利範圍第31項之裝置,其中該處理器係經進 ν凋適以透過通訊鏈路來傳送含有該列表的 檔案。 如申請專利範圍第31項之裝置,其中該參考字串集合 包含識別第一和第二參考字串集合,並且 裝 其中該處理器係經調適以將第一和第二諸多子字串 分別地關聯到第一和第二參考字串集合内的個別合配 片段,且按此指配第一和第二標示子集合,藉以分別 地輸出對應於該等第一和第二參考字串集合之第一和 第_ 一集合裡的第一和第二列表。 線 39·如申請專利範圍第38項之裝置,其中該等第一和第二 參考字串集合係分別地由第一和第二電腦存放,而其 中該處理器係經調適以送出該第一列表給第一電腦, 且送出該第二列表給第二電腦。 40.—種用於資料通訊之伺服器,其中包括一壓縮檔案處 理器,該者經調適俾以接收至少一個參考樓案的識別 資料’該檔案係由該接收電腦所存放,並俾以將一壓 縮樓案傳送至該接收電腦,其中該壓縮檔案係藉由將 該目標檔案内其一或諸多子字串比對於該至少一個參 考檔案的個別片段,以及藉由將其一或諸多子字串替 _____ -29- 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐) C8 C8
    42·如申請專利範圍第4〇項 檔案包含該接收電腦所 一者0 之词服器,其中至少一個參考 ’但非由該送出電腦,所執行 申請專利範圍 換為可識別各個片, ^ 又之片段標示子所產生者,葬士 β 接收電腦可利用該至小y ^〜 精此遠 41.如申請專利範圍第4 u 錢案。 1 _ 負之伺服态,其中至少一個会| 檔案會與該接收雷腺& 個參考 队电^的作業平台相關。 之伺服器’其中至少—個參考 用的程式檔案與求救檔案至少 43·如申請專利範圍第4〇項 檔案與一由該接收電腦 之程式相關。 认如申請專利範圍第40項之词服器,其中該處理器传铖 调適以透過該通訊鏈路以接收來自於該接收電腦的至 少一個參考擋案之識別資料’並且回應於所收到的識 別資料,以選出壓縮檔案俾供傳送。 45.如申請專利範圍第4G項之伺.服器,並包含一健存裝置 ,该者係經調適以存放至少一個參考檔案的拷貝,其 中該處理器係經調適以從該儲存裝置中叫回至少一個 參考檔案,並以利用該叫回檔案來產生一壓縮檔案。 46·如申請專利範圍第4〇項之伺服器,其中至少一個參考 檔案包含分別由該第一和第二接收電腦所收存的第一 和第二參考檔案,並且 其中該處理器係經調適以將利用第一參考檔案所產 生之第一壓縮檔案傳送到該第一接收電腦,以及將利 用第二參考檔案所產生之第二壓縮檔案傳送到該第二 -30- 、申請專利範圍 接收電腦。 47.如申凊專利範圍第46項之 、 存放第-與第二塵縮版本之錯;裝:包::經調適以 係經調適以叫回該既經存放、太J該處理器 業。 縮版本以供其傳輸作 优一種用以將屋縮檀案予以解屬縮之 經排序之數碼列表,標:者包卜 個別片段,彼等片段相符於:目二串内的 串,該裝置包括: 払檔案内的各個子字 以Γ存裝置,經調適以收存其-或諸多參考字串; 該…讀出數碼, 之參考字串所標… 鏈接所操取之片段俾供重建出該目標樓宰以 49. 二申:專㈣圍第48項之裝置,其中該其-或諸多擋 案L έ 5亥電腦所使用之樓案。 50. 口種用以堡縮-目標符號字串之電腦軟體產品,該產 13 ,、中存放有各項程式指令之電腦可讀取媒體 ,而當由-電腦讀出時,這些指令可令該電腦接收_ 組由電腦所收存之參考字串的識別資料;令以將該目 標字串内諸多連續性子字串比對到在其一或多個參考 字串内所尋得之各個片段;令以將各個片段標示子指 配給諸子子串’而這些子字串可識別出各個彼等所屬 -31 - 本紙張尺度適财a g家標準(CNS) A4規格(210X297公釐τ 申請專利範園 51·-料並二令以輪出-既經排序之標示子列表。 中存放相之電腦軟體產品,該產品包含—其 送出電腦“屮t式私令之電腦可讀取媒體,而當由-印罨如項出時,這些指令 *田 —個參考樓案的識別資料,電腦接收至少 存放’並令將該目標檔案内其_:二=電腦所 .諸多子字的個別片段,且令藉由將其-或 縮該目識別各個片段之片段標示子來壓 ,案,亚令以將該壓縮檔案傳送至該接收電 裝 壓縮該樓案。 了利用該至卜個參考檔案來解 訂 52·::ΓΓ壓縮檔案予以解壓縮之電腦軟體產品,該 =有序之數碼列表’標示出由_電腦所收存 於:3二=字串内的個別片段,彼等片段相符 目才示檔案内的各個子字串,該產品包含一豆中存 線 =項程式指令之電腦可讀取媒體,而當由二電腦 項出時,這些指令可令該電腦從該列表中讀出數碼, f且令以從由其-或諸多收存於該儲存裝置内之參考 字串所標示的數碼中插取出諸連續片段,並令以鍵接 所擷取之片段俾供重建出該目標檔案。 -32-
TW090121191A 2000-08-31 2001-08-28 Compression in the presence of shared data TW517204B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/699,958 US6832264B1 (en) 2000-08-31 2000-08-31 Compression in the presence of shared data

Publications (1)

Publication Number Publication Date
TW517204B true TW517204B (en) 2003-01-11

Family

ID=24811634

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090121191A TW517204B (en) 2000-08-31 2001-08-28 Compression in the presence of shared data

Country Status (3)

Country Link
US (1) US6832264B1 (zh)
EP (1) EP1187336A3 (zh)
TW (1) TW517204B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277878B2 (en) * 2001-02-13 2007-10-02 Ariba, Inc. Variable length file header apparatus and system
US7072061B2 (en) * 2001-02-13 2006-07-04 Ariba, Inc. Method and system for extracting information from RFQ documents and compressing RFQ files into a common RFQ file type
US7084998B2 (en) * 2001-02-13 2006-08-01 Ariba, Inc. Method and system for processing files using a printer driver
US7840774B2 (en) * 2005-09-09 2010-11-23 International Business Machines Corporation Compressibility checking avoidance
CN101136870A (zh) * 2006-08-29 2008-03-05 国际商业机器公司 基于符号的消息传送方法及系统
US20080172430A1 (en) * 2007-01-11 2008-07-17 Andrew Thomas Thorstensen Fragmentation Compression Management
US8063800B2 (en) * 2007-11-02 2011-11-22 Symbol Technologies, Inc. Efficient encoding and decoding of mixed data strings in RFID tags and other media

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US6216175B1 (en) 1998-06-08 2001-04-10 Microsoft Corporation Method for upgrading copies of an original file with same update data after normalizing differences between copies created during respective original installations
US6279041B1 (en) * 1998-11-13 2001-08-21 International Business Machines Corporation Methods, systems and computer program products for differencing data communications using a message queue
US6453383B1 (en) * 1999-03-15 2002-09-17 Powerquest Corporation Manipulation of computer volume segments
US6466999B1 (en) * 1999-03-31 2002-10-15 Microsoft Corporation Preprocessing a reference data stream for patch generation and compression

Also Published As

Publication number Publication date
EP1187336A3 (en) 2004-03-03
US6832264B1 (en) 2004-12-14
EP1187336A2 (en) 2002-03-13

Similar Documents

Publication Publication Date Title
Xiang et al. A linguistic steganography based on word indexing compression and candidate selection
US7792877B2 (en) Scalable minimal perfect hashing
US8996578B1 (en) High efficiency binary encoding
US20110022718A1 (en) Data Deduplication Apparatus and Method for Storing Data Received in a Data Stream From a Data Store
CN103246730B (zh) 文件存储方法和设备、文件发送方法和设备
JP6340668B2 (ja) ストリーム認識およびフィルタリング
CN107851118A (zh) 下一代测序数据的存储、传输和压缩
US20150234885A1 (en) Methods and systems for efficient comparison of file sets
US20200212932A1 (en) Reducing storage of blockchain metadata via dictionary-style compression
CN107402798B (zh) 转换排序脚本以在不同编码环境下重用jcl的方法和装置
JP7089605B2 (ja) データ変形システムおよび方法
JP5377818B2 (ja) コンパイル済みスキーマに順次アクセスする方法とシステム
Roussev et al. File fragment encoding classification—An empirical approach
TW517204B (en) Compression in the presence of shared data
US20040006569A1 (en) Compressed unicode normalization with inversion
CN110362560A (zh) 一种无业务主键数据在存储数据库时去重的方法
JP5789236B2 (ja) 構造化文書分析方法、構造化文書分析プログラム、および構造化文書分析システム
CN114491597A (zh) 一种基于汉字部件组合的文本无载体信息隐藏方法
JP6787755B2 (ja) 文書検索装置
JP5194936B2 (ja) ファイル変換装置、ファイル変換方法及びプログラム
US10681106B2 (en) Entropy sharing across multiple compression streams
Ilambharathi et al. Domain specific hierarchical Huffman encoding
CN110825927A (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
CN115129899B (zh) 文档标签信息生成方法、装置、设备、介质和程序产品
Constantinescu Compression for data archiving and backup revisited

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees