TW482965B - Data compression method, data retrieval method, data retrieval apparatus, recording medium, and data packet signal - Google Patents

Data compression method, data retrieval method, data retrieval apparatus, recording medium, and data packet signal Download PDF

Info

Publication number
TW482965B
TW482965B TW090100964A TW90100964A TW482965B TW 482965 B TW482965 B TW 482965B TW 090100964 A TW090100964 A TW 090100964A TW 90100964 A TW90100964 A TW 90100964A TW 482965 B TW482965 B TW 482965B
Authority
TW
Taiwan
Prior art keywords
data
key
characters
compressed
master
Prior art date
Application number
TW090100964A
Other languages
English (en)
Inventor
Tamaki Maeno
Akira Asano
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Application granted granted Critical
Publication of TW482965B publication Critical patent/TW482965B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24526Internal representations for queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

482965 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7 Β7 五、發明說明(1 ) 發明背景 本發明關於產生含有主資料和壓縮取還 還主資料之資料包封的方法。此外,本發明 的搜索鑰,從含有主資料和壓縮取還資料以 料*的I多個資料包封有效取還主資料的資料取 ’本發明關於根據輸入的搜索鑰,從含有主 還資料以有效取還主資料的多個資料包封有 的資料取還裝置。再者,本發明關於記錄含 縮取還資料以有效取還主資料之多個資料包 。再者’本發明關於含有主資料和壓縮取還 主資料的資料包封信號。 所謂的資料取還裝置和所謂的電子字典 途’其中輸入要取還之資料的所有或部分字 的資料或本文。個人電腦上操作的電子字典 程式也使用相同功能。 參照圖1 ,以下說明習知資料取還裝置 理’其中取還的資料記錄在諸如C D — R〇 憶體的資訊記錄媒體上。 使用對應於要取還之資料的輸入字串做 據儲存在資訊儲存媒體上的指標1 1 ,資料 預先搜索記錄在資訊儲存媒體上的本文主體 然後貪料取還裝置顯示取還資料。 指標1 1是所謂的正向匹配搜索的資料 指標方塊層的一個指標方塊層2 1、屬於二 資料以有效取 關於根據輸入 有效取還主資 還方法。此外 資料和壓縮取 效取還主資料 有主資料和壓 封的記錄媒體 1以有效取還 裝置有廣泛用 串,顯示取還 程式和資料庫 的資料取還處 Μ或半導體記 爲搜索鑰,根 取還裝置搜索 資料庫1 2。 ’由屬於一次 次指標方塊層 (請先閱讀背面、之注意事項再填寫本頁)
482965 A7 五、發明說明(2 ) 的n個指標方塊2 2 - 1至2 2 - η、屬於三次指標方塊 層的m個指標方塊2 3 - 1至2 3 - m組成。 指標1 1是依據諸如正向匹配搜索和反向匹配搜索的 搜索法,例如,各指標預先儲存於資訊儲存媒體。詳言之 ’若資料取還裝置可執行正向匹配搜索或反向匹配搜索, 則資訊儲存媒體儲存正向匹配搜索指標和反向匹配搜索指 標。 指標方塊2 1、指標方塊2 2 — 1至2 2 — η、指標 方塊2 3 — 1至2 3 — m和有諸如'、A Ρ和、、Β〇〃的 比較鑰’與對應於比較鑰或資料位址的位址和搜索鑰比較 。比較鑰以字母的上升次序排列。 指標方塊2 1的各位址代表屬於二次指標方塊層的指 標方塊2 2 - 1至2 2 - η之一的頭儲存位置。各指標方 塊2 2 - 1至2 2 - η的各位址代表屬於三次指標方塊層 的指標方塊2 3 - 1至2 3 - η之一的頭儲存位置。 當輸入對應於要取還之資料的字串時,使用輸入字串 做爲搜索鑰,資料取還裝置比較搜索鑰的前二字元與指標 方塊2 1的比較鑰。根據此比較,資料取還裝置判斷此二 字元的字母次序是否在指標方塊2 1的比較鑰前後或相同 〇 若發現搜索鑰前二字元的字母次序在指標方塊2 1的 比較鑰之後,則資料取還裝置比較搜索鑰的前二字元與指 標方塊2 1的下一比較鑰。 若發現搜索鑰前二字元的字母次序在指標方塊2 1的 (請先閱讀背面之注意事項再填寫本頁) -----i^w----訂---------線- 經濟部智慧財產局員工消費合作社印製
482965 經濟部智慧財產局員工消費合作社印製 A7 B7_____ 五、發明說明(3 ) 下一比較鑰之前或相同,則根據對應於指標方塊2 1之此 比較鑰的位址’資料取還裝置指定屬於二次指標方塊層的 對應一個指標方塊2 2 - 1至2 2 - η。 然後’資料取還裝置比較搜索鑰前二字母與指標方塊 2 2 - 1至2 2 - η之指定者的比較鑰,執行與指標方塊 2 1相同的處理。根據此比較,資料取還裝置判斷搜索鑰 前二字元的字母次序是否在指標方塊2 2 - 1至2 2 - η 之指定者的比較鑰前後或相同。 若發現搜索鑰前二字元的字母次序在指標方塊2 1 一 1至2 2 - η之指定者的比較鑰之後,則資料取還裝置比 較搜索鑰前二字元與指標方塊2 2 - 1至2 2 — η之指定 者的下一鍮。 若發現搜索鑰前二字元的字母次序在指標方塊2 2 -1至2 2 - η之指定者的下一比較鑰之前或相同,則根據 對應於指標方塊2 2 — 1至2 2 — η之指定者之比較鑰的 位址’資料取還裝置指定屬於三次指標方塊層的對應一個 指標方塊2 3 — 1至2 3 - m。 然後’資料取還裝置比較搜索鑰所有字元與指標方塊 2 3 - 1至2 3 - m之指定者的比較鑰。根據此比較,資 料取還裝置判斷搜索鑰的字母次序是否在指標方塊2 3 一 1至2 3 - m之指定者的比較鑰之後,相同、或包含在比 較鑰。 若發現搜索鑰的字母次序在指標方塊2 3 — 1至2 3 - m之指定者的比較鑰之後,則資料取還裝置比較搜索鑰 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -6 - ----—Aw----訂---------線- (請先閱讀背面之注音?事項再填寫本頁) 482965 A7 B7 五、發明說明(4 ) 與指標方塊2 3 - 1至2 3 - m之指定者的下一比較鑰。 若發現搜索鑰與比較鑰相同或包含在比較鑰,則根據 對應於指標方塊2 3 - 1〜2 3 — m之指定者之比較鑰的 位址’資料取還裝置指定儲存在本文主體資料庫1 2的對 應本文主體。 詳言之,若對要取還的資料輸入字串、、abroad 〃 ,則 搜索變成、ABROAD 〃 ,前二字元、、A B 〃與指標方塊 2 1的比較鑰比較,依序如圖1。因搜索鑰前二字元 '' A B 〃的字母次序在指標方塊2 1的第一比較鑰、、a P 之前’故根據對應於比較鑰、、A P 〃的位址,資料取還 裝置指定屬於二次指標方塊層的指標方塊2 2 - 1。 因搜索鑰前二字元A B 〃的字母次序在指標方塊 2 2 - 1的第一比較鑰、' A C 〃之前,故根據對應於比較 鑰'' A C 〃的位址,資料取還裝置指定屬於三次指標方塊 層的指標方塊2 3 — 1。 資料取還裝置從對應於搜索鑰、、ABROAD 〃之指標方 塊2 3 - 1的頂部偵測第三比較鑰、、ABROAD 〃 ,根據對 應於此比較繪、A B R 0 A D 〃之資料的位址,從本文主體資 料庫1 2讀取並顯示資料。 在其它資訊儲存媒體,不用指標。亦即,預先儲存關 鍵字對應於本文主體資料庫的主資料。資料取還裝置根據 儲存的關鍵字取還主資料。 參照圖2 ,顯示習知本文主體資料庫3 1的一例,其 中預先儲存關鍵字對應於主資料。本文主體資料庫3丨以 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) _裝----訂---------線秦 經濟部智慧財產局員工消費合作社印製 482965 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(5 ) 字母上升次序儲存主資料。 本文主體資料庫3 1的'' T〇P 〃代表在主資料標頭 前的識別號。本文主體資料庫3 1的〜K W 〃代表在主資 料關鍵字前的識別號,具有値、0 0 〃的識別號在關鍵字 之後。 主資料在具有値、、〇 〇 〃的識別號之後。
參照圖 2 ,在資料、、TOP ap · pie KW APPLE 00 A kind of fruits ",在第一識別號、、T〇P 〃與第二識別號、、 K W 〃間的、ap · pie 〃代表標頭。在第二識別號'' K W 〃與第三識別號、、〇 〇 〃間的、、APPLE 〃代表標頭、' ap · Pie 〃的關鍵字。在第三識別號'' 〇 〇 〃後的'' A kmd of frmu 〃代表標頭'' ap . pie "和關鍵字'' APPLE "的主資 料。 同樣地,在本文主體資料庫3 1的資料'' TOP AP · pie· seed KW APPLESEED 00 Johnny ( John Chapman ) ” ,在識別號、、T〇P "與K W π間的、、AP · pie · seed 〃代表標頭。在識別號、K W 〃與、、〇 〇 〃間的、、 A P P L E S E E D々代表標頭、、A P · p 1 e · s e e d "的關鍵字。在 識別號、、0 0 後的Johnny ( John Chapman ) 代表標頭 、' AP · pie · seed /r 和關鍵字 '、APPLESEED "的主資料 參照圖3的流程圖,以下說明要由習知資料取還裝置 執行以取還本文主體資料庫3 1之搜索鑰與選擇關鍵字間 之比較的處理。在步驟S 1 1 ,資料取還裝置讀取搜索錄 (請先閱讀背面之注意事項再填寫本頁) —Aw 訂---------線· 482965 A7 B7 五、發明說明(6 ) 第一字元。在步驟S 1 2,資料取還裝置讀取選擇關鍵字 第一字元。 在步驟S 1 3,資料取還裝置判斷在第搜索鑰第一字 元與選擇關鍵字第一字元間是否有匹配。若發現匹配,則 在步驟S 1 4,資料取還裝置判斷搜索鑰第一字元和選擇 關鍵字第一字元是否是最後字元。 若在步驟S 1 4判斷爲是,則在步驟S 1 5資料取還 裝置輸出代表搜索鑰匹配選擇關鍵字的訊息,處理結束。 若在步驟S 1 3判斷爲否,則在步驟S 1 6資料取還 裝置輸出代表搜索鑰不匹配選擇關鍵字的訊息,處理結束 〇 若在步驟S 1 4判斷爲否,則表示仍有要比較的字元 ,因而在步驟S 1 7,資料取還裝置讀搜索鑰下一字元。 在步驟S 1 8,資料取還裝置讀關鍵字下一字元。然後, 在步驟S 1 3,資料取還裝置重複上述比較處理。 但利用指標的資料取還涉及預定量的指標資料須隨著 主資料存入資訊儲存媒體的問題,因此須提供具有大儲存 區的資訊儲存媒體。例如,含有6 0 0 〇 〇至7 0 〇 〇 0 字之本文主體的主資料高達3 0 M b,而指標高達約 8Mb。 利用排在主資料之關鍵字的主資料取還,而不用指標 ,需要許多字元間的比較,花長時間於取還處理。 發明槪要 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) —----訂---------AW— 經濟部智慧財產局員工消費合作社印製 -9 - 5 Α7R7 五、發明說明(7 ) (請先閱讀背面之注意事項再填寫本頁) 因此本發明的目標是提供資料壓縮方法、資料取還方 法、資料取還裝置、記錄媒體,將主資料存入相對較小儲 存區以達成比習知更快資料取還的資料包封信號。 依據本發明的一觀點,提供資料壓縮方法,有效取還 ϋ資料以取還主資料並壓縮要記錄在記錄媒體上之鑰資料 的資料量’包括下列步驟:比較由第一數目字元組成的第 一鑰資料與由高於第一數目之第二數目字元組成的第二鑰 資料;根據第一鑰資料與第二鑰資料間的比較結果,偵測 第一鑰資料與第二鑰資料之間的匹配字元數目,從第二鑰 資料刪除匹配第一鑰資料的字元,產生具有由從第二鑰資 料刪除匹配第一鑰資料的字元所得之失配字元和匹配字元 之數目的資料包封·,將資料包封記錄到記錄媒體。 經濟部智慧財產局員工消費合作社印製 依據本發明另一觀點,提供資料取還方法以取還資料 包封的主資料和壓縮鑰資料,根據輸入搜索鑰和壓縮鑰資 料’資料包封由主資料組成,壓縮鑰資料由從鑰資料刪除 重複字元所得的失配字元及配合主資料之鑰資料與附近鑰 資料間的重複字元數目組成,包括下列步驟:取還鑰資料 等於失配字元的資料包封,偵測在取還步驟取還之資料包 封之壓縮鑰資料的失配字元與搜索鑰間的失配部;若在壓 縮鑰資料失配字元與搜索鑰間測到失配部,則偵測鄰近資 料包封之資料包封壓縮鑰資料失配字元與偵測失配部間的 失配部。 依據本發明另一觀點,提供資料取還裝置,根據輸入 搜索和壓If目鑛資料’從記錄資料包封和壓縮繪資料的記 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印製 482965 A7 B7____ 五、發明說明(8 ) 錄媒體取還主資料,資料包封由主資料組成,壓縮鑰資料 從鑰資料刪除重複字元所得的失配字元及配合主資料之鑰 資料與附近鑰資料間的重複字元數目組成,資料取還裝置 包括:記錄媒體存取構件,從記錄媒體讀資料包封;取還 構件,取還鑰資料等於失配字元的資料包封;失配偵測構 件,偵測預定資料包封之壓縮鑰資料之失配字元與輸入字 串間的失配字元部以比較,控制構件,控制取還構件,因 而取還鑰資料等於失配字元的資料包封,由控制失配偵測 構件來偵測取還資料包封與輸入搜索鑰間的失配部,若發 現失配部,則由控制失配偵測構件,偵測由控制記錄媒體 存取構件所讀取之鄰近取還構件所取還之資料包封的資料 包封與偵測失配部間的失配部。 依據本發明另一觀點,提供資料取還裝置,根據輸入 搜索鑰和壓縮鑰資料,從記錄資料包封和壓縮鑰資料的記 錄媒體取還主資料,資料包封由主資料組成,壓縮鑰資料 從鑰資料刪除重複字元所得的失配字元及配合主資料之鑰 資料與附近鑰資料間的重複字元數目組成,資料取還裝置 包括:記錄媒體存取構件,從記錄媒體讀資料包封;操作 構件,輸入搜索鑰;顯示構件,顯示取還主資料;壓縮鑰 資料取還構件,從讀自記錄媒體的資料包封取還壓縮鑰資 料;第一比較構件,比較壓縮鑰資料失配字元與搜索鑰; 保持構件,根據比較構件所做的比較結果,保持壓縮鑰資 料失配字元與搜索鑰間的失配字元數目;第二比較構件, 比較保持在保持構件的字元數目與代表壓縮字元數目的資 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公釐) -11- ----*---i-----i Aw----訂---------線·---m--- (請先閱讀背面之注意事項再填寫本頁) 482965 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(9 ) 料;控制構件,控制第一比較構件以比較從操作構件輸入 的搜索鑰與壓縮鑰資料取還構件所取還之壓縮鑰資料的失 配字元數目,將第一比較構件比較所得之搜索鑰與壓縮鑰 資料間的失配字元數目保持在保持構件,比較相鄰資料包 封的失配字元與要由比較構件發現失配之搜索鑰的字串, t顯示構件上顯示取還的主資料。 依據本發明的不同觀點,提供資料包封信號,具有主 資料和取還字串以取還主資料,包括··主資料信號部;在 取還主資料的鑰資料與另一段主資料的鑰資料間之匹配字 元部壓縮後留下的失配信號部;代表壓縮資料之字元數目 的壓縮字元計數信號部。 依據本發明另一不同觀點,提供記錄媒體,記錄具有 主資料和壓縮資料以取還主資料的資料包封,具有:主資 料;刪除在取還主資料之取還資料與取還鄰近資料包封之 主資料之取還資料間之匹配字元後留下的失配資料;代表 因匹配結果而刪除之字元數目的壓縮字元數目。 圖式簡單說明 圖1顯示習知資料取還裝置的資料處理; 圖2顯示習知本文主體資料庫的一例; 圖3是流程圖,描述搜索鑰與選擇關鍵字間的習知比 較處理; 圖4是方塊圖,顯示資料取還裝置組態,做爲本發明 的較佳實施例; 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注音?事項再填寫本頁) n n .^1 ϋ ϋ ϋ I I n ϋ ϋ ϋ ϋ ϋ ii I —Λ*.ϋ ϋ ϋ · n I .^1 I ^1 一一0、I am— I ϋ I i ϋ n I _ f 五、 發明說明(1〇 m A7 B7 顯示構成本文主體資料庫1 1 0的包封 圖6 A顯示本文主體資料庫1 1 0的欄位1 _ 6 Β顯示本文主體資料庫1 1 0的欄位2 圖7 Α顯示本文主體資料庫1 1 0之標頭 〃的包封; 圖7 B顯示本文主體資料庫1 1 0之標頭' 包封; 圖7 C顯示本文主體資料庫1 1 0之標頭 seed 〃的包封; 圖7 D顯示本文主體資料庫1 1 0之標頭 的包封; 圖8顯示要顯示在顯示面板5 7的取還結果; 圖9顯示本文主體資料庫1 1 〇的分割部; _ 1 0顯示壓縮關鍵字的組態; 圖1 1 A和1 1 B顯示搜索鑰與壓縮關鍵字間的比較 處理,相較於搜索鑰與未壓縮關鍵字間的比較處理; 圖1 2顯示欄位資訊表; ap pl·
Appl1 的 ap pie ipplet 經濟部智慧財產局員工消費合作社印製 mi 1 理 處 庫 料 資 體 主 文 本 明 說 圖 程 流 是 3 IX 圖 還 取 的 ο 比 的 間 字 鍵 彐夸 縮 壓 擇 選 與 還 取 明 說 圖 程 流 是 4 IX ·, 圖理 處 較 縮 壓 從 與 元 字 k 始 開 鑰 索: 13庫 双處料 明較資 說比體 , 的主 圖間文 程元本 流字明 是 k 說 5 始 6 1 開 1 圖字圖 鍵 關 〇 r—I 1—1 -----ί —,又---. I ---訂---------IAV--- (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -13- 482965 A7 _B7 五、發明說明(11 ) 主要元件對照表 經濟部智慧財產局員工消費合作社印制衣 4 標 頭 字 1 1 指 標 1 2 本 文 主 體 資 料 庫 2 1 指 標 方 Γ.Η-r 塊 2 2 指 標 方 塊 2 3 指 標 方 Γι-f-r 塊 3 1 本 文 主 體 資 料 庫 5 1 中 央 處 理 單 元 5 2 唯 讀 記 憶 體 5 3 隨 機 存取 記 憶 體 5 4 鍵 操 作 方 塊 5 5 字 典 R 〇 Μ 5 6 顯 示 控 制 器 5 7 顯 示 面 板 5 8 介 面 5 9 磁 碟 機 6 〇 磁 碟 6 1 光 碟 6 2 磁 光 碟 6 3 半 導 體 記 憶 體 9 1 欄 位 資 訊 表 1 〇1 本 文 主 體 資 料 庫 1 1〇 本 文 主 體 資 料 庫 ----^— h--------訂---------線^ (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公釐) _ 14 - 482965 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(12 ) 較佳實施例詳述 參照附圖藉由實施例來詳述本發明。 參照圖4,Μ P U (微處理單元)所構成的C P u ( 中央處理單元)5 1執行存入R Ο Μ (唯讀記憶體)5 2 的控制程式’根據輸入自鍵操作方塊5 4的信號,控制資 料取還裝置,同時,執行取還對應於輸入字串之主資料的 處理。 罩幕R〇Μ、 E P R〇Μ、 E E P R〇Μ或快閃記憶 體所構成的R〇Μ 5 2儲存要由C P U 5 1執行的控制程 式、控制程式執行所需的基本固定參數、字型資料(代表 字型的資料)。 DRAM或SRAM所構成的RAM5 3儲存其値隨 控制程式執行而變的資料,例如暫時儲存爲取還處理結果 的匹配字元數目(稍後說明)。鍵操作方塊5 4有預定操 作鍵和開關,輸出配合資料取還裝置使用者所做的操作而 產生的信號給C P U 5 1。 由諸如罩幕ROM、 EPROM、 EEPRO Μ或快 閃記憶體,諸如硬碟的磁碟、磁光碟、或光碟所構成做爲 資料庫的字典ROM5 5諸如本文主體資料等。在C P U 5 1的控制下,顯示控制器5 6從R〇Μ 5 2接收對應於 代表取還結果之預定字元的字型資料,在顯示面板5 7上 顯示接收字元。在顯示控制器5 6的控制下,L C D (液 晶顯示器)之類所構成的顯示面板5 7顯示預定字元或顯 像。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公1 ) - 15 - U—:卜----—Aw----訂---------線 (請先閱讀背面之注意事項再填寫本頁) 482965 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(13 ) 磁碟機5 9從裝入磁碟機5 9的磁碟6 0、光碟6 1 、或fe光碟6 2讀資料(例如本文主體資料)或程式(包 含控制程式),將資料或程式經由介面5 8送到C p u 5 1。在C P U 5 1的控制下,介面5 8將收自磁碟機 5 9的資料或程式送到c P U 5 1 ,同時,從裝入介面5 8的半導體記憶體6 3讀諸如,如本文主體資料的資料或 包含控制程式的程式,將其送到C P U 5 1。 對應於預定通訊設計之路由器、數據機、或通訊電路 所構成的通訊方塊6 4經由諸如區域網路、網際網路、數 位衛星廣播的有線或無線通訊媒體接收預定資料或程式, 將接收資料和程式送到C P U 5 1。 參照圖5,顯示要存入字典R〇Μ 5 5做爲資料庫之 一段主資料的資料格式。如所示,每段主資料包成稱爲本 文主體資料的包封。主資料以預定次序儲存。各包封以標 頭開始。此例中,以'' I F 4 1 〃指定固定長度的標頭。 標頭之後是代表主資料結論的標頭字。標頭字的長度可變 ,以標頭字端碼結束。此例中,標頭字端碼是、、I F 6 1 〃。標頭字端碼之後是匹配計數。匹配計數代表稍後說明 之壓縮關鍵字的壓縮字元數目。根據匹配計數,解壓縮關 鍵字如下。匹配計數之後是壓縮關鍵字。壓縮關鍵字端部 由代表主資料開頭之主資料識別資料的> 〇 〇 〃來識別。 主資料識別資料之後是主資料。一般主資料的包封結束於 主資料端部。 圖6 Α和6 Β顯示多個包封(參照圖5說明其中之一 ^^------1 Aw----訂---------線 —Aw—7 (請先閱讀背面之注音3事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -16 - 482965 經濟部智慧財產局員工消費合作社印製 A7 B7 五、發明說明(14 ) )存入字典R〇Μ 5 5的狀態。圖6 A和6 B呈現由預定 尺寸分割字典R〇Μ 5 5之儲存區所得的方塊。各方塊稱 爲位。可實體或邏輯將儲存區分成欄位。無論分割方式 爲何’存取所得欄位無差異。欄位1和2存入字典R〇Μ 5 5 ’因而可連續讀取。因此,標頭字4存入欄位1和2 。在讀取作業,欄位1的標頭字4和欄位2的標頭字4連 一起。 如圖6 Α和6 Β,在各欄位,連續儲存多個包封。欄 位1含有主資料1的封包1、主資料2的包封2、主資料 3的包封3、主資料4的部分包封4。欄位2含有包封4 的其餘部分、主資料5的包封5。如圖5,各包封以 '' I F 4 1 〃開始,以主資料結束。因包封連續儲存如圖 6 A和6 B,故搜索、' I F 4 1 〃 (下一包封的標頭)可 容易測得各包封端部。例如,對包封1 ,偵測在標頭字2 前的'' I F 4 1 〃可偵測主資料1的端位置和包封1的端 點。 圖7 A、7 B、7 C、7 D顯示特別包封。圖7 A顯 示關鍵字爲'' A P P L E 〃的資料包封。圖7 B顯示關鍵 子爲 APPLE 的資料包封。圖7 C顯不關鍵子爲、、 A P P L E S E E D 〃的資料包封。圖7 D顯示關鍵字爲 '' A P P L E T 〃的資料包封。 參照圖8,當以、、A P P L E T 〃做爲搜索鑰以正向 匹配搜索來搜索圖1 〇的本文主體資料1 1 〇時,顯示要 由本發明之資料取還裝置所執行之顯示面板5 7上之顯示 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -17- -----1—l·----—Awl—訂---------線 —Aw.—; (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 482965 A7 _ B7 五、發明說明(15 ) 的一例。 如圖8,値爲'、I F 4 1 〃的識別號,値爲 '' I F 6 1 〃的識別號、値爲'' 0 0 〃的識別號、壓縮關 鍵字未顯示在顯示面板5 7上。本發明的資料取還裝置顯 示取還標頭字於顯示面板5 7的左側。 若有二個以上的取還標頭字和本文主體,則本發明的 資料取還裝置顯示一取還本文主體,接著是在新一行的標 頭字。. 詳言之,標頭字★ ap · pie 〃顯示在顯示面板5 7的 左上方。對應於此標頭字的主資料、、A kind of fruits 〃顯 示於其下。標頭字、、Apple 〃顯示於主資料'、A kmd of frints 〃下。對應於標頭字'' Apple 〃的本文主體Label of records 〃顯示於其下。 再度參照圖9 ,在本文主體資料8 1的、、IF41 Apple IF61 01 〇〇 //所代表的資料,識別號'Μ F 4 1 //與、、 I F 6 1 "間的'' Apple 〃代表標頭字。 識別號' I F 6 1夕與4 、0 0 "間的 '、〇5 "代表 標頭頭'' Apple 〃的壓縮關鍵字。識別號、、〇 〇 〃後的、、 Label of records 〃代表壓縮關鍵字'' 0 5 β和標頭Apple 〃的主資料。 同樣地,在本文主體資料1 1 0的IF41 Ap · ple . seed IF61 05 seed 00 Johnny ( John Chapman )"所代表的 資料,識別號I F 4 1 〃與'' I F 6 1 〃間的、、Ap . pie · seed 〃代表標頭字。識別號'' I F 6 1 〃與" 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -18- -ϋ ϋ ϋ ϋ n I ϋ ^1 ϋ I ϋ — ϋ ϋ ϋ ϋ ϋ ϋ I ϋ ϋ I I ϋ ϋ ϋ . (請先閱讀背面之注咅?事項再填寫本頁) 482965
經濟部智慧財產局員工消費合作社印製 五、發明說明(16 ) 間的'、05 seed "代表標頭字、、Ap · pie · seed的壓縮關 鍵字。 5戠別號、、0 0 後的、、J 〇 h η n y ( J 〇 h n C h a p m a η )"代表 對應於標頭字、' Ap · pie · seed 〃和壓縮關鍵字、、〇5 seed "的主資料。 本文主體資料1 1 〇分成具有預定儲存區的欄位 1 1 1 — 1至1 1 1 — 2。圖9的例子中,本文主體資料 1 1 〇分成二欄位1 1 1 — 1和1 1 1 — 2。本文主體資 料1 1 0也可分成超過二欄位。 以下參照圖1 0說明壓縮關鍵字組態。圖中,左欄顯 示壓縮前的關鍵字,右欄顯示對應壓縮關鍵字。 詳言之,若壓縮前的關鍵字在本文主體資料爲、、 APPLE ”、、、APPLE "、'、APPLESEED 、、、APPLET 的次序,則在壓縮本文主體資料1 1 〇,壓縮關鍵字是匹 配字元計數爲 '、〇〇 〃而其餘關鍵字爲、、APPLE 〃的壓縮 關鍵字、匹配字元計數爲、、〇 5 〃而其餘關鍵字爲無的壓 縮關鍵字、匹配字元計數爲、、0 5 〃而其餘關鍵字爲、、 SEED 〃的壓縮關鍵字、匹配字元計數爲〇 5 〃而其餘關 鍵字爲、、T 〃的壓縮關鍵字。 亦即’壓縮本文主體資料1 1 〇中,壓縮前的關鍵字 '' APPLE 〃被匹配字元計數爲、、〇 〇 〃而其餘爲關鍵字 APPLE 〃的關鍵字取代,壓縮前的關鍵字apple 〃 (從 頂部第二個)被匹配字元計數爲、、〇 5 〃而其餘關鍵字爲 無的壓縮關鍵字取代,壓縮前的關鍵字、、APPLESEED "被 —‘—^i —訂---------線 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印製 482965 A7 B7____ 五、發明說明(17 ) 匹配字元計數爲、、0 5 〃而其餘關鍵字爲、、SEED 〃的壓縮 關鍵字取代。 同樣地,壓縮本文主體資料1 1 〇中,壓縮前的關鍵 字'、APPLET 〃被匹配字元計數爲、、〇 5 〃而其餘關鍵字爲 '' T 〃的壓縮關鍵字取代。 各壓縮關鍵字的匹配字元計數將對應於前一壓縮關鍵 字之未壓縮關鍵字第一字串的字元數目設爲匹配壓縮關鍵 字字元數目。 其餘壓縮關鍵字設定從未壓縮關鍵字開頭刪除匹配字 元所導致的其餘字元。 例如,若未壓縮關鍵字'' APPLE 〃之後是未壓縮關鍵 字' APPLE 〃 ,則這些關鍵字在前5字元互相匹配。因此 0 5 〃設爲對應於未壓縮關鍵字'' APPLE 〃(圖1 0 從頭第二個)之壓縮關鍵字的匹配字元計數,因刪除此二 未壓縮關鍵字〜APPLE 〃而沒東西存在,故無設爲其餘關 鍵字。 亦即,對具有相同拼法但不同意義的字,' APPLE 〃 設爲具有相同拼法但不同意義之前一字的其餘關鍵字,有 相同拼法但不同意義之下一字的其餘關鍵字變成無。 若未壓縮關鍵字'' APPLESEED y/接著未壓縮關鍵字、 APPLE ",則未壓縮關鍵字'' APPLESEED "在前5字元匹 配前一未壓縮關鍵字'' APPLE ",因而、〇 5夕設爲對應 於未壓縮關鍵字'' APPLE 〃之壓縮關鍵字的匹配字元計數 ,從APPLESEED "刪除前5字元所導致的、、SEED "設 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -20- ----l·—----—Aw----訂---------線 —^wi (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 482965 A7 _ B7 五、發明說明(18 ) 爲其餘關鍵字。 例如,若未壓縮關鍵字'' APPLESEED 〃之後是未壓縮 關鍵字'' APPLET 〃 ,則這些關鍵字在前5字元互相匹配, 因而'' 0 5 〃設爲對應於未壓縮關鍵字'' APPLET 〃之壓縮 關鍵字的匹配字元計數,從'' APPLET 〃刪除前5字元所導 致的'' T 〃設爲其餘字元。 以下參照圖1 1 A和1 1 B說明搜索鑰與壓縮關鍵字 間的比較處理,相較於搜索鑰與未壓縮關鍵字間的比較。 使用圖1 1 A的未壓縮關鍵字來取還中,若在本文主 體資料依序安排關鍵字'' APPLE 〃、 '、APPLESEED 〃、 '' APPLET 〃,搜索鑰爲'' APPLET 〃,則資料取還裝置先比 較搜索鑰'APPLET 〃與關鍵字''APPLE 〃 。 資料取還裝置比較搜索鑰'' APPLET 〃的第一字元'' A "與未壓縮關鍵字'' APPLE 〃的第一字元'' A 〃 。因二者 匹配,故資料取還裝置再比較搜索鑰'' APPLET 〃的第二字 元'' P 〃與未壓縮關鍵字'' APPLE 〃的第二字元'' P "。 因二者匹配,故資料取還裝置接著比較搜索鑰'' APPLET 〃的第三字元'' P 〃與未壓縮關鍵字'' APPLE 〃的 第三字元'' P 〃 。因二者四配,故資料取還裝置接著比較 搜索鑰第四字元'' L 〃與未壓縮關鍵字第四字元'' L 〃 。 因二者匹配,故資料取還裝置接著比較捜索鑰'' APPLET 〃的第五字元E 〃與未壓縮關鍵字'' APPLE 〃的 第五字元'' E 〃 。因二者匹配,故資料取還裝置接著比較 搜索鑰'' APPLET 〃的第六字元'' T 〃與未壓縮關鍵字第六 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) _ 21 - ^^-----· I Aw----訂---------線 —^__w— (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 482965 A7 B7 五、發明說明(19 ) 字元。 但在未壓縮關鍵字沒有第六字元與搜索鑰第六字元'' T 〃比較,資料取還裝置判定搜索鑰' APPLET 〃不匹配未 壓縮關鍵字'v APPLE 〃 。 接著,資料取還裝置比較搜索鑰' APPLET 〃與未壓縮 關鍵字'' APPLESEED 〃 。如上,資料取還裝置從字串開頭 --比較搜索鑰 ' APPLET 〃與未壓縮關鍵字'' APPLESEED 〃。當搜索鑰'' APPLET 〃的第六字元'' T 〃 與未壓縮關鍵字APPLESEED 〃的第六字元'' S 〃比較時 ,無匹配,因而資料取還裝置判定搜索鑰'' APPLET 〃不匹 配未壓縮關鍵字''APPLESEED"。 資料取還裝置比較搜索鑰'' APPLET 〃與未壓縮關鍵字 APPLET 〃。資料取還裝置從開頭——比較搜索鑰'' APPLET "的字元與關鍵字'' APPLET 〃的字元。當資料取 還裝置比較搜索鑰'' APPLET 〃的第六字元'' T 〃與未壓縮 關鍵字、' APPLET 〃的第六字元'' T 〃比較,判定二者匹配 時,資料取還裝置判定是否二者是搜索鑰和未壓縮關鍵字 的最後字串。因二者是最後字元,故資料取還裝置判定搜 索鑰匹配未壓縮關鍵字。 以下根據壓縮關鍵字說明資料取還處理。若本文主體 資料1 1 0依序含有壓縮關鍵字'' 〇〇 APPLE " 、 ''05 SEED "、 '、05 T 且搜索鑰爲、、APPLET ",則資料取還 裝置比較搜索鑰'' APPLET 〃與壓縮關鍵字'' 〇〇 APPLE 〃 Γ—l·----· I ----^---------^ —Aw— (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -22- 經濟部智慧財產局員工消費合作社印製 482965 A7 B7 五、發明說明(20 ) 因匹配字元計數爲> 0 0 〃 ,故資料取還裝置比較搜 索鑰'' APPLET 〃的第一字元'' A 〃與壓縮關鍵字之其餘關 鍵字'' APPLE 〃的第一字元'' A 〃 。因二者匹配,故資料 取還裝置再比較搜索鑰'' APPLET 〃的第二字元v P 〃與其 餘關鍵字'' APPLE 〃的第二字元'' P 〃 。 因二者匹配,故資料取還裝置再比較搜索鑰第三字元 '' P 〃與其餘關鍵字第三字元〜P 〃 。因二者匹配,故資 料取還裝置再比較搜索鑰' APPLET 〃的第四字元' L 〃與 其餘關鍵字'APPLE 〃的第四字元V'L〃 。 因二者匹配,故資料取還裝置再比較搜索鑰' APPLET 〃的第五字元E 〃與其餘關鍵字'' APPLE 〃的第五字元 '、E。 因二者匹配,故資料取還裝置再試圖比較搜索鑰'' APPLET 〃的第六字元與其餘關鍵字'' APPLE 〃的第六字元 。但在其餘關鍵字沒有第六字元,資料取還裝置判定搜索 鑰''APPLET "不匹配壓縮關鍵字'' 00 APPLE "。 結果,資料取還裝置在前5字元儲存搜索鑰' APPLET 〃與壓縮關鍵字'' 〇〇 APPLE 〃間的匹配。 接著,資料取還裝置比較搜索鑰'' APPLET 〃與壓縮關 鍵字'' 05 SEED 〃。因資料取還裝置儲存在前5字元之搜 索鑰'' APPLET 〃與壓縮關鍵字'' 00 APPLE 〃間之最後比 較所發現的匹配,且壓縮關鍵字〜05 SEED 〃的匹配字元 計數爲'' 0 5 〃 ,故資料取還裝置比較搜索鑰'' APPLET 〃 的第六位元'' T 〃與壓縮關鍵字之其餘關鍵字〜SEED 〃的 ϋ ϋ ϋ ϋ —^· ϋ ϋ ϋ ϋ ϋ · ϋ I ϋ ϋ i H ϋ ϋ I ^1 ϋ I I ϋ (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) •23-
五、發明說明(21 ) 第—字元'、S。 因二者不匹配,故資料取還裝置判定搜索鑰、、APPLET 不匹配壓縮關鍵字、、〇5 SEED "。 結果’資料取還裝置在前5字元儲存搜索鑰、、APPLET 與壓縮關鍵字'、〇5 SEED "間的匹配。 接著,資料取還裝置比較搜索鑰、、APPLET與壓縮關 鍵子、、0 5 T 〃 。因資料取還裝置儲存在前5字元之搜 索输、、APPLET與壓縮關鍵字'、〇5 SEED "間的匹配,且 壓縮關鍵字、、〇 5 T 〃的匹配字元計數爲、、〇 5 〃 ,故 資料取還裝置比較搜索鑰、、applet 7/的第六字元、、T與 壓縮關鍵字、、T 〃的第一字元、、T 〃 。 因二者匹配,故資料取還裝置判定搜索鑰、、APPLET" 的第六字元、、T 〃和壓縮關鍵字之其餘關鍵字、' T 〃的第 一子兀、、T 〃是否是最後字元。因二者都是最後字元,故 資料取還裝置判定搜索鑰、、applet 〃匹配壓縮關鍵字 、' 0 5 T。 因此,使用壓縮關鍵字,資料取還裝置可取還對應於 被壓縮前之關鍵字的字句。利用壓縮關鍵字之本文主體資 料1 1 0的取還有時不比較包含在多個關鍵字的相同字串 ’而容許資料取還裝置減少字串間所做的比較次數,相較 於根據未壓縮關鍵字的比較。 參照圖1 2 ,以下說明存入字典R〇Μ 5 5的欄位資 訊表9 1。欄位資訊表9 1儲存代表存入本文主體資料 1 1 0之欄位1 1 1 — 1和1 1 1 — 2之最後標頭字的資 ----^— l·----· I Aw----訂---------線 —^wi (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -24- 經濟部智慧財產局員工消費合作社印製 482965 Α7 _______ Β7 五、發明說明(22 ) 料。例如,在圖1 2的例子,欄位資訊表9 1儲存資料, 代表存入欄位1 1 1 一 1的最後標頭字是Ap · pie · seed 〃(標頭字開頭字元存入欄位1 1 1 一 1 ),存入欄位 1 1 1 — 2的最後標頭字是'' Applet "。 其後’除非特別註明,欄位1 1 1 一 1和1 ]_ 1 一 2 稱爲欄位1 1 1。 參照圖1 3的流程圖,以下說明存入R〇Μ 5 2的控 制程式所指示要由C P U 5 1在本文主體資料1 1 〇上執 行的取還處理。首先,在步驟S 5 1 ,根據送自鍵操作方 塊5 4的信號,控制程式讀搜索鑰。在步驟s 5 2,控制 程式參考存入字典R ◦ Μ 5 5的欄位資訊表,識別含有對 應於搜索鑰之壓縮關鍵字的欄位1 1 1。 因識別具有預定儲存區的欄位1 1 1以搜索存入識別 欄位1 1 1的壓縮關鍵字,故相較於在本體搜索本文主體 資料1 1 0的方法,資料取還裝置可降低要比較的壓縮關 鍵字數目。 在步驟S 5 3 ,控制程式選擇在步驟S 5 2所識別之 位於欄位1 1 1之開頭的壓縮關鍵字。在步驟S 5 4,控 制程式比較搜索鑰與選擇壓縮關鍵字◦參照圖1 4的流程 圖,詳述步驟S 5 4的處理。 在步驟S 5 5,根據步驟S 5 4的處理結果,控制程 式判定搜索鑰和選擇壓縮關鍵字是否匹配。若判定爲是, 則在步驟S 5 6 ’控制從存入字典R〇Μ 5 5的本文主體 資料1 1 0讀對應於壓縮關鍵字的本文主體,令顯示控制 本紙張尺度適用中國國家標準(CNS)A4規格(210 χ 297公釐) -25 - -----l·---L----MW ίφ----訂---------線#---费丨 I, (請先閱讀背面之注意事項再填寫本頁) A7 A7
五、發明說明(23 ) $ ΰ 6在顯示面板5 7上顯示取還本文主體,處理結束。 (請先閱讀背面之注意事項再填寫本頁) 若在步驟S 5 5判定爲否,則控制程式從在步驟 S 5 7存入字典R〇M5 5的本文主體資料1 1 〇選擇下 壓’輪關鍵字,回到步驟S 5 4而重複上述比較處理。 _此’資料取還裝置根據存入本文主體資料1 1 〇的 壓縮關鍵字取還特定本文主體。 參照圖1 4的流程圖,對應於步驟S 5 4,以下說明 存入R〇Μ 5 2控制程式所指示要由C P U 5 1執行之搜 索输與選擇壓縮關鍵字間的比較處理。在步驟s 8 1 ,控 制程式從字典R 〇 Μ 5 5讀選擇壓縮關鍵字的匹配字元計 數η。 在步驟S 8 2,控制程式判定壓縮關鍵字的匹配字元 計數η是否爲〇。若匹配字元計數η不是〇,則在步驟 s 8 3,控制程式執行從搜索鑰開頭之η字元與從前一壓 縮關鍵字開頭之η字元間的比較處理。參照圖1 5將詳述 步驟S 8 3的處理。 經濟部智慧財產局員工消費合作社印製 若儲存搜索鑰與前一壓縮關鍵字的匹配字元計數,並 在步驟S 9 0和S 1 1 0於從搜索鑰開頭的η字元與從前 一壓縮關鍵字開頭的η字元間發現匹配,則跳過步驟 S 8 3 ° 在步驟S 8 4,根據步驟S 8 3的處理結果,控制程 式判定從搜索鑰開頭的η字元與從前一壓縮關鍵字開頭的 η字元間是否有匹配。若發現匹配,則控制程式在步驟 S 8 5讀搜索鑰的n + 1字兀。在步驟S 8 6 ’控制程式 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印製 A7 ' 〜_____B7___ 五、發明說明P ) Μ存入字典R〇M5 5的本文主體資料1 1 0讀入壓縮關 鍵字的其餘關鍵字第一字元。 在步驟S 8 7,控制程式判定搜索鑰的讀取字元與其 餘關鍵字的讀取字元間是否有匹配,若發現匹配,則在步 驟S 8 8控制程式判定讀取字元是否是搜索鑰和其餘關鍵 字的最後字元。 若在步驟S 8 8發現讀取字元是最後字元,則在步驟 S 8 9控制程式儲存搜索鑰與壓縮關鍵字間的匹配,處理 結束。 若在步驟S 8 4於從搜索鑰開頭的η字元與從前一壓 縮關鍵字開頭的η字元間未發現匹配,且在步驟S 8 7於 搜索鑰讀取字元與其餘關鍵字讀取字元間未發現匹配,則 在步驟S 9 0,控制程式儲存搜索鑰與壓縮關鍵字間的失 配。然後,控制程式儲存搜索鑰與壓縮關鍵字間的匹配字 元數目,處理結束。 若在步驟S 8 8發現讀取字元不是最後字元’則在步 驟S 9 1控制程式讀搜索鑰下一字元。在步驟S 9 2,控 制程式從存入字典r〇Μ 5 5的本文主體資料1 1 〇讀壓 縮關鍵字的其餘關鍵字下一字元,前進到步驟S 8 7以重 複字元比較處理。 若在步驟S 8 2發現壓縮關鍵字的匹配字元計數η爲 爲0,則不需匹配字元計數的處理,因而控制程式前進到 步驟S 8 5以執行字元比較。 因此,資料取還裝置比較搜索鑰與選擇壓縮關鍵字’ ' ^ i A___w—訂---------線 — (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -27^ 經濟部智慧財產局員工消費合作社印製 482965 A7 ------B7 五、發明說明(25 ) 儲存其間的匹配或失配。 參照圖1 5的流程圖,根據存入R〇Μ 5 2的控制程 式’以下說明在從搜索鑰開頭的k字元與壓縮關鍵字開頭 的k字元間要由c P U 5 1執行之步驟S 8 3的比較處理 。首先,在步驟S 1 〇 1 ,控制程式從字典R〇Μ 5 5讀 壓縮關鍵字的匹配字元計數m。 在步驟S 1 0 2,控制程式判定壓縮關鍵字的匹配字 元計數m是否爲〇。若判定爲否,則控制程式前進到步驟 S 1 0 3 ,比較從搜索鑰開頭的m字元與從前一壓縮關鍵 字開頭的m字元。亦即,控制程式比較從搜索鑰開頭的k 字元與從壓縮關鍵字開頭的k字元。 若儲存搜索鑰與前一壓縮關鍵字的匹配字元計數,在 步驟S 9 0和S 1 1 〇於從搜索鑰開頭的m字元與從前一 壓縮關鍵字開頭的m字元間發現匹配,則跳過步驟 s 1 0 3 ° 在步驟S 1 0 4,根據在步驟S 1 0 3執行的處理結 果,控制程式判定在從搜索鑰開頭的m字元與從前一壓縮 關鍵字開頭的m字元間是否有匹配。若發現匹配,則控制 程式前進到步驟S 1 〇 5,讀搜索鑰的m + 1字元。在步 驟S 1 0 6,控制程式從存入字典R〇Μ 5 5的本文主體 資料1 1 0讀壓縮關鍵字的其餘關鍵字第一字元。 在步驟S 1 0 7,控制程式判定搜索鑰的讀取字元是 匹配其餘關鍵字的字元。若發現匹配,控制程式前進到步 驟S 1 0 8,判定讀取字元是否爲搜索鑰和壓縮關鍵字的 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐] -28: -2—卜------1 ----訂---------線 ^ (請先閱讀背面之注意事項再填寫本頁) 482965
7 7 A B 五、發明說明(26 ) 第k字元。 ^在步驟S 1 〇 8發現讀取字元是搜索鑰和壓縮關鍵 t @第k字元,則控制程式前進到步驟s 1 0 9 ,儲存從 ^ ^输開頭的k字元與從壓縮關鍵字開頭的k字元間的匹 配,處理結束。 若在步驟S 1 〇 4於搜索鑰開頭的m字元與前一壓縮 鍵字開頭的m字元間發現匹配,在步驟s 1 〇 7於搜索 鑰的讀取字元與其餘關鍵字的字元間未發現匹配,則控制 手呈式前進到步驟S 1 〇 〇,儲存從搜索鑰開頭的k字元與 從壓縮關鍵字開頭的k字元間的失配。然後,控制程式儲 存搜索鑰與壓縮關鍵字間的匹配字元數目,處理結束。 若在步驟S 1 〇 8發現讀取字元不是搜索鑰和壓縮關 鍵字的第k字元,則控制程式前進到步驟S 1 1 1 ,讀搜 索鑰下一字元。在步驟S 1 1 2,控制程式從存入字典 R〇Μ 5 5的本文主體資料1 1 〇讀壓縮關鍵字的其餘關 鍵字下一字兀,前進到步驟S 1 0 7以重複字元比較處理 〇 若在步驟S 1 〇 2發現壓縮關鍵字的匹配字元計數m 爲0,則不需匹配字元計數的處理,因而控制程式前進到 步驟S 1 0 5,執行字元比較處理。 因此’資料取還裝置比較從搜索鑰開頭的k字元與從 壓縮關鍵字開頭的k字元,儲存代表這些k字元間是否有 匹配的結果。 參照圖1 6 ,說明存入字典R0M5 5的另一段本文 本紙張尺度適用中國國豕標準(CNS)A4規格(210 X 297公釐) -29 - (請先閱讀背面之注意事項再填寫本頁) —A___w----訂---------線· 經濟部智慧財產局員工消費合作社印製 經濟部智慧財產局員工消費合作社印製 482965 A7 __ B7 五、發明說明(27 ) 主體資料1 0 1。若未壓縮關鍵字之後是另一未壓縮關鍵 字,且這些未壓縮關鍵字的第一字串不匹配’則本文主體 資料1 ο 1的壓縮關鍵字匹配字元計數設爲、、〇 〇"。若 這些未壓縮關鍵字字串的匹配字元計數同爲1以上’則1E 縮關鍵字匹配字元計數在> 0 〃後設爲'' 1 〃 。 例如,若未壓縮關鍵字、、APPLE 〃之後是未壓縮關鍵 字、、APPLESEED 〃 ,則後者和前者在前5字元匹配’因而 ''〇1 1 1 1 1 〃設爲對應於未壓縮關鍵字'' APPLESEED 〃和'' SEED 〃之壓縮關鍵字的匹配字元計數。 本文主體資料1 0 1分成各有預定儲存區的欄位 1〇2 — 1至1〇2 — 2 。圖16的例子中,本文主體資 料1〇1分成二欄位1〇2 — 1和102 — 2 。但本文主 體資料1 0 1可分成二個以上。 因此,本文主體資料1 1 0或1 0 1的取還不需指標 。此外,由此習知少字之字元組成的壓縮關鍵字存入本文 主體資料1 1 0或1 0 1。結果,減小儲存本文主體資料 1 1 0或1 0 1的儲存區大小。例如,包含預定識別號之 約1 · 5 M b的壓縮關鍵字存入本文主體資料(儲存 60000至70000字的本文主體)。 再者,因較小的字元數,故根據壓縮關鍵字的取還處 理比習知快。 上述實施例中,字典ROM5 5用來儲存本文主體資 料1 1 0。本文主體資料1 1 0可存入磁碟6 0、光碟 6 1、磁光碟6 2、或半導體記憶體6 3。亦即’配合本 —一 —^—AW1—訂---------線 —Aw. (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -30- 482965 經濟部智慧財產局員工消費合作社印製 Α7 Β7 五、發明說明(28 ) ’發明的資訊儲存媒體由字典R〇Μ 5 5、磁碟6 0、光碟 6 1、磁光碟6 2、或半導體記憶體6 3構成。 上述實施例中,字典ROM預先儲存本文主體資料1 10。字典ROM可由EEPRO Μ構成,經由通訊方塊 64儲存本文主體資料11〇。 上述處理作業順序可由硬體和軟體執行。對軟體執行 ’使用構成此軟體的程式存入專用硬體裝置的電腦;否則 使用通用個人電腦,其中從程式儲存媒體安裝這些程式。 儲存電腦可讀或可執行程式的程式儲存媒體可爲封裝 媒體,由磁碟60 (包含軟碟)、光碟61 (包含CR - ROM和DVD)、磁光碟62 (包含MD)、或半導體 記憶體6 3、R Ο Μ 5 2 (其上暫時或永久儲存程式、或 未圖示的硬碟。程式從諸如區域網路、網際網路、數位衛 星廣播的有線或無線通訊媒體經由路由器或數據機所構成 的通訊方塊6 4存入程式儲存媒體。 注意說明程式存入程式儲存媒體的步驟不僅可以依序 執行,也可以平行或分立方式。 雖使用特定詞彙來說明本發明較佳實施例,但此說明 只是顯示之用,可做改變和變化而不脫離申請專利範圍的 精神和範疇。 本紙張尺度適用中國國家標準(CNS)A4規格mo X 297公釐) -31 - ------^—*----—Aw----^---------^ —Aw. (請先閱讀背面之注意事項再填寫本頁)

Claims (1)

  1. 482965 A8 B8 C8 ___ _ D8 六、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 1 · 一種資料壓縮方法,有效取還鑰資料以取還主資 料並壓縮要記錄在記錄媒體上之鑰資料的資料量,包括下 列步驟: 比較由第一數目字元組成的第一鑰資料與由大於第一 數目之第二數目字元組成的第二鑰資料; 根據第一鑰資料與第二鑰資料間的比較結果,偵測第 一鑰資料與第二鑰資料間的匹配字元數目,從第二鑰資料 刪除匹配第一鑰資料的字元,產生具有由從第二鑰資料刪 除匹配第一鑰資料的字元所得之失配字元和匹配字元之數 目的資料包封; 將資料包封記錄到記錄媒體。 2 ·如申請專利範圍第1項的資料壓縮方法,其中第 一鑰資料和第二鑰資料以預定排列規則位於彼此附近。 3 ·如申請專利範圍第1項的資料壓縮方法,其中記 錄媒體有多個儲存區,各有預定儲存大小,該方法另包括 下列步驟: 經濟部智慧財4局Μ工消費合作社印製 從要記錄於記錄媒體上之各儲存區的至少一資料包封 選擇一段鑰資料; 使鑰資料與各記錄區相關,將對各記錄區所選的鑰資 料記錄在記錄媒體上。 4 · 一種資料取還方法,根據輸入搜索鑰和壓縮鑰資 料’取還資料包封的主資料和壓縮鑰資料,資料包封由主 資料組成,壓縮鑰資料由從鑰資料刪除重複字元所得的失 配字元及配合主資料之鑰資料與附近鑰資料間的重複字元 本紙張尺度適用中國國家標率(CNS ) A4規格(210X297公釐)~· 32二 經濟部智慧財是局員工消費合作社印製 482965 A8 B8 C8 D8 六、申請專利範圍 數目組成,包括下列步驟: 取還鍮資料等於失配字元的資料包封; 偵測在取還步驟取還之資料包封之壓縮鑰資料的失配 字元與搜索鑰間的失配部; 若在壓縮鑰資料失配字元與搜索鑰間測到失配部,貝ij 偵測鄰近資料包封之資料包封壓縮鑰資料失配字元與偵測 失配部間的失配部。 5 ·如申請專利範圍第4項的資料取還方法,其中記 錄媒體具有各有預定儲存大小的多個儲存區和搜索多個儲 存區的多個儲存區搜索鑰,取還鑰資料等於失配字元之資 料包封的步驟另包括下列步驟: 根據搜索鑰和儲存區2,預先搜索儲存資料包封之儲 存區附近的儲存區。 6 ·如申請專利範圍第4項的資料取還方法,其中依 據預定排列規則排列記錄在記錄媒體上的資料包封。 7 · —種資料取還裝置,根據輸入搜索鑰和壓縮鑰資 料,從記錄資料包封和壓縮鑰資料的記錄媒體取還主資料 ,資料包封由主資料組成’壓縮鑰資料從鑰資料刪除重複 字元所得的失配字元及配合主資料之鑰資料與附近繪資料 間的重複字元數目組成,資料取還裝置包括: 記錄媒體存取構件’從記錄媒體讀資料包封; 取還構件,取還鑰資料等於失配字元的資料包封; 失配偵測構件’偵測預定資料包封之壓縮鑰資料之失 配字元與輸入字串間的失配字元部以比車交; (請先閱讀背面之注意事項再填寫本頁)
    本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 33 經濟部智慧財是AP、工消費合作社印製 482965 A8 B8 C8 D8 六、申請專利範圍 控制構件,控制取還構件,因而取還鑰資料等於失配 字元的資料包封,由控制失配偵測構件來偵測取還資料包 封與輸入搜索鑰間的失配部,若發現失配部,則由控制失 配偵測構件’偵測由控制記錄媒體存取構件所讀取之鄰近 取還構件所取還之資料包封的資料包封與偵測失配部的失 配部。 8 ·如申請專利範圍第7項的資料取還裝置,另包括 顯不構件,在控制構件的控制下,顯示包含在由搜索鑰取 還之資料包封的主資料。 9 ·如申請專利範圍第7項的資料取還裝置,另包括 輸入搜索鑰的輸入構件,根據從輸入構件輸入的搜索鑰, 控制構件取還資料包封。 1〇·如申請專利範圍第7項的資料取還裝置,其中 資料包封另有配合主資料的副資料,在顯示取還主資料前 ’資料取還裝置在顯示構件上顯示副資料。 1 1 ·如申請專利範圍第7項的資料取還裝置,其中 s己錄媒體具有各有預定大小以記錄至少一資料包封的多個 包封記錄區’和記錄識別資料以識別記錄在多個包封記錄 區之至少一資料包封的識別資料記錄區,識別資料配合各 包封記錄區而被記錄, 資料取還裝置另包括從識別資料記錄區讀識別資料的 識別資料存取構件, 根據輸入的搜索鑰,控制構件控制識別資料存取構件 ’開始從記錄要取還之資料包封之包封記錄區附近之包封 本紙張尺度適用中國國家標準(CNS )八4規格(21〇χ297公釐)_ 34 _ (請先閲讀背面之注意事項再填寫本頁)
    經濟部智慧財4句員工消費洽作社印製 Α8 Β8 C8 D8 六、申請專利範圍 曰己錄區的取速。 1 2 · —種資料取還裝置,根據輸入搜索鑰和壓縮鑰 貝料,記錄資料包封和壓縮鑰資料的記錄媒體取還主資 料’資料包封由主資料組成,壓縮鑰資料從鑰資料刪除重 複子元所得的失配字元及配合主資料之鑰資料與附近鑰資 料間的重複字元數目組成,資料取還裝置包括: 記錄媒體存取構件,從記錄媒體讀資料包封; 操件構件’輸入搜索鑰; 顯示構件,顯示取還主資料; 壓縮鑰資料取還構件,從讀自記錄媒體的資料包封取 還壓縮鑰資料; 第一比較構件,比較壓縮鑰資料失配字元與搜索鑰; 保持構件’根據比較構件所做的比較結果,保持壓縮 鑰資料失配字元與搜索鑰間的失配字元數目; 第二比較構件’比較保持在保持構件的字元數目與代 表壓縮字元數目的資料; 控制構件’控制第一比較構件以比較從操作構件輸入 白勺ί叟索鑰與壓縮鑰資料取還構件所取還之壓縮鑰資料的失 酉己¥ %數目’將第一比較構件比較所得之搜索鑰與壓縮鑰 «料間的失配字元數目保持在保持構件,比較相鄰資料包 封*的失配字元與要由比較構件發現失配之搜索鑰的字,串 ’在顯示構件上顯示取還的主資料。 1 3 · —種資料包封信號,具有主資料和取還字串以 取還主資料,包括: 本紙張尺度適用中國國家標率(CNS ) Α4規格(210X297公釐)_ 35 _ j—1ml—φ—訂------#14! (請先閱讀背面之注意事項再填寫本頁) 482965 A8 B8 C8 D8 六、申請專利範圍 主資料信號部; (請先閱讀背面之注意事項再填寫本頁) 在取還主資料的鑰資料與另一段主資料的鑰資料間之 匹配字元部壓縮後留下的失配信號部; 代表壓縮資料之字元數目的壓縮字元計數信號部。 1 4 ·如申請專利範圍第1 3項的資料包封信號,另 包括代表主資料內容的標頭字部。 1 5 ·如申請專利範圍第1 3項的資料包封信號,其 中當取還主資料的錄資料等於另〜主資料的鑰資料時,由 壓縮刪除失配信號部。 1 6 ·如申請專利範圍第1 3項的資料包封信號,另 包括: 代表資料包封信號開始的標頭信號; 代表標頭字信號結束的標頭字端信號; 代表主資料開始的主資料開始信號。 1 7 · —種記錄媒體,記錄具有主資料和壓縮資料以 取還主資料的資料包封,資料包封包括: 主資料; 經濟部智慧財4局员工消費合作社印製 刪除在取還主資料之取還資料與取還鄰近資料包封之 主資料之取還資料間之匹配字元後留下的失配資料; 代表因匹配結果而刪除之字元數目的壓縮字元數目。 1 8 ·如申請專利範圍第1 7項的記錄媒體,其中壓 縮用的鄰近取還資料是依據預定排列規則排在該資料包封 前的資料包封。 1 9 ·如申請專利範圍第1 7項的記錄媒體,其中資 36 本紙張尺度適用中國國家標準(CNS )八4規格(2丨0X297公釐) 482965 A8 B8 C8 D8 六、申請專利範圍 料包封另有識別主資料的標頭字。 2 0 .如申請專利範圍第1 7項的記錄媒體,另有方 塊鑰資料記錄區,記錄方塊鑰資料以取還一個以上資料包 封放在一起的方塊。 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財l^M工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)_ 37 _
TW090100964A 2000-01-25 2001-01-16 Data compression method, data retrieval method, data retrieval apparatus, recording medium, and data packet signal TW482965B (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000015617 2000-01-25
JP2001002277A JP2001282820A (ja) 2000-01-25 2001-01-10 データ圧縮方法、検索方法、検索装置、データパケット信号および記録媒体

Publications (1)

Publication Number Publication Date
TW482965B true TW482965B (en) 2002-04-11

Family

ID=26584086

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090100964A TW482965B (en) 2000-01-25 2001-01-16 Data compression method, data retrieval method, data retrieval apparatus, recording medium, and data packet signal

Country Status (6)

Country Link
US (1) US20010022792A1 (zh)
JP (1) JP2001282820A (zh)
KR (1) KR20010076315A (zh)
CN (1) CN1316707A (zh)
HK (1) HK1043411A1 (zh)
TW (1) TW482965B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096230A2 (en) * 2002-05-10 2003-11-20 Oracle International Corporation Storing and querying relational data in compressed storage format
US6857001B2 (en) 2002-06-07 2005-02-15 Network Appliance, Inc. Multiple concurrent active file systems
EP1565842A2 (en) * 2002-11-28 2005-08-24 International Business Machines Corporation Method and system for hyperlinking files
US20040187083A1 (en) * 2003-03-18 2004-09-23 Tracey Bryan D. System and method for reducing the size of wireless communications
US7386562B2 (en) * 2003-11-25 2008-06-10 Abb Technology Ag Generic product finder system and method
JP4433290B2 (ja) * 2004-05-19 2010-03-17 ソニー株式会社 コンテンツ提示装置、コンテンツ提示方法及びコンテンツ提示プログラム
CN100367278C (zh) * 2004-11-29 2008-02-06 中兴通讯股份有限公司 历史数据归档和查询装置及方法
CN100365629C (zh) * 2005-01-17 2008-01-30 佳能信息技术(北京)有限公司 网页搜索的显示方法及其客户端设备
CN100410934C (zh) * 2005-01-21 2008-08-13 林修平 使用于通讯系统中的实时数据搜寻系统
CN100403306C (zh) * 2005-03-11 2008-07-16 谢永强 实现不同平台间信息网站移植的方法
CN100405368C (zh) * 2005-03-25 2008-07-23 威盛电子股份有限公司 多国语言软件执行系统及方法
CN100354865C (zh) * 2006-02-20 2007-12-12 南京工业大学 仿人工细粒度网页信息采集方法
CN100399337C (zh) * 2006-04-29 2008-07-02 哈尔滨工业大学 一种铸件凝固时搜索孤立区的方法
CN100424699C (zh) * 2006-04-30 2008-10-08 华中科技大学 一种属性可扩展的对象文件系统
CN100465959C (zh) * 2006-05-25 2009-03-04 中国工商银行股份有限公司 本地化数据采集方法和系统
CN100401301C (zh) * 2006-05-30 2008-07-09 南京大学 基于本体学习的智能主题式网络爬虫系统构建方法
CN100392658C (zh) * 2006-05-30 2008-06-04 南京大学 基于本体的主题式网络爬虫系统构建方法
US9069547B2 (en) 2006-09-22 2015-06-30 Intel Corporation Instruction and logic for processing text strings
US9591086B2 (en) 2007-07-25 2017-03-07 Yahoo! Inc. Display of information in electronic communications
US9584343B2 (en) 2008-01-03 2017-02-28 Yahoo! Inc. Presentation of organized personal and public data using communication mediums
KR20100050072A (ko) * 2008-11-05 2010-05-13 삼성전자주식회사 데이터 압축 방법 및 이를 이용한 데이터 통신 시스템
WO2010141216A2 (en) 2009-06-02 2010-12-09 Xobni Corporation Self populating address book
KR101049699B1 (ko) * 2009-07-17 2011-07-15 (주)이스트소프트 데이터의 압축방법
US9514466B2 (en) 2009-11-16 2016-12-06 Yahoo! Inc. Collecting and presenting data including links from communications sent to or from a user
US9760866B2 (en) 2009-12-15 2017-09-12 Yahoo Holdings, Inc. Systems and methods to provide server side profile information
US8423545B2 (en) 2010-02-03 2013-04-16 Xobni Corporation Providing user input suggestions for conflicting data using rank determinations
US8924956B2 (en) * 2010-02-03 2014-12-30 Yahoo! Inc. Systems and methods to identify users using an automated learning process
US8982053B2 (en) 2010-05-27 2015-03-17 Yahoo! Inc. Presenting a new user screen in response to detection of a user motion
US9549197B2 (en) * 2010-08-16 2017-01-17 Dolby Laboratories Licensing Corporation Visual dynamic range timestamp to enhance data coherency and potential of metadata using delay information
JP5939259B2 (ja) 2011-11-04 2016-06-22 富士通株式会社 照合制御プログラム、照合制御装置および照合制御方法
KR101403356B1 (ko) * 2012-10-22 2014-06-05 (주)티베로 데이터 압축 장치, 데이터 압축 방법 및 그 방법을 위한 컴퓨터 판독 가능한 기록 매체
US20160127771A1 (en) * 2014-10-30 2016-05-05 Broadcom Corporation System and method for transporting hd video over hdmi with a reduced link rate

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058672A (en) * 1976-11-10 1977-11-15 International Telephone And Telegraph Corporation Packet-switched data communications system
US5881104A (en) * 1996-03-25 1999-03-09 Sony Corporation Voice messaging system having user-selectable data compression modes
US6618366B1 (en) * 1997-12-05 2003-09-09 The Distribution Systems Research Institute Integrated information communication system

Also Published As

Publication number Publication date
CN1316707A (zh) 2001-10-10
KR20010076315A (ko) 2001-08-11
HK1043411A1 (zh) 2002-09-13
JP2001282820A (ja) 2001-10-12
US20010022792A1 (en) 2001-09-20

Similar Documents

Publication Publication Date Title
TW482965B (en) Data compression method, data retrieval method, data retrieval apparatus, recording medium, and data packet signal
US20030004922A1 (en) System and method for data management
KR20060128202A (ko) 메타 데이터를 이용한 브라우징 방법 및 장치
AU2005225132A1 (en) File formats, methods, and computer program products for representing presentations
JPH04321183A (ja) ファイリング装置の文書登録方法
JP2006221600A (ja) データ検索装置及びデータ検索プログラム並びにデータ検索方法
US20080319982A1 (en) Method and Apparatus for Manipulating Data Files
JPH05257774A (ja) インデックス・レコード番号を圧縮・格納した情報検索装置
TW482962B (en) Method of automatic extracting for key features in digital document
CN110134651A (zh) 信息文件的处理方法、装置、电子设备和存储介质
JP2001312517A (ja) インデクス生成装置及び文書検索装置
CN113298914B (zh) 知识组块提取方法、装置、电子设备和存储介质
US20230334309A1 (en) Augmenting electronic documents to generate synthetic training data sets
JPH11161726A (ja) 電子帳票システム
JPH04313145A (ja) 情報処理機器
JP2006126883A (ja) 情報検索装置及び情報検索方法
JPH11134342A (ja) 文書検索装置および文書検索方法および文書検索プログラムを記録した記録媒体
JP4992809B2 (ja) オーディオ装置、ファイル名付与方法及びプログラム
TW494321B (en) Parametric division indexing method for image document
TWI237775B (en) Method and systems for screening Chinese address data
JP3548263B2 (ja) 文書登録方法および文書検索方法
JP5644714B2 (ja) 電子機器、表示制御方法、表示制御プログラム
JPH0237465A (ja) 情報処理システム
JP2788849B2 (ja) 連番記述によるグルーピング方法
TW490622B (en) Method for summing up repeat of string in data document

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent