TWI703459B - 用於可定址索引之搜尋系統及搜尋方法 - Google Patents

用於可定址索引之搜尋系統及搜尋方法 Download PDF

Info

Publication number
TWI703459B
TWI703459B TW108126348A TW108126348A TWI703459B TW I703459 B TWI703459 B TW I703459B TW 108126348 A TW108126348 A TW 108126348A TW 108126348 A TW108126348 A TW 108126348A TW I703459 B TWI703459 B TW I703459B
Authority
TW
Taiwan
Prior art keywords
index
search
target text
addressable
search target
Prior art date
Application number
TW108126348A
Other languages
English (en)
Other versions
TW202105204A (zh
Inventor
黃坤豐
劉智維
周政佑
余家璿
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW108126348A priority Critical patent/TWI703459B/zh
Application granted granted Critical
Publication of TWI703459B publication Critical patent/TWI703459B/zh
Publication of TW202105204A publication Critical patent/TW202105204A/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係關於一種用於可定址索引之搜尋系統及搜尋方法,以使資訊系統透過本發明之搜尋系統或搜尋方法建立可定址索引,進而利用可定址索引查詢搜尋鍵值於一個或多個搜尋目標文本中出現的所有位置,藉此大幅度地提升搜尋效率。此外,本發明可重複利用已建立之可定址索引,故不需每次搜尋都完整掃描搜尋目標文本,因此可大幅減少建立可定址索引所需時間。

Description

用於可定址索引之搜尋系統及搜尋方法
本發明係關於一種用於可定址索引之搜尋技術,詳而言之,關於一種建立可定址索引以快速查詢文本之搜尋系統及搜尋方法。
隨著5G行動網路及物聯網發展趨勢下,電信業者勢必面臨巨量資料的挑戰,因此,電信業者若無法掌握處理巨量資料的優勢,除了將失去龐大的潛在商機外,亦會在激烈的商業競爭陷入險峻困境。
過往處理查詢索引之方式主要是透過分散式或分多層索引查詢方法來提升查詢效率。例如,分散式索引查詢方法可透過將每一筆資料計算出唯一鍵值(Unique)再利用該鍵值計算同餘(Mod)演算法建構各自之索引檔,以達到將索引分散式儲存,避免集中在同一索引資料庫而導致降低搜尋效率。又例如,分多層索引查詢方法可透過將索引拆成多組文件及每一組文件再分多層文件來降低搜尋成本。惟,上述習知的分散式或分多層的查詢方法仍需基於傳統的搜尋方法,例如線性搜尋或二元搜尋等方法。
此外,查詢索引需要耗費成本,即需要耗費時間,時間越久也表示越耗費計算資源。耗費時間高低評估方式可以利用演算法時間複雜度評估,在使用習知的分散式或分多層的索引查詢方法處理查詢索引時,假設索引內可被搜尋的鍵值有n個、平均搜尋結果有m個,若使用傳統的線性搜尋方法來查詢索引,則耗費時間的演算法時間複雜度為O(n),若使用傳統的二元搜尋方法的演算法時間複雜度則是O(log2(n)+m)。
因此,需要一種使用或建立可定址索引之搜尋系統及搜尋方法,使建立可定址索引後查詢文件內容時不須用到傳統的搜尋方法,例如線性搜尋或二元搜尋等方法,而是在接收搜尋鍵值及搜尋目標文本資訊和索引鍵值定義資訊後,可直接利用可定址索引得到搜尋結果,且可重複利用已建立之可定址索引,不需每次搜尋都完整掃描搜尋目標文本,大幅減少建立可定址索引所需時間,並使演算法時間複雜度達到O(m),且大幅度地提升搜尋效率。
為達到上述及其他目的,本發明提供一種用於可定址索引之搜尋系統及搜尋方法,以使資訊系統利用可定址索引方式查詢搜尋鍵值在一個或多個搜尋目標文本中出現的所有位置。
在一實施例中,資訊系統輸入搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊至搜尋系統以執行搜尋服務,搜尋系統的搜尋服務模組至儲存系統讀取索引建立紀錄以判斷是否已建立可定址索引。在判斷搜尋目標文本未配合索引鍵值定義建立可定址索引時,搜尋系統的可定址 索引產製模組執行可定址索引產製,即透過搜尋目標文本資訊以及索引鍵值定義資訊讀取一個或多個搜尋目標文本及索引鍵值定義,以建立可定址索引及對應的索引建立紀錄。之後,該搜尋系統的可定址查詢模組係讀取已建立之可定址索引來查詢一搜尋鍵值於一個或多個搜尋目標文本中出現的所有位置,以搜集此搜尋結果,進而回傳給資訊系統。
在另一實施例中,資訊系統輸入搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊至搜尋系統做搜尋服務,該搜尋系統的搜尋服務模組讀取儲存系統中的索引建立紀錄並判斷搜尋系統已建立一可定址索引,因此,搜尋系統的可定址索引查詢模組係查詢該搜尋鍵值於搜尋目標文本中出現的所有位置,以搜集此搜尋結果,進而回傳給該資訊系統。
本發明係提供一種用於可定址索引之搜尋系統,包括:搜尋服務模組,其用於接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊,以利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄;可定址索引產製模組,於該搜尋服務模組讀取該索引建立紀錄而判斷搜尋目標文本未配合索引鍵值定義建立可定址索引時,該可定址索引產製模組利用該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄;以及可定址索引查詢模組,於該搜尋服務模組讀取該索引建立紀錄而判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,該可定址索引查詢模組使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置。
在一實施例中,該搜尋目標文本資訊包括該搜尋目標文本在一儲存系統的位置資訊,而該索引鍵值定義資訊包括該索引鍵值定義在該儲存系統的位置資訊,且該儲存系統儲存有該索引建立紀錄。
在一實施例中,該可定址索引產製模組包括:搜尋目標文本讀取元件,用於在該儲存系統中讀取該搜尋目標文本;鍵值統計元件,用於利用該索引鍵值定義對該搜尋目標讀取文件的搜尋目標文本進行分析,以產生分析及統計資料;第一索引計算元件,用於利用該鍵值統計元件的分析及統計資料,計算第一索引;第二索引計算元件,用於利用該鍵值統計元件的分析及統計結果,計算第二索引;以及索引儲存元件,用於將該第一索引及該第二索引儲存成該可定址索引以儲存於該儲存系統中,進而建立對應的索引建立紀錄。
在一實施例中,該第一索引紀錄該搜尋鍵值出現的筆數以及該搜尋鍵值於該第二索引中的起始位置;在一實施例中,該第二索引紀錄該搜尋鍵值於該搜尋目標文本中出現的位置。
在一實施例中,該可定址索引查詢模組包括:第一索引查詢元件及第二索引查詢元件,利用已建立的第一索引及已建立的第二索引來查詢該搜尋鍵值於該搜尋目標文本中出現的位置,以產生搜尋結果;以及結果暫存器,係用以儲存該搜尋結果。
在一實施例中,該可定址索引查詢模組係將該結果暫存器的搜尋結果傳送給資訊系統以供該資訊系統使用。
綜上所述,本發明所提供之用於可定址索引之搜尋系統及搜尋方法具備以下優點:
一、本發明可提供一搜尋系統建立可定址索引以及利用可定址索引查詢搜尋鍵值於一個或多個搜尋目標文本中出現的所有位置。
二、本發明利用一特殊計算方式來安排可定址索引的資料結構,使索引是可定址的搜尋資料,以大幅地提升查詢效率。
三、本發明在查詢搜尋鍵值的過程中,可重複利用已建立之可定址索引進行查詢,而不需每次查詢都完整掃描搜尋目標文本,因此可節省建立可定址索引所需的時間。
本發明亦適用於帳務資訊系統,例如用戶設備資訊、通聯明細、交易明細等。帳務資訊系統可以利用本發明可直接處理大資料文件,針對文本進行可定址索引搜尋服務以加速帳務處理效率,避免像以往須把資料存入資料庫後才能進行操作,造成資料庫成為瓶頸。
100‧‧‧資訊系統
200‧‧‧搜尋系統
210‧‧‧搜尋服務模組
220‧‧‧可定址索引產製模組
221‧‧‧搜尋目標文本讀取元件
222‧‧‧鍵值統計元件
223‧‧‧L1計算元件
224‧‧‧L2計算元件
225‧‧‧索引儲存元件
230‧‧‧可定址索引查詢模組
231‧‧‧L1查詢元件
232‧‧‧L2查詢元件
233‧‧‧結果暫存器
300‧‧‧儲存系統
310‧‧‧搜尋目標文本
320‧‧‧索引鍵值定義
330‧‧‧索引建立紀錄
340‧‧‧可定址索引
S401~S408‧‧‧步驟
第1圖係揭示本發明之用於可定址索引之搜尋系統的示意圖。
第2圖係進一步揭示本發明之用於可定址索引之搜尋系統之可定址索引產製模組的示意圖。
第3圖係進一步揭示本發明之用於可定址索引之搜尋系統之可定址索引查尋模組的示意圖。
第4圖係揭示本發明之用於可定址索引之搜尋方法的流程示意圖。
以下藉由特定的具體實施例說明本發明之實施方式,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。
須知,本說明書所附圖式所繪示之結構、比例、大小等,均僅用以配合說明書所揭示之內容,以供熟悉此技藝之人士之瞭解與閱讀,並非用以限定本發明可實施之限定條件,故不具技術上之實質意義,任何結構之修飾、比例關係之改變或大小之調整,在不影響本發明所能產生之功效及所能達成之目的下,均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。同時,本說明書中所引用之如「第一」、「第二」及「一」等之用語,亦僅為便於敘述之明瞭,而非用以限定本發明可實施之範圍,其相對關係之改變或調整,在無實質變更技術內容下,當亦視為本發明可實施之範疇。
請參考第1圖,係揭示本發明之用於可定址索引之搜尋系統200,其包括:搜尋服務模組210、可定址索引產製模組220以及可定址索引查詢模組230。
搜尋服務模組210用於接收來自資訊系統100輸入的搜尋鍵值、搜尋目標文本資訊、和索引鍵值定義資訊,並利用該搜尋目標文本資訊和該索引鍵值定義資訊向儲存系統300中的索引建立紀錄330查詢是否已建立可定址索引。若搜尋服務模組210判斷搜尋目標文本未配合索引鍵值定義建立可定址索引時,搜尋系統200可執行可定址索引產製模組220以及可定址索引查詢模組230,以令可定址索引產製模組220讀取該搜尋 目標文本和該索引鍵值定義,來建立可定址索引及產製索引建立目錄,而令可定址索引查詢模組230讀取該可定址索引以查詢該搜尋目標文本出現搜尋鍵值的位置,最後將搜尋結果回傳給資訊系統100。若搜尋服務模組210判斷搜尋目標文本已配合索引鍵值定義建立可定址索引時,執行可定址索引查詢模組230進行查詢。該搜尋目標文本資訊用以指示一或多個搜尋目標文本310在儲存系統300中的位置;該索引鍵值定義資訊用以指示索引鍵值定義320在儲存系統300中的位置;以及索引建立紀錄330用以紀錄某一搜尋目標文本310搭配索引鍵值定義320中的某一索引鍵值定義是否已經產製關於一搜尋鍵值的可定址索引,並且搜尋服務模組210可利用該搜尋目標文本資訊和該索引鍵值定義資訊向索引建立紀錄330查詢所述之紀錄。
可定址索引產製模組220可在搜尋服務模組210判斷未建立可定址索引時,利用該搜尋目標文本資訊和該索引鍵值定義資訊分別讀取一個或多個搜尋目標文本310以及索引鍵值定義320,並利用索引鍵值定義320分析該一個或多個搜尋目標文本310以產製可定址索引340。在一實施例中,索引鍵值定義320包含分析搜尋目標文本310的規則,例如:定義搜尋目標文本310中的每一行資料以逗號切割後,第二欄的所有資料皆為可被搜尋的鍵值,其中,鍵值可以是數字或文字,若為文字則經過雜湊演算法轉換為數字,但並非限於上述。
可定址索引查詢模組230可利用由搜尋服務模組210傳入的搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊向可定址索引340查詢 該搜尋鍵值於搜尋目標文本310中出現的所有位置,以將此查詢結果回傳給搜尋系統100。
請參考第2圖,其進一步揭示可定址索引產製模組220的功能模組架構圖。可定址索引產製模組220包括:搜尋目標文本讀取元件221、鍵值統計元件222、第一索引計算元件(圖式及以下簡稱為L1計算元件)223、第二索引計算元件(圖式及以下簡稱為L2計算元件)224以及索引儲存元件225。
搜尋目標文本讀取元件221用於讀取搜尋目標文本310以將讀取結果提供給鍵值統計元件222使用;鍵值統計元件222用於讀取索引鍵值定義320以分析搜尋目標文本310,並將分析結果提供給L1計算元件223和L2計算元件224使用;L1計算元件223利用鍵值統計元件222提供的該分析結果產製一第一(L1)索引並交給索引儲存元件225,並且L2計算元件224利用鍵值統計元件222提供的該分析結果產製一第二(L2)索引並交給索引儲存元件225;以及索引儲存元件225用於將L1索引和L2索引儲存成可定址索引340並且建立索引建立紀錄330於儲存系統300中。
請參考第3圖,其進一步揭示可定址索引查詢模組230的功能模組架構圖。可定址索引查詢模組230包括:第一索引查詢元件(圖式及以下簡稱為L1查詢元件)231、第二索引查詢元件(圖式及以下簡稱為L2查詢元件)232以及結果暫存器233。
L1查詢元件231用於向可定址索引340查詢L1索引中一搜尋鍵值的統計資料並提供給L2查詢元件232;L2查詢元件232用於查詢可定址索引340的L2索引以得到該搜尋鍵值於搜尋目標文本310中的位置,以 將此查詢結果傳給結果暫存器233;以及結果暫存器233用於暫存該查詢結果以提供給資訊系統100使用。
請參考第4圖,並搭配第1至3圖揭示之系統架構揭露本發明之使用或建立可定址索引之方法。
第4圖揭示之使用或建立可定址索引之方法包括以下步驟:
步驟S401:接受輸入的參數,包括搜尋鍵值及搜尋目標文本資訊和索引鍵值定義資訊,接著進至步驟S402;步驟S402:利用索引建立紀錄來判斷是否已建立可定址索引,若是進至步驟S407,若否進至步驟S403;步驟S403:分析搜尋目標文本及統計相關數值,接著進至步驟S404;步驟S404:計算L1索引,接著進至步驟S405;步驟S405:計算L2索引,接著進至步驟S406;步驟S406:儲存索引並記錄索引建立紀錄,接著進至步驟S407;步驟S407:利用可定址索引搜尋鍵值於搜尋目標文本位置,接著進至步驟S408;以及步驟S408:回傳結果供資訊系統使用。以下將分別詳述此八步驟。
在步驟S401中,搜尋服務模組210接受來自資訊系統100輸入的參數,包括:搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊。該搜尋鍵值為要查詢的目標鍵值,可以是數字或文字。在一實施例中,若該搜尋鍵值為文字,則可經過雜湊演算法將該搜尋鍵值轉換為數字。此外,該搜尋目標文本資訊指出一或多個搜尋目標文本在儲存系統300中位置的資訊,例如,可為一或多個搜尋目標文本的檔案路徑或是資料庫內的資料表名稱等,或是可寫成如“C:\fileA.txt+C:\fileB.txt”之字串。另外,索引 鍵值定義資訊指出索引鍵值定義在儲存系統300中位置的資訊,例如,可寫成如"C:\keyDef.txt"之字串。
在步驟S402中,為了節省建立可定址索引的時間,先利用搜尋服務模組210判斷是否可使用先前執行可定址索引查詢時建立的可定址索引。進一步地,搜尋服務模組210可利用步驟S401中取得的搜尋目標文本資訊和索引鍵值定義資訊,比對索引建立紀錄330,判斷是否已建立可定址索引。在判斷未建立可定址索引時,往下執行步驟S403,反之跳至步驟S407,並使用先前執行時所建立的可定址索引。
在步驟S403中,鍵值統計元件222將搜尋目標文本資訊分析出一或多個搜尋目標文本的位置資訊並依序替該一或多個搜尋目標文本編號。例如,若搜尋目標文本資訊是字串"C:\fileA.txt+C:\fileB.txt",則可以分析出"C:\fileA.txt"和"C:\fileB.txt"等搜尋目標文本位置資訊,並依序給予該些搜尋目標文本編號1和2。接著,搜尋目標讀取元件221利用該搜尋目標文本資訊讀取搜尋目標文本310以提供鍵值統計元件222使用,以及鍵值統計元件222利用索引鍵值定義資訊讀取索引鍵值定義320。此外,索引鍵值定義320紀錄有分析搜尋目標文本310的規則,例如,定義將搜尋目標文本的每一行資料以逗號切割後,第二欄的所有資料皆為可被搜尋的鍵值,該鍵值可以是數字或文字,在一實施例中,若為文字則可經過一雜湊演算法轉換為數字。接著,鍵值統計元件222根據索引鍵值定義320分析搜尋目標文本310,找出所有搜尋目標文本中出現之鍵值,並於此過程中依序紀錄在第i次找到的鍵值ki是在搜尋目標文本編號Fi的文本內位置Ai,如表一所示。
Figure 108126348-A0101-12-0011-1
接續步驟S403,鍵值統計元件222統計每個鍵值k的出現筆數countk以及各鍵值k從小到大依序累計筆數Ck,該Ck的計算方式如公式(1)所示:
Figure 108126348-A0101-12-0011-10
須知的是,後續需將每個鍵值k的出現筆數存於L1索引,因此存於L1索引的位置是經過特別設計的位置AL1,k,AL1,k的計算方式如公式(2)所示。
A L1,k =(k-1)* S L1 (2)其中,SL1係表示L1索引中,每一筆資料大小,例如:L1索引中每一筆資料大小設定為10byte,則SL1=10。
經上述計算後,鍵值統計元件222可得到每個鍵值k於搜尋目標文本的統計數值,包含每個鍵值k出現筆數countk、累計筆數Ck及寫入L1時的位置AL1,k,如表二所示。
Figure 108126348-A0101-12-0012-2
在步驟S404中,L1計算元件223將計算L1索引中的數值。因為L1索引是紀錄各鍵值於L2索引的起始位置,所以要計算L1索引就必須先計算L2索引的位置資訊AL2,i,計算方式如公式(3)所示。
A L2,i=(i-1)* S L2 (3)其中SL2表示L2索引中,每一筆資料大小。例如:L2索引中每一筆資料大小設定為10byte,則SL2=10。接著計算鍵值k於L2索引的起始位置Bk,計算方式如公式(4)所示。
Figure 108126348-A0101-12-0012-11
經上述計算後可得到L1索引數值,包含每個鍵值k寫入L1時的位置AL1,k、筆數countk及於L2索引的起始位置Bk,計算後得到之L1索引數值,如表三所示。
Figure 108126348-A0101-12-0013-3
在步驟S405中,L2計算元件224將計算L2索引中的數值。在此步驟中,L2計算元件224係將步驟S404中計算的表一內容依照鍵值大小、搜尋目標文本編號、文本內位置進行排序,得到的結果即為儲存於L2索引中的數值,如表四所示。
Figure 108126348-A0101-12-0013-4
在步驟S406中,索引儲存元件225將L1計算元件223和L2計算元件224分別計算出的L1索引數值(如表三所示)、L2索引數值(如表四 所示)各自儲存為L1索引檔和L2索引檔(圖未示),該L1索引檔與該L2索引檔為可定址索引340,其中,L1索引檔針對表三的每種鍵值k之儲存方式是在L1索引檔的AL1,k位置開始記錄countk和Bi數值;並且其中,L2索引檔針對表四的每種鍵值k之儲存方式是在L2索引檔的Bk位置連續儲存countk組(Fi,Ai)數值。索引儲存元件225接著將建立索引建立紀錄330,其紀錄內容包括搜尋目標文本資訊和索引鍵值定義資訊,以作為下次執行步驟S402時判斷的依據。
在步驟S407中,可定址查詢模組230可依照資訊系統100的要求查詢搜尋鍵值。當資訊系統100要求查詢一搜尋鍵值k時,第一索引(L1)查詢元件231先計算出搜尋鍵值k的資料筆數countk存於L1索引位置AL1,k,計算方式如公式(5)所示。
A L1,k =(k-1)* S L1 (5)其中,SL1表示L1索引檔中,每一筆資料的大小。接著,L1查詢元件231利用該AL1,k從L1索引檔的AL1,k位置讀出countk和Bk數值(如表三所示)。接著,第二索引(L2)查詢元件232從L2索引檔的Bk位置依序讀出countk組位置資訊(Fi,Ai),並將該些組位置資訊儲存至結果暫存器233,此時結果暫存器233中儲存內容可如表五所示。
Figure 108126348-A0101-12-0014-5
在步驟S408中,結果暫存器233可將其位置資訊內容回傳給資訊系統100,以將結果暫存器內容供資訊系統100讀取並使用。
據此,查找索引需要耗費成本,即需要耗費時間,時間越久也表示越耗費計算資源,其中,耗費時間高低評估方式可利用演算法時間複雜度評估。假設索引內可被搜尋的鍵值有n個、平均搜尋結果有m個,若使用傳統的搜尋方法來查找索引需耗費相當高成本,例如線性搜尋方法演算法時間複雜度O(n)、二元搜尋方法演算法時間複雜度O(log2(n)+m)。相對的,在使用本發明查找索引時,僅須通過步驟S407中運算計算公式(5)得出L1索引位置AL1,k,以及讀取L2索引中的m個結果來查詢搜尋鍵值,上述兩個動作的演算法時間複雜度分別是O(1)及O(m),因此本發明查找索引的演算法時間複雜度為O(1)+O(m),也就是O(m)。由此可知,本發明查詢索引的效率遠優於傳統的搜尋方法,尤其當平均搜尋結果數目m遠小於索引內可被搜尋的鍵值數目n時差異更顯著。
由於本發明查找索引之效率在平均搜尋結果數目m遠小於索引內可被搜尋的鍵值數目n時顯著優於傳統的搜尋方法。資訊系統需極多次從大量資料中查詢少量結果時,則利用本發明可顯著提升系統效率。資訊系統(如帳務資訊系統)利用本發明查詢帳務資料時,例如重複多次從幾億筆使用紀錄中查詢特定客戶之少量結果,將大幅提升帳務處理效率。另外,本發明可以不使用資料庫,因此可以避免像以往須把資料存入資料庫後才能進行操作,造成資料庫成為瓶頸。
上述實施例係用以例示性說明本發明之原理及其功效,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施例進行修改。因此本發明之權利保護範圍,應如後述之申請專利範圍所列。
100‧‧‧資訊系統
200‧‧‧搜尋系統
210‧‧‧搜尋服務模組
220‧‧‧可定址索引產製模組
230‧‧‧可定址索引查詢模組
300‧‧‧儲存系統
310‧‧‧搜尋目標文本
320‧‧‧索引鍵值定義
330‧‧‧索引建立紀錄
340‧‧‧可定址索引

Claims (10)

  1. 一種用於可定址索引之搜尋系統,包括:搜尋服務模組,其用於接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊,以利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄;可定址索引產製模組,於該搜尋服務模組讀取該索引建立紀錄而判斷搜尋目標文本未配合索引鍵值定義建立可定址索引時,該可定址索引產製模組利用該該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄,其中,該可定址索引產製模組包括:搜尋目標文本讀取元件,用於在一儲存系統中讀取該搜尋目標文本;鍵值統計元件,用於利用該索引鍵值定義對該搜尋目標讀取元件的搜尋目標文本進行分析,以產生分析及統計資料;第一索引計算元件,用於利用該鍵值統計元件的分析及統計資料,計算第一索引;第二索引計算元件,用於利用該鍵值統計元件的分析及統計資料,計算第二索引;以及索引儲存元件,用於將該第一索引及該第二索引儲存成該可定址索引,以儲存至該儲存系統中,進而建立對應的索引建立紀錄;以及可定址索引查詢模組,於該搜尋服務模組讀取該索引建立紀錄而判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,該可定址索引查詢模組使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置。
  2. 如申請專利範圍第1項所述之搜尋系統,其中,該搜尋目標文本資訊包括該搜尋目標文本在該儲存系統的位置資訊,而該索引鍵值定義資訊包括該索引鍵值定義在該儲存系統的位置資訊,且該儲存系統儲存有該索引建立紀錄。
  3. 一種用於可定址索引之搜尋系統,包括:搜尋服務模組,其用於接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊,以利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄;可定址索引產製模組,於該搜尋服務模組讀取該索引建立紀錄而判斷搜尋目標文本未配合索引鍵值定義建立可定址索引時,該可定址索引產製模組利用該該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄;以及可定址索引查詢模組,於該搜尋服務模組讀取該索引建立紀錄而判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,該可定址索引查詢模組使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置,其中,該搜尋目標文本資訊包括該搜尋目標文本在一儲存系統的位置資訊,而該索引鍵值定義資訊包括該索引鍵值定義在該儲存系統的位置資訊,且該儲存系統儲存有該索引建立紀錄,其中,該可定址索引查詢模組包括:利用已建立的第一索引及已建立的第二索引來查詢該搜尋鍵值於該搜尋目標文本中出現的位置以產生搜尋 結果之第一索引查詢元件及第二索引查詢元件,以及用以儲存該搜尋結果之結果暫存器。
  4. 如申請專利範圍第3項所述之搜尋系統,其中,該第一索引係紀錄該搜尋鍵值出現的筆數以及該搜尋鍵值於該第二索引中的起始位置,而該第二索引係紀錄該搜尋鍵值於該搜尋目標文本中出現的位置。
  5. 如申請專利範圍第3項所述之搜尋系統,其中,該可定址索引查詢模組係將該結果暫存器的該搜尋結果傳送至一資訊系統。
  6. 一種用於可定址索引之搜尋方法,包括:接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊;利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄,判斷搜尋目標文本是否配合索引鍵值定義建立可定址索引;於判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置;以及於判斷該搜尋目標文本未配合該索引鍵值定義建立可定址索引時,利用該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄,其中,所述建立該可定址索引及對應的索引建立紀錄包括:在一儲存系統中讀取該搜尋目標文本,以利用該索引鍵值定義對該搜尋目標文本進行分析,進而產生分析及統計資料;利用該分析及統計資料計算第一索引;利用該分析及統計資料計算第二索引;以及 將該第一索引和該第二索引儲存成該可定址索引,進而建立對應的索引建立紀錄。
  7. 如申請專利範圍第6項所述之搜尋方法,其中,該搜尋目標文本資訊包括搜尋目標文本在該儲存系統的位置資訊,而該索引鍵值定義資訊包括索引鍵值定義在該儲存系統的位置資訊。
  8. 一種用於可定址索引之搜尋方法,包括:接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊;利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄,判斷搜尋目標文本是否配合索引鍵值定義建立可定址索引;於判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置;以及於判斷該搜尋目標文本未配合該索引鍵值定義建立可定址索引時,利用該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄,其中,該搜尋目標文本資訊包括搜尋目標文本在一儲存系統的位置資訊,而該索引鍵值定義資訊包括索引鍵值定義在該儲存系統的位置資訊,其中,於判斷該搜尋目標文本未配合該索引鍵值定義建立可定址索引時,於建立可定址索引及對應的索引建立紀錄之後,使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置,進而將搜尋結果傳至一資訊系統。
  9. 一種用於可定址索引之搜尋方法,包括: 接收搜尋鍵值、搜尋目標文本資訊和索引鍵值定義資訊;利用該搜尋目標文本資訊和該索引鍵值定義資訊讀取索引建立紀錄,判斷搜尋目標文本是否配合索引鍵值定義建立可定址索引;於判斷該搜尋目標文本已配合該索引鍵值定義建立可定址索引時,使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置;以及於判斷該搜尋目標文本未配合該索引鍵值定義建立可定址索引時,利用該搜尋目標文本和該索引鍵值定義建立可定址索引及對應的索引建立紀錄,其中,該搜尋目標文本資訊包括搜尋目標文本在一儲存系統的位置資訊,而該索引鍵值定義資訊包括索引鍵值定義在該儲存系統的位置資訊,其中,所述使用已建立的可定址索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置包括:利用已建立的第一索引與已建立的第二索引查詢該搜尋鍵值於該搜尋目標文本中出現的位置,以產生搜尋結果,以及儲存該搜尋結果。
  10. 如申請專利範圍第9項所述之搜尋方法,其中,該第一索引係紀錄該搜尋鍵值出現的筆數以及該搜尋鍵值於該第二索引中的起始位置,而該第二索引係紀錄該搜尋鍵值於該搜尋目標文本中出現的位置。
TW108126348A 2019-07-25 2019-07-25 用於可定址索引之搜尋系統及搜尋方法 TWI703459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108126348A TWI703459B (zh) 2019-07-25 2019-07-25 用於可定址索引之搜尋系統及搜尋方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108126348A TWI703459B (zh) 2019-07-25 2019-07-25 用於可定址索引之搜尋系統及搜尋方法

Publications (2)

Publication Number Publication Date
TWI703459B true TWI703459B (zh) 2020-09-01
TW202105204A TW202105204A (zh) 2021-02-01

Family

ID=73644073

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108126348A TWI703459B (zh) 2019-07-25 2019-07-25 用於可定址索引之搜尋系統及搜尋方法

Country Status (1)

Country Link
TW (1) TWI703459B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345496A (zh) * 2013-06-28 2013-10-09 新浪网技术(中国)有限公司 多媒体信息检索方法和系统
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
TW201530328A (zh) * 2014-01-20 2015-08-01 Alibaba Group Services Ltd 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
TWI652584B (zh) * 2014-06-05 2019-03-01 阿里巴巴集團服務有限公司 文本資訊的匹配、業務對象的推送方法和裝置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN103365924B (zh) 2012-04-09 2016-04-06 北京大学 一种互联网信息搜索的方法、装置和终端
CN103345496A (zh) * 2013-06-28 2013-10-09 新浪网技术(中国)有限公司 多媒体信息检索方法和系统
CN103345496B (zh) 2013-06-28 2016-12-28 新浪网技术(中国)有限公司 多媒体信息检索方法和系统
TW201530328A (zh) * 2014-01-20 2015-08-01 Alibaba Group Services Ltd 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
TWI652584B (zh) * 2014-06-05 2019-03-01 阿里巴巴集團服務有限公司 文本資訊的匹配、業務對象的推送方法和裝置

Also Published As

Publication number Publication date
TW202105204A (zh) 2021-02-01

Similar Documents

Publication Publication Date Title
US20230177078A1 (en) Conversational Database Analysis
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
CN103810224B (zh) 信息持久化和查询方法及装置
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
CN109947796B (zh) 一种分布式数据库系统查询中间结果集的缓存方法
US20220391386A1 (en) Systems and Methods for Database Analysis
US12099501B2 (en) Object scriptability
US11429607B2 (en) Machine language query management for low-latency database analysis system
CN101276361A (zh) 一种显示相关关键词的方法及系统
CN105630881A (zh) 一种rdf的数据存储方法和查询方法
US11809468B2 (en) Phrase indexing
CN108763573A (zh) 一种基于机器学习的olap引擎路由方法及系统
CN103559258A (zh) 基于云计算的网页排序方法
US11200227B1 (en) Lossless switching between search grammars
US12072890B2 (en) Visualization data reuse in a data analysis system
CN108563732A (zh) 一种云网络中面向加密云数据多关键词匹配排序搜索方法
US8756246B2 (en) Method and system for caching lexical mappings for RDF data
CN116783587A (zh) 基于列表的数据搜索用数据存储
TWI703459B (zh) 用於可定址索引之搜尋系統及搜尋方法
CN102622354B (zh) 一种基于特征向量的聚合数据快速查找方法
US11989196B2 (en) Object indexing
CN116821135A (zh) 一种数据库全文检索处理方法和系统
Zhang et al. On-the-fly constraint mapping across web query interfaces
Chen et al. Composite subset measures
CN114201477B (zh) 一种注记数据库管理方法、系统、设备及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees