TWI360756B - Multidimensional data object searching using bit v - Google Patents

Multidimensional data object searching using bit v Download PDF

Info

Publication number
TWI360756B
TWI360756B TW093113244A TW93113244A TWI360756B TW I360756 B TWI360756 B TW I360756B TW 093113244 A TW093113244 A TW 093113244A TW 93113244 A TW93113244 A TW 93113244A TW I360756 B TWI360756 B TW I360756B
Authority
TW
Taiwan
Prior art keywords
interval
dimension
data
super
feature space
Prior art date
Application number
TW093113244A
Other languages
English (en)
Other versions
TW200508911A (en
Inventor
Jonathan D Goldstein
John C Platt
Christopher J Burges
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200508911A publication Critical patent/TW200508911A/zh
Application granted granted Critical
Publication of TWI360756B publication Critical patent/TWI360756B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/957Multidimensional
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

1360756 九、發明說明: 【發明所屬之技術領域】 本發明係相關於使用位元向量指標之多維的資料 搜尋。 【先前技術】 過去已提出許多識別並擷取一資料庫中儲存之多 資料物件的策略。這些策略之各個的核心為一搜尋問 其以一詢問點與該資料庫中的一組多維(MD )物件 較。舉例來說,具有多個特性(維度)之一歌曲的一 可與一資料庫中儲存的一些歌曲相比較,以尋找具有 或相似特徵的一首或數首歌曲。該搜尋之結果可能為 一或多個匹配,或該資料庫中的物件組中沒有匹配 在。這些搜尋問題通常被構成某種形式的高維搜尋, 與搜尋點於該處被映射至相同的高維特徵空間中。對 特定詢問點而言,藉由在該特徵空間中找出足夠接近 視為一匹配之搜尋點的一搜尋點而找到一匹配。更 之,這些近似匹配問題通常被構成 epsilon距離詢問 使用部分Lp度量,因而所使用的epsilon便大大地少 平均中點距離。 用於解決此問題(例如:最近鄰近、e p s i 1 ο η範圍才 的傳統詢問處理策略由於與高維度相關之内在困難而 低劣效能。當不同的匹配距離被用於不同的資料點時 些傳統詢問處理策略變得更為麻煩,其對於複雜高維 物件 媒體 題, 相比 樣本 相同 找到 的存 資料 於一 將被 特言 ,其 於該 I尋) 遭受 ,這 搜尋 5 1360756 如音訊與指紋等等而言會是一非常重要的情況。因此,對 於解決此問題之最直接的方式一線性掃瞄,典型地勝過複 雜的方式。不幸地,雖然在高維搜尋方面,較簡單的線性 掃瞄典型地較更複雜的詢問處理策略達到較佳的效能,但 線性掃瞄是一種非常消耗時間的處理。 【發明内容】 此處描述各種系統與方法,其幫助在一 M D特徵空間 中搜尋MD資料物件。依據一實施例,在搜尋之前,該MD 特徵空間中的每個維度被分為數個間隔。當收到一搜尋 點,便自每個維度選擇覆蓋該搜尋點的一單一間隔。隨後 選擇MD資料物件的一縮小集合,其僅包含重疊該選擇間 隔的該些MD資料物件。此MD資料物件的縮小集合一而 非該特徵空間中的整組M D資料物件一隨後被用於判定該 尋找點的匹配,因而大大地增加該搜尋處理的效率。 【實施方式】 大體而言,此處所說明的系統與方法與搜尋多個多維 (MD )資料物件有關,或可結合該搜尋而被加以使用,以 判定哪個或哪些MD資料物件與一已知詢問點重疊。依據 各種實施例,MD資料物件被表示為一特徵空間中的超矩 形。如果待搜尋之MD資料物件並非超矩形,該MD資料 物件首先被對映至一特徵空間中的超矩形。為了協助該超 矩形的迅速搜尋,首先將該特徵空間中的每一維度分為數 6 1360756 個預定間隔。隨後對每個維度中的每個間隔 量索引。每個位元向量索引指出該特徵空間 是否重疊與該位元向量有關之間隔。 當收到一詢問點時,自每個維度選擇重 一單一間隔。與每個被選擇間隔有關之位元 被形成「及」邏輯閘,以形成一單一結果位 該結果位元向量索引識別該特徵空間中超矩 合。隨後可使用一線性掃瞄快速地搜尋該超 合或由該縮小集合中的超矩形所近似的M D 判定該詢問點的一或多個匹配。 現在移至第1圖,該圖說明一示範性資 系統10 0的一實施例。如圖所示,該搜尋系 資料儲存1 02、一映射模組1 04、一搜尋模_ 近似器模組1 0 8以及一 M D特徵空間1 1 0。該 中包含數個資料項目112(01至011)。一第一 資料物件11 4 ( S 1至S η )與一第二類之數個 1 1 6 ( R 1至Rn )與該MD特徵空間1 1 0結合 依據一實施例,該MD特徵空間1 1 0為-操縱、儲存及/或存取MD資料點或一電腦系 中的物件的類型。依據本實施例,該MD特 的MD資料點為數值的向量。這些向量的長 特徵空間中的維度數量。這些向量中每個索 與意義可能有所變化,視該MD特徵空間的 據此實施例,該MD資料物件1 1 4與1 1 6為 建立一位元向 中的該超矩形 疊該詢問點的 向量索引共同 元向量索引。 形的一縮小集 矩形的縮小集 資料物件,以 料映射與搜尋 統1 0 0包含一 .1 0 6、一形狀 資料儲存102 類之數個MD MD資料物件 〇 -種用於映射、 統或電腦處理 徵空間11 0中 度等於該MD 引的正確形式 形式而定。依 MD資料點的 1360756 集合。該MD資料物件1 1 4與1 1 6可被定 法,其判定一 MD資料點是否為該MD資 資料點集合的一部分。依據此處的用法, 件的潛在功能或演算法操縱其類型映射至 的向量時,便稱一 MD資料物件被「連接 空間中。 習知技藝人士將瞭解可以用幾何形. MD資料點或物件。依據此幾何定義,認 向量座落於一高維空間中。MD資料物件 集合,因此可被認為是此高維空間中的形 本身而言,M D資料點或物件在此處係指 間「之中」、「之内」,或與其「相連接」。 關於在MD特徵空間1 12中搜尋,用 資料點在此係指一詢問點。如果一詢問點 料物件的資料物件點集合,則指定一 MD 詢問點。可藉由應用該MD物件的潛在功 詢問點以決定此集合成員。再者,如果一 能重疊該詢問點,便指定該MD資料物件 因此相匹配為覆蓋的一近似。此處「搜尋 詞被用於描述執行與該MD特徵空間結合 物件的匹配與重疊操作。 一般而言,可操作該搜尋模組1 06以 1 0 2中的何者資料項目1 1 2匹配一特定詢 如同以下之解釋,該搜尋模組106並未直 義為功能或演算 料物件所定義之 當定義該MD物 該MD特徵空間 至」一 MD特徵 式描述或定義該 為該MD資料點 為MD資料點的 狀或區域。就其 在一 MD特徵空 於搜尋的一 MD 為組成該MD資 資料物件重疊該 能或演算法至該 MD資料物件可 匹配該詢問點。 一特徵空間」一 之MD資料點與 判定該資料儲存 問點1 2 2。然而, 接搜尋資料儲存 1360756 1 02 料項 搜尋 md 件至 行之 實施 資料 後轉 料物 資料 或由 儲存 如磁 腦可 储存 存取 電性 信號 為一 每個 中的該資料項目1 1 2。反之,該映射模組1 〇 4先將該資 目1 1 2映射至該特徵空間1 1 〇中的M D資料物件。該 模組1 06隨後評估該詢問點與該特徵空間1 1 〇中的 費料物件以判定何者MD資料物件匹配該詢問點1 22。 依據一實施’該映射模組104直接映射該MD資料物 —第二類M D資料物件11 6。該搜尋模組1 〇 6隨後執 搜尋便與該第二類MD資料物件116有關。依據另_ ’該映射模組1 04映射該資料物件丨丨2至該第—類Μ。 物件114。在此實施例中,該形狀近似器模組1 〇 8 換或映射該第一類MD資料物件114至第二相 吼 —彌Md資
類MD 件1 1 6。該搜尋模組1 〇 6隨後執行有關該第 物件11 6及/或第一類MD資料物件丨丨4的搜尋。 依據一實施例,該資料儲存丨02包含電腦 喟取媒體 其所組成。不受限地舉例來說,依據一實施,▲_ 102為一資料庫,其具有儲存於—電腦可讀取媒資料 性或光學媒體一上的資料物件、如此處所使用的體〜 讀取媒體可為任何能儲存及/或實施資料及/或電 < 電 指令的可用媒肖,且其可被一電腦系統或電腦腦可 。電腦可讀取媒體可不b地同時包含=所 媒體。「調變過的資料信號」係指一或多個其字元1依 中的編碼資訊被設置或改變的一信號。. 疋以該 依據一實施,1玄資料儲存102中的每個資料項曰 資料範本或檔案。不112 个又限地舉例來說,依據— 資料項目112為一媒體爹 貫施, 烁體範本或檔案,如一音 g祝或視訊 9 1360756 範本或檔案。依據其他實施,該資料項目1 1 2能為其他類 型之範本或檔案。 大體而言,可操作該映射模組以映射該資料儲存中的 項目1 1 2至該特徵空間1 0 8的M D資料物件。如前所述, 該資料項目1 1 2可被映射為該第一類MD資料物件1 1 4或 一第二類M D資料物件1 1 6。然而,如以下更詳細的說明, 該映射模組 1 0 4將典型地映射資料項目1 1 2至該第一類 M D資料物件1 1 4。 該些習知技藝人士將瞭解有許多不同類型(形狀 (shape))與大小的MD資料物件。兩種常見類型的MD資 料物件為超球形 (hyper-spheres) 與超矩形 (hyper-rectangles)。其他的 MD 資料類型為超橢形 (hyper-ellipsoids)或凸多面體(polytopes),而不受任何 限制。 如以下之詳細描述,依據此處所描述之各種實施,該 第一類MD資料物件1 14為超球形,而該第二類MD資料 物件116為超矩形。本質上為了單純化之考量,此處該第 一類MD資料物件1 14係指超球形,而該第二類MD資料 物件1 1 6係指超矩形。然而,將瞭解此處所描述之各種方 法及系統也可同樣適用,其第一類MD資料物件為MD資 料物件的其他變化。 一超矩形可被定義為一 MD特徵空間中所有點的一集 合,因而每一點具有該特徵空間中每個維度的一數值,該 數值介於每個維度之一最小與最大數值之間。一超球形可 10 1360756 被定義為一 MD特徵空間中所有點的一集合,因而每個 至一固定點具有一小於或等於一臨界值的歐幾里德距離 已知該固定點為該超球形的中心。 移至第2圖,該圖說明該特徵空間1 1 0的一種一般 示範描述,其包含數個超矩形 214-222。為了簡化描述 該圖顯示一種包含2維超矩形的2維特徵空間。然而, 瞭解該特徵空間以及該處中包含的該超矩形可為任何正 維度。 如第 2圖中所示,該特徵空間 1 10具有一第一維 (diml ) 210與一第二維度(dim2 ) 2 12。如前所述,該 徵空間1 1 0中的每個維度可為一段範圍的可能數值。此 範圍之可能數值沿著每一維度而被顯示。雖然沿著第2 中的維度210與212僅顯示正整數值,將瞭解每個維度 可包含負值與浮點值。同樣地,應瞭解雖然第2圖中僅 示超矩形具有正整數值範圍,然而具有延伸至負值之數 範圍的超矩形、僅具有負值範圍之超矩形、或具有浮點 範圍之超矩形亦為可能的。 可使用許多不同的習知技術以指出該超矩形於一特 空間1 1 0中的大小與位置。第2圖說明一種可用於指出 超矩形於該特徵空間 11 0中的大小與位置的示範習知 術。特言之,該特徵空間11 0中的每個超矩形包含一識 記號(R1, R2 ...等等)以及二座標對。如圖所示,該第 座標對識別該超矩形關於該特徵空間11 0之左下角的 置,而該第二座標對表示該超矩形的右上角。舉例來說 點 化 5 應 值 度 特 段 圖 也 顯 值 值 徵 該 技 別 位 11 1360756 該特徵空間中最左下角的超矩形2 1 4被指定為111{1,1}-{ 4,2 }。此例中,R 1表示該超矩形識別記號,{ 1,1 }表示該 超矩形 214的左下角,而{4,2}表示該超矩形 214的右上 角。將瞭解該超矩形R1至R 5沿著維度一與二的屬性範圍 可由這些有序對而加以判定。 現在回到第1圖,依據一實施,該搜尋模組10 6、該 映射模組1 0 4以及該形狀近似器模組1 0 8各自包含電腦可 執行指令或由其所組成。依據一實施,這些電腦可執行指 令被儲存或實施於一或多個類型的電腦可讀取媒體中,且 由一或多個電腦處理或裝置所執行,如以下關於第7圖之 顯示與描述。 應瞭解雖然此處描述之該搜尋模組 1 0 6、該映射模組 1 0 4以及該形狀近似器模組1 0 8包含實施於一電腦可讀取 媒體中的電腦可執行指令或由其所組成,該搜尋模組 1 0 6、該映射模組1 0 4、該形狀近似器模組1 0 8以及由其所 執行的任何或所有功能或操作,可能完全或部分被實施為 一電腦裝置_的互連機器邏輯電路或電路模組。換句話 說,考量該搜尋模組1 0 6、該映射模組1 04、該形狀近似器 模組10 8與其操作及功能,可實施為硬體、軟體、韌體或 硬體、軟體及/或韌體之各種組合。 一般而言,如前所述,可操作該形狀近似器模組1 〇 8 以於該特徵空間1 1 0中映射或轉換超球形 1 1 4為超矩形 1 1 6。該形狀近似器模組1 0 8實行此映射的方式可基於被映 射或被轉換之超球形1 1 4的類型而有所改變。不受限地舉 12 1360756 形 來 得 14 矩 或 映 誤 圍 該 其 空 形 搜 形 定 6 程 的 矩 例來說,依據一實施,每個超球形1 1 4被映射至一超矩 I 1 6,其具有一種能完全涵蓋該超球形1 1 4的大小。舉例 說,一超球形1 1 4可被映射至一超矩形11 6,其維度使 若該超球形1 1 4被置於該超矩形1 1 6的中心,該超球形1 將完全地被包含於該超矩形116中。因此,將瞭解一超 形的整體大小或體積將依據被映射之超球形的整體大小 體積而定。 在一實施中,每個超矩形1 1 6將為能完整圍繞該被 射超球形114的最小可能超矩形。在一實施中,如果錯 負搜尋結果是可允許的,每個超矩形1 1 6可小於能完全 繞該被映射超球形1 14之最小可能超矩形, 應瞭解的是,雖已描述該超矩形1 1 6被超球形使用 形狀近似器模組1 0 8於該特徵空間1 1 0中所映射,依據 他實施例,可使用其他模組、系統或映射技術於該特徵 間11 0中建立該特徵空間中的超矩形1 1 6,或將該超矩 II 6映射至該特徵空間1 1 0。 一般而言,該搜尋模組1 0 6執行該特徵空間1 1 0的 尋以識別重疊一假定詢問點1 2 2的超矩形。假定該超矩 為一 MD資料物件,前文描述重疊與匹配一超矩形的 義。依據一實施,該搜尋模組106執行第3、4、5及/或 圖令說明的操作,現在將加以描述。 首先參考第3圖,此圖說明一示範操作流程,該流 包括可由該搜尋模組在搜尋該特徵空間1 1 〇之前所執行 操作3 0 0。依據一實施,一旦該特徵空間1 1 0已佈滿超 13 1360756 形1 1 0,便執行該操作3 0 0。如同以下之詳細描述,該操作 300建立在搜尋過程中使用的位元向量索引的一集合。可 於各種時間執行該操作 3 0 0。然而,典型地,每個搜尋處 理之前將不會執行該操作 300。反之,當大量超矩形 116 已被加入至該特徵空間11 0或自其被移除時,將典型地執 行該操作 3 00。舉例來說,只有在已發生關於該位元向量 索引之一特定數量的修改後才會執行該操作3 00。 如第3圖中所示,該操作流程3 0 0開始時,一分割操 作3 1 0將該特徵空間1 1 0中的每個維度分割為數個不相交 的間隔。舉例來說,如第2圖中所示,維度210與212兩 者均被分割為3種不相交的間隔。如圖所示,維度一 21 0 被分割為間隔一 224,其包含維度一 21 0中小於數值4的 所有數值;間隔二226,其包含維度一中介於數值4與8 之間的所有數值;以及間隔三 2 2 8,其包含於維度一中大 於數值8的所有數值。雖然圖中並未特別顯示,維度二以 及該特徵空間1 1 0中的任何其他維度均可以類似的方式加 以分割。 判定該間隔之起點與終點的精確方式可能有所變化, 且可能視超矩形分佈及/或超矩形大小這類事物而定。不受 限地舉例來說,依據一實施,當想要m間隔時,便在該間 隔間選擇m-1分界或間隔分隔器。舉例來說,如第2圖中 所示,三間隔需要選擇兩間隔分隔器(3 — 1 = 2 )。依據此 實施,每個維度中的第一與最後間隔在一邊是沒有邊界 的。舉例來說,如第2圖中所示,間隔一 224在一邊被數 14 1360756 值4所限制,但在其另一邊卻不受限制。類似地,間隔三 2 2 8於一邊被數值8所限制,但在另一邊卻保持不受限制。 依據一實施,選擇每個間隔分隔器的位置使得該分隔 器位於該特徵空間中該超矩形之一的數值範圍的開端或末 端(邊界)之任一者。舉例來說,如第2圖中所示,介於 該間隔一 2 2 4與間隔二2 2 6之間的分隔器2 3 0位於R 1 2 1 4 沿著維度一 2 1 0之數值範圍的末端。相似地,介於間隔二 226與間隔三228之間的分隔器232位於R2 2 1 6沿著維度 一 210之數值範圍的末端。 依據一實施,該間隔分隔器的位置由下述所決定。假 設|S|等於該特徵空間中的超矩形數量,m為所希望的間隔 數量,a/b用於表示將a除以b所得之整數值,而a%b表 示該分數a/b的餘數,而k = (2*|S|)%m。 方程式(1) FirstIDsj=j*[(2* |S|)/m]+j l<=j< = k 方程式(2) RemainingIDsj= j*[(2*|S|)/m] + k k+l<=j< = m 方程式(1)求出該前k個m分隔器[j = l至k]相對於該 最小邊界ID的IDs (其中ID = n為第η小的沿軸超矩形邊 界)並且以升冪排列。方程式(2)求出該剩餘分隔器的IDs。 舉例來說,如果FirstIDs广5,則該第一分隔器位於第五小 的沿軸超矩形邊界。在此實施中,其概念在於將幾乎相同 數量的MD資料物件分配至每個區間,因其最終將導致更 有效率的搜尋。 將方程式(1)用於第 2圖中顯示的該特徵空間以及超 矩形,可發現 k = (2*5)%3 = l。因此 FirstlDselKZMVSJ + l 15 1360756 =4。該第一分界則位於該第四矩形邊界(其中該邊界為升 冪排列)。將方程式(2)用於第2圖中顯示的該特徵空間以 及該超矩形,可發現 RemainingIDs2 = 2*[(2*5)/3] + l=7。因 此,該第二分界位产該第七矩形邊界。由於第四與第七邊 界各位於4與8,其為設置該分隔器之處。依據一實施例, 基於先前對詢問點分佈的認識而使用超矩形邊界之一受限 集合。隨後將以相同於前述之方式使用此邊界之受限集合。 在分割操作3 1 0之後,一位元向量索引建構操作3 I 2 隨後建構對應每個維度中的每個間隔之一位元向量索引。 特別地,對於每個間隔而言,所建立的一位元向量索引指 出該特徵空間1 1 0中的每個超矩形1 1 6是否重疊該間隔。 如果一超矩形116之數值範圍的全部或部分位於該間隔所 指定的數值範圍中,便認定該超矩形1 1 6重疊一間隔。舉 例來說,關於第2圖,超矩形R1 214、R4 220與R5 222 均重疊間隔一 224 ;超矩形R2 216、R4 220與R5 222均 重疊間隔二226 ;而超矩形R3 218與R5 222均重疊間隔 三224。依據一實施,每個向量位元索引包含與該特徵空 間中的超矩形相同之位元數。再者,該位元向量索引中的 每個位元與該特徵空間中的超矩形的其中之一相關聯。依 據另一實施例,位元向量可包含大於超矩形的位元數。舉 例來說,在一實施例中,當從該特徵空間移除一超矩形時, 與其相關聯的位元可被簡單地設為“ 〇 ”,而非從該位元向量 索引中被移除。 一位元向量索引中的每個位元指出與其相關聯之超矩 16 1360756 形是否重疊與該位元向量索引相關聯之該間隔。舉例來 說,數值為“ 1 ”的一位元可指出其相關聯的超矩形重疊與該 位元向量索引相關聯之該間隔,而數值為“〇”的一位元可指 出與其相關聯之超矩形並未重疊與該位元向量索引相關聯 之該間隔。舉例來說,關於第2圖,與間隔一 2 2 4相關聯 之一第一位元向量索引包含五位元數且可被表示為[1 0 0 1 1 ],其中該第一位元(1)指出R1重疊間隔一,該第二位 元(0)指出R2並未重疊間隔一,該第三位元(0)指出R3並 未重疊間隔一,該第四位元(1)指出R4重疊間隔一,而該 第五位元(1)指出R5重疊間隔一。使用此規範,與間隔二 226相關聯之位元向量索引為[01 01 1],而與間隔三228 相關聯之位元向量索引為[〇 〇 1 〇 1 ]。 現在移至第 4圖,該圖說明一詳細的示範操作流程 400,其包含可用於建構該特徵空間110之位元向量索引的 操作。將瞭解該操作流程4 0 0可用於控制該特徵空間1 1 0 中任何維度數量與任何維度間隔數量之位元向量索引的建 構。 如圖所示,於.該操作流程4 0 0開始時,一維度設置操 作4 1 0設置或預置一維度變數(dim)為數值1。該維度設置 操作 4 1 0之後,一分割維度操作 4 1 2分割該維度“維度 (dim)”為數間隔,如前所述。將被瞭解的是,由於目前將 該維度變數dim設為1,該分割維度操作4 1 2將分割該特 定特徵空間的第一維度。該分割維度操作4 1 2之後,一設 置間隔操作4 1 4設置或預置一間隔變數intvl為數值1。隨 17 1360756 後,一設置超矩形操作4 1 6設置或預置一超矩形變 為數值1。 該設置超矩形操作4 1 6之後,一設置位元操作 定該超矩形變數rect所指定之超矩形於該維度變數 指定之維度_是否重疊該間隔變數intvl所指定之 如果判定該指定超矩形於該指定維度中重疊該指定 該設置位元操作4 1 8將與該指定維度中的該指定間 聯之一位元向量索引中與該指定超矩形相關聯之一 為 1。然而,若判定該指定超矩形於該指定維度中 疊該指定間隔,則該設置位元操作4 1 8便將與該指 中的該指定間隔相關聯之一位元向量索引中與該指 形相關聯之一位元設為〇。 隨後,一增量超矩形操作 420增量該超矩 rect。一矩形數量判定操作422隨後判定該超矩形變 是否等於該特徵空間中的超矩形數量加 1。如果該 變數rect不等於該特徵空間中的超矩形數量加1, 流程4 0 0便回到該設置位元操作4 1 8。然而,如果 形變數rect等於該特徵空間的超矩形數量加1,該 程400便繼續一增量間隔操作 424,其增量該間 intvl 。 在該增量間隔操作424之後,一間隔判定操作 定該間隔變數intvl是否等於該維度變數dim所指 度中的間隔數加1。。如果該間隔變數intvl不等於 變數d im所指定之維度中的間隔數加1,該操作流 數 rect 418判 d i m所 間隔。 間隔, _隔相關 位元設 並未重 定維度 定超矩 形變數 數 rect 超矩形 該操作 該超矩 操作流 隔變數 426判 定之維 該維度 程400 18 1360756 便回到該設置超矩形操作4 1 6。然而,若該, 的確等於該維度變數dim所指定之維度中的 該操作流程便繼續一增量維度操作 4 2 8,其 數 d i m。 在該增量維度操作4 2 8之後,一維度判 定該維度變數 dim是否等於該特徵空間中 1。如果該維度變數d i m不等於該特徵空間 加1,該操作流程4 0 0便回到該分割維度操々 如果該維度變數dim的確等於該特徵空間中 1,該操作流程400便結束。 現在移至第5圖,該圖說明一示範操作 可被用於搜尋該特徵空間1 1 〇。更特言之, 該操作流程3 0 0及/或4 0 0之任一者或某些其 特徵空間11 0中的每個間隔之位元向量索引 作流程5 0 0用於搜尋該特徵空間。如圖所示 程500開始時,一接收詢問操作5 1 4接受一 後,一映射詢問操作5 1 5映射該詢問項目至 間中的一詢問點中。 在該映射詢問操作5 1 5之後,一間隔選 重疊該詢問點之每個維度中選擇一間隔。若 問點數值位於該間隔所指定的數值範圍中, 中的一間隔重疊一詢問點。隨後,一 「2 (AND ing )操作5 1 8將對應至該間隔選擇操 之間隔的所有位元向量索引形成及邏輯閘。 3隔變數intv 1 間隔數加1, 增量該維度變 定操作4 3 0'判 的維度數量加 中的維度數量 乍4 1 2。然而, 的維度數量加 流程5 0 0,其 在已依據前述 他操作建立該 後,可將該操 ,於該操作流 詢問項目。隨 該MD特徵空 擇操作5〗6自 該維度中的詢 便認定一維度 L邏輯閘」化 作5 1 6所選擇 該位元向量索 19 1360756 引的及邏輯閘化產生一單一結果位元向量索引,其指定重 疊該接收詢問點的一超矩形集合。將瞭解該結果位元向量 索引所指定之超矩形集合在多數情況中將遠小於該特徵空 間1 1 0中所有超矩形的集合。 在該及邏輯閘化操作5 1 8之後,一匹配操作5 2 0比較 該收到詢問點與每個由該結果位元向量索引中的 1 s所索 引的超矩形,以判定這些超矩形中的何者重疊該接收詢問 點。 在每個超矩形被映射自一相關 MD資料物件的情況 中,可直接地比較該收到詢問點與該MD資料物件一其與 該結果位元向量索引中的1 s所索引的該超矩形相關聯,而 非比較該收到詢問點與每個由該結果位元向量索引所指定 之超矩形。 現在移至第6圖,該圖說明另一更詳細的示範操作流 程6 0 0,其包含可用於搜尋一特徵空間1 1 0的操作。根據 該操作流程,可於已對該特徵空間11 0中的每個間隔建立 位元向量索引後執行該操作流程6 0 0,不論是依據上述之 操作流程300及/或400或藉由某些其他操作。如圖所示, 在該操作流程6 0 0開始時,一接收詢問操作6 1 0接收一詢 問點。在收到一詢問點後,一設置維度操作6 1 2設置一等 於1的維度變數dim。隨後,一判定間隔操作614判定該 維度變數dim指定之維度中包含該詢問點的一間隔。換言 之,間隔操作6 1 4判定該維度變數dim指定之維度中重疊 該詢問點的一間隔。一選擇位元向量操作6 1 6隨後選擇對 20 丄層756 應判定 在 作618 等於1 元向量 擇的位 作624 dim不 其將該 伴隨或 度變數 在 判定該 如果該 該操作 維度變 流程繼 元向量 63 0比 出之超 632隨 該操作 第 結構於 矩形相關聯的M D資料物件。 後回報所有匹配該收到詢問點 流程600結束。 間隔操作6 1 4所刿定之間隔的位元向量索引。 該選擇位元向量索引操作6 1 6之後,一維度判 判定該維度變數dim是否等於1。如果該維度 5又置結果位元向量索引操作6 2 〇設置該結 索引,其等於該選擇位元向量索引操作616中 元向量索引’而遠操作流程繼續.一維度變數增 。然而,如果該維度判定操作6丨8判定該維度 等於1該操作流程600繼續一及邏.輯閘化操作 選擇位元向量索引操作616中選擇的位元向量 併入該結果位元向量而形成及邏輯閘。隨後, 增量操作624增量該維度變數dim。 該維度變數增量操作624之後,一維度判定操七 維度變數dim是否等於該特徵空間中的維度數 維度變數dim並未等於該特徵空間中的維度數 流程600回到該判定間隔操作614。然而,如 數dim確實等於該特徵空間中的維度數量,該 續一尋找超矩形操作628,其找出對應至該社 中的每個“1,,的超矩形。隨後,一比較資料物件 較該收到詢問點與所有該尋找超矩形操作628 一回報資料物件 之MD資料物件 7圖說明可實施此虛# A a 貝 匕處描述之各種系統、方法與 其中的一操作環境7 1 〇。第7 _ + — ρ 、 1 υ矛/圖之不範操作環每 定操 變數 果位 所選 量操 變數 622, 索引 該維 626 量。 量, 果該 操作 果位 操作 所找 操作 ,且 資料 .710 21 1360756 包含一種屬於一電腦720之形式的一般目的電腦裝置,其 包含一處理單元7 2 1、一系統記憶體7 2 2與一系統匯流排 7 2 3,其操作性地將包含該系統記憶體等系統元件與該處理 單元 721相結合。可能僅有一種或超過一種的處理單元 721,因而該電腦 720之處理器包含一單一中央處理單元 (CPU ),或多處理單元,一般係指一平行處理環境。該電 腦720可為一傳統電腦、一分散式電腦,或任何其他類型 的電腦。 該系統匯流排7 2 3可為數種類型之匯流排架構的任一 種,其包含一記憶體匯流排或記憶體控制器、一週邊匯流 排、以及使用數種匯流排結構之任一種的一區域匯流排。 亦可簡單地將該系統記憶體稱為記憶體,且其包含唯讀記 憶體(ROM ) 724與隨機存取記憶體(RAM )(未圖示)。 儲存於ROM 724中的一基本輸入/輸出系統(BIOS ) 726 含有該基本常式,其協助在該電腦720之元件間傳遞資 訊,例如在開機時。該電腦720更包含一未顯示於圖中的 硬碟機727以供讀寫一硬碟、一磁碟機728以供讀寫一可 移除磁碟729、以及一光碟機730以供讀寫一可移除光碟 73 1如一 CD ROM或其他光媒體。 一硬碟機介面732、一磁碟機介面733以及一光碟機 介面734分別將該硬碟機727、磁碟機728以及光碟機730 連接至該系統匯流排723。這些機器與其相關聯之電腦可 讀取媒體提供該電腦 720非依電性地儲存電腦可讀取指 令、資料結構、程式模組以及其他資料。習知技藝人士將 22 1360756 瞭解一電腦能存取可用於該示範操作環境令可儲存資料之 任何類型的電腦可讀取媒體,如磁帶、快閃記憶卡、數位 影像光碟、白努利卡帶(Bernoulli cartridges)、隨機存取 記憶體(RAMs )、唯讀記憶體(ROMs )等等。 許多程式模組可被儲存於該硬碟、磁碟 729、光碟 73 1、ROM 724、或RAM (未圖示)上,包括一作業系統 735、一或多個應用程式736、其他程式模組737以及程式 資料73 8。一使用者可透過輸入裝置如一鍵盤740與指標 裝置742輸入指令與資訊至該電腦720中。其他輸入裝置 (未顯示)可包含一麥克風、搖桿、遊戲控制器、衛星碟 盤、掃描器等等。這些與其他輸入裝置通常透過一種連接 至該系統匯流排的串列埠介面 746被連接至該處理單元 721,但亦可由其他介面所連接,如一平行埠、遊戲埠、或 一萬用串列埠(USB)。一螢幕747或其他類型的顯示裝置 也透過一介面如一視訊配接卡而被連接至該系統匯流排 723。除了該螢幕之外,電腦典型地包含其他週邊輸出裝置 (未顯示),如味j Π八及印表機。 該電腦720可使用邏輯連線至一或多個遠端電腦如遠 端電腦749而於一網路環境中作業。可由一種連接至該電 腦7 20或其部分之通訊裝置或以其他方式而達成這些邏輯 連線。該遠端電腦749可為另一電腦、一伺服器、一路由 器、一網路P C、一客戶端、一點裝置或其他共同網路節點, 且典型地包含前述關於該電腦720之許多或所有元件,儘 管在第7圖中僅說明一記憶體儲存裝置750。第7圖中描 23 1360756 繪之邏輯連線包含一區域網路(LAN) 751與一廣域 (WAB ) 752。此網路環境常見於辦公室網路、整體 電腦網路、内部網路以及網際網路,其為所有網路類^ 當用於一 LAN網路環境中時,該電腦720透過一 介面或配接卡 75 3 —其為一種通訊裝置一被連接至該 網路751。當用於一 WAN網路環境中時,該電腦720 地包含一數據機 754— —種通訊裝置一或任何其他類 通訊裝置以於該廣域網路752上建立連線。該數據機 可為内接式或外接式,且透過該串列埠介面746被連 該系統匯流排 7 2 3。在一網路環境中,關於該個人電 描繪之程式模組72 0或其部分可被儲存於該遠端記憶 存裝置中。將瞭解圖中所示之網路連線僅為示範性質 可使用其他通訊裝置或其方法以建立一通訊連結。 可使用已提出之各種系統與方法於各種搜尋方法 與其結合,該搜尋方法使用超矩形以及位元向量索引 將該系統、方法與資料結構描述為結合該附加申請專 圍中敘述之各種元件與操作。然而,應瞭解前面的描 非有意限制此專利之範圍。反之,該發明者已考慮到 請專利範圍之系統、方法與資料結構也可以其他方式 實施,以包含不同的操作或元件、或類似於前述之操 元件之組合,並結合其他目前或未來科技。 網路 企業 〇 網路 區域 典型 型之 754 接至 腦所 體儲 ,亦 中或 。已 利範 述並 該申 力口以 作或 24 1360756 【圖式簡單說明】 第1圖說明一示範資料映射與搜尋系統。 第2圖說明第1圖之資料映射與搜尋系統的一示範特 徵空間。 第3圖為一示範操作流程圖,其說明能被執行以準備 搜尋第2圖之特徵空間的各種操作。 第4圖為另一示範操作流程圖,其說明能被執行以準 備搜尋第2圖之特徵空間的各種操作。 第5圖為一示範操作流程圖,其說明在搜尋第2圖之 特徵空間時可被執行之各種操作。 第6圖為另一示範操作流程圖,其說明在搜尋第2圖 之特徵空間時可被執行之各種操作。 第7圖說明可實施第1圖之資料映射與搜尋系統以及 第4 - 6圖之操作流程中的一電腦系統的一實施例。 【元件代表符號簡單說明】 100搜尋系統 102資料儲存 1 0 4映像模組 I 0 6搜尋模組 108形狀近似器模組 II 0 M D特徵空間 11 2資料項目 114,11 6 MD資料物件 25 1360756 122詢問點 2 1 0 , 2 1 2 維度 214-222超矩形 224, 226, 228 間隔 230, 232分隔器 3 00操作 400, 500,600操作流程 3 1 0分割操作 3 1 2位元向量索引建構操作 4 1 0, 6 1 2維度設置操作 4 1 2分割維度操作 4 1 4設置間隔操作 4 1 6設置超矩形操作 4 1 8設置位元操作 420增量超矩形操作 4 2 2矩形數量判定操作 424增量間隔操作 426, 61 4間隔判定操作 428增量維度操作 430, 6 1 8, 626維度判定操作 5 1 4接收詢問操作 5 1 5映射詢問操作 5 1 6間隔選擇操作 26 4 41360756 5 1 8, 622及邏輯閘化(ANDing )操作 5 2 0匹配操作 6 1 0接收詢問操作 616選擇位元向量操作 620設置結果位元向量索引操作 624維度變數增量操作 6 2 8尋找超矩形操作 6 3 0比較資料物件操作6 3 2回報資料物件操作7 1 0操作環 境 720電腦 721處理單元 722系統記憶體 7 2 3系統匯流排 * 7 24唯讀記憶體(ROM ) 726基本輸入/輸出系統(BIOS ) 727硬碟機 7 2 8磁碟機 729磁碟 730光碟機 73 1光碟 7 3 2硬碟機介面 733磁碟機介面 7 3 4光碟機介面 27 1360756 735作業系統 736應用程式 7 3 7程式模組 7 3 8程式資料 740鍵盤 742指標裝置 746串列埠介 747螢幕 7 4 8視訊配接 749遠端電腦 7 5 1 區域網路 752廣域網路 7 5 3網路介面 7 5 4數據機 面 卡 (LAN ) (WAN ) 28

Claims (1)

1360756 M'5. 24- 年月日修正本 十、申請專利範圍: 1. 一種由一計算裝置執行之資料映射方法,包含以下步 驟: 將一多維(MD )特徵空間中的每個維度分割為多 個間隔; 於每個維度中識別重疊一詢問點的一間隔; 尋找一或多個連接該特徵空間且匹配所有該識別 間隔的MD資料物件;及 評估匹配所有該識別間隔的一第一 MD資料物件 以判定該第一 MD資料物件是否重疊該詢問點, 其中該尋找之步驟包含以下步驟: 對於每個間隔而言,形成一相關聯之資料結構,其 指出匹配該間隔之MD資料物件;及 處理每個與該些識別間隔之一識別間隔相關聯之 資料結構以建立M D資料物件之一集合,該集合中的每 個MD資料物件匹配該每個識別間隔。 2. 如申請專利範圍第1項所述之方法,其中每個資料結構 至少包含一位元向量索引。 3 .如申請專利範圍第2項所述之方法,其中每個位元向量 索引至少包含多個位元,且其中一位元向量中的每個位 29 1360756 元對應一單一 MD資料物件。 4.如申請專利範圍第3項所述之方法,其中每個MD資料 物件分別與一超矩形相關聯,且其中在每一位元向量索 引中的每個位元指出與其對應之MD資料物件相關聯 之該超矩形是否重疊該對應之 MD資料物件所匹配之 間隔。 5 .如申請專利範圍第2項所述之方法,其中該處理動作至 少包含將與所有識別間隔關聯之位元向量索引形成「及 邏輯閘」。 6. —種具有電腦可執行指令之電腦可讀取媒體,用以執行 至少下列動作: 將一多維(MD )特徵空間中的多個維度之每個分 割為多個間隔; 對於每個間隔形成一相關聯之資料結構,其指出連 接至該MD特徵空間之多個MD資料物件之何者分別匹 配該些間隔之一; 接收一詢問點並於每個維度中選擇被該詢問點所 重疊之一間隔; 處理每個分別與該些選擇間隔相關聯之資料結構 以判定MD資料物件之一集合;及 30 1360756 判定與該詢問點重疊之MD資料物件的一子集合。 7.如申請專利範圍第6項所述之電腦可讀取媒體,其中每 個資料結構至少包含一位元向量索引。 8 .如申請專利範圍第7項所述之電腦可讀取媒體,其中該 處理動作至少包含將所有位元向量索引形成及邏輯閘 以判定MD資料物件之集合。 9.如申請專利範圍第7項所述之電腦可讀取媒體,其中每 個位元向量索引具有多個位元,且一位元向量中的每個 位元對應於連接該MD特徵空間的一 MD資料物件。 1 〇.如申請專利範圍第7項所述之電腦可讀取媒體,其中每 個位元向量索引具有多個位元,一位元向量中的每個位 元對應一單一超矩形且指出該對應超矩形是否與該資 料結構相關聯之間隔重疊。 1 1 .如申請專利範圍第6項所述之電腦可讀取媒體,其中該 分割動作至少包含將每個維度分割為數値不相交的間 隔。 1 2 ·如申請專利範圍第6項所述之電腦可讀取媒體,其中至 31 1360756 少一間隔被兩間隔分隔器劃定邊界。 1 3 .如申請專利範圍第6項所述之電腦可讀取媒體,其中至 少一間隔在沿著一維度之一方向上是無邊界的。 14.如申請專利範圍第6項所述之電腦可讀取媒體,其中多 個維度之一第一維度的至少一間隔被一間隔分隔器劃 定邊界,且其中依據FirstIDsj=j*[(2* |S|)/m]+j選擇該至 少一間隔分隔器,其中FirstIDsj表示該至少一間隔分 隔器沿著該第一維度之位置,m為間隔分隔器沿著該第 一維度的一選擇數字,l$jS(2sf:|S|)%m,且|S|等於連接 至該MD特徵空間的一超矩形數量。 1 5 ·如申請專利範圍第6項所述之電腦可讀取媒體,其中多 個維度之一第一維度的至少一間隔被一間隔分隔器劃 定邊界,且其中依據 RemainingIDsj= j*[(2*|S|)/m] + (2* |S| )%m 選擇該至少一間隔分隔器,其中 RemainingIDsj表示該間隔分隔器沿著該第一維度之位 置,m為間隔分隔器沿著該第一維度的一選擇數字, (2* |S|)%m+l S j S m,且|S|等於連接至該MD特徵空間的 一超矩形數量。 1 6 . —種系統,包含: 32 1360756 用於將一多維(M D )特徵空間中的多個維度之每個維 度分割為多個間隔的構件; 對於每個間隔而言,用於形成一相關聯之資料結構的 構件,該相關聯之資料結構指出耦合至該MD特徵空間之 多個MD資料物件中匹配該間隔之MD資料物件,其中用 於形成一相關聯之資料結構的構件形成每一資料結構以包 含一位元向量索引,且其中每一位元向量索引具有多個位 元,一位元向量中的每一位元對應一單一超矩形,並指示 對應的超矩形是否與和該資料結構相關聯之間隔重疊; 用於接收一詢問點及在每一維度中選擇被該詢問點重 疊之一間隔的構件; 用於處理每個與一選擇間隔相關聯之資料結構以建立 MD資料物件之一集合的構件;及 用於決定與該詢問點重疊之該等MD資料物件之一子 集合的構件。 1 7.如申請專利範圍第1 6項所述之系統,其中該用於分割 的構件執行將所有位元向量索引形成及邏輯閘以判定MD 資料物件之集合的一邏輯函數。 1 8.如申請專利範圍第1 6項所述之系統,其中每個位元向 量索引具有多個位元,且一位元向量中的每個位元對應於 連接該MD特徵空間的一 MD資料物件。 33 1360756 19 的 20 被 2 1 在 22 中 器 度 字 超 23 中 少 沿 .如申請專利範圍第1 6項所述之系統,其中該用於分 構件將每個維度分割為數個不相交的間隔。 .如申請專利範圍第1 6項所述之系統,其中至少一間 兩間隔分隔器劃定邊界。 .如申請專利範圍第1 6項所述之系統,其中至少一間 沿著一維度之一方向上是無邊界的。 •如申請專利範圍第1 6項所述之系統,其中多個維度 第一維度的至少一間隔被一間隔分隔器劃定邊界,且 依據 FirstIDsj=j*[(2*|S|)/m]+j選擇該至少一間隔分 ,其中First IDs』表示該至少一間隔分隔器沿著該第一 之位置,m為間隔分隔器沿著該第一維度的一選擇 ,1 S j S (2* |S|)%m,且|S|等於連接至該MD特徵空間的 矩形數量。 .如申請專利範圍第1 6項所述之系統,其中多個維度 第一維度的至少一間隔被一間隔分隔器劃定邊界,且 依據 RemainingIDsj= j*[(2*|S|)/m]+ (2*|S|)%m 選擇該 一間隔分隔器,其中 RemainingIDsj表示該間隔分隔 著該第一維度之位置,m為間隔分隔器沿著該第一維 割 隔 隔 之 其 隔 維 數 之 其 至 器 度 34 1360756 的一選擇數字,(2* |S|)%m+l S j S m,且|S|等於連接至該MD 特徵空間的一超矩形數量。 24.—種搜尋模組,包含: 一分割器,用於將一多維(M D )特徵空間中的多個維 度之每個維度分割為多個間隔,其中該MD特徵空間係耦 合至多個MD資料物件,每一 MD資料物件與一資料儲存 器中之一資料項目相關聯,其中一超矩形係與每一 MD資 抖物件相關聯,且其中一位元向量索引中的每一位元指示 與其對應之超矩形是否與該對應間隔重疊; 一輸入,用於接收一詢問點; 一間隔尋找器,用於在每一維度中選擇被該詢問點重 疊之一間隔; 一子集合尋找器,用於決定與該詢問點重疊之該等 MD資料物件之一子集合;及 一資料項目尋找器,用於根據該詢問點及決定之MD 資料物件之子集合來選擇一資料項目。 35
TW093113244A 2003-06-23 2004-05-11 Multidimensional data object searching using bit v TWI360756B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/602,438 US6941315B2 (en) 2003-06-23 2003-06-23 Multidimensional data object searching using bit vector indices

Publications (2)

Publication Number Publication Date
TW200508911A TW200508911A (en) 2005-03-01
TWI360756B true TWI360756B (en) 2012-03-21

Family

ID=33518093

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093113244A TWI360756B (en) 2003-06-23 2004-05-11 Multidimensional data object searching using bit v

Country Status (7)

Country Link
US (3) US6941315B2 (zh)
EP (1) EP1629397A4 (zh)
JP (1) JP4516071B2 (zh)
KR (1) KR101015324B1 (zh)
CN (1) CN1809826A (zh)
TW (1) TWI360756B (zh)
WO (1) WO2005002243A2 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US20080015870A1 (en) * 2003-05-30 2008-01-17 Lawrence Benjamin Elowitz Apparatus and method for facilitating a search for gems
US7831615B2 (en) * 2003-10-17 2010-11-09 Sas Institute Inc. Computer-implemented multidimensional database processing method and system
US20070198494A1 (en) * 2005-07-08 2007-08-23 Vadon Mark C Apparatus and method for facilitating a search for sets of gems
US8271521B2 (en) * 2006-03-20 2012-09-18 Blue Nile, Inc. Computerized search technique, such as an internet-based gemstone search technique
US20070239675A1 (en) * 2006-03-29 2007-10-11 Microsoft Corporation Web search media service
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
US20080263010A1 (en) * 2006-12-12 2008-10-23 Microsoft Corporation Techniques to selectively access meeting content
CN101861579A (zh) * 2007-11-17 2010-10-13 潘世爵 后续地联络人际关系的装置、方法及系统
US8688723B2 (en) * 2007-12-21 2014-04-01 Hewlett-Packard Development Company, L.P. Methods and apparatus using range queries for multi-dimensional data in a database
US8024288B2 (en) * 2008-08-27 2011-09-20 Oracle International Corporation Block compression using a value-bit format for storing block-cell values
US8055687B2 (en) * 2009-01-20 2011-11-08 Hewlett-Packard Development Company, L.P. System and method for determining intervals of a space filling curve in a query box
US8738354B2 (en) * 2009-06-19 2014-05-27 Microsoft Corporation Trans-lingual representation of text documents
US8229716B2 (en) * 2010-01-05 2012-07-24 The United States Of America As Represented By The Secretary Of The Navy Fast tracking methods and systems for air traffic modeling using a Monotonic Lagrangian Grid
CN102255788B (zh) * 2010-05-19 2014-08-20 北京启明星辰信息技术股份有限公司 报文分类决策构建系统及方法、报文分类系统及方法
CN101866358B (zh) * 2010-06-12 2012-09-05 中国科学院计算技术研究所 一种多维区间查询方法及系统
US20120102453A1 (en) * 2010-10-21 2012-04-26 Microsoft Corporation Multi-dimensional objects
US8676801B2 (en) 2011-08-29 2014-03-18 Sas Institute Inc. Computer-implemented systems and methods for processing a multi-dimensional data structure
JP2014006613A (ja) * 2012-06-22 2014-01-16 Dainippon Screen Mfg Co Ltd 近傍探索方法および類似画像探索方法
CN103049296B (zh) * 2012-12-28 2016-01-20 北界创想(北京)软件有限公司 为下载设备自动匹配目标应用的方法和装置
US9298757B1 (en) * 2013-03-13 2016-03-29 International Business Machines Corporation Determining similarity of linguistic objects
CN104935504B (zh) * 2014-03-17 2018-05-22 中国移动通信集团河北有限公司 一种确定数据包对应的数据规则的方法及装置
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
JP6638484B2 (ja) * 2016-03-10 2020-01-29 富士通株式会社 情報処理装置、類似検索プログラム、及び類似検索方法
US10650012B1 (en) * 2016-07-13 2020-05-12 United States Of America As Represented By Secretary Of The Navy Multi-dimensional range-index searching using search box approximation and splitting
CN107992503B (zh) * 2016-10-26 2022-05-24 微软技术许可有限责任公司 数据分析中的查询处理
JP6666312B2 (ja) 2017-08-03 2020-03-13 株式会社日立製作所 多次元データ管理システム及び多次元データ管理方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1647992A (en) * 1923-10-08 1927-11-08 Walter F Stimpson Adjustable leveling foot for scale bases
US1690408A (en) * 1926-10-25 1928-11-06 Champion Hardware Company Hasp
US2583806A (en) * 1950-11-08 1952-01-29 Joseph H Batzle Garment carrying rack for automobiles
JPS4823376Y1 (zh) * 1969-10-04 1973-07-07
US3912315A (en) * 1972-12-13 1975-10-14 Aisin Seiki Door latch device
DE8715925U1 (de) * 1987-12-02 1988-02-11 Kiekert AG, 42579 Heiligenhaus Kraftfahrzeugtürverschluß mit Schließkeil und Schloß
US5499360A (en) * 1994-02-28 1996-03-12 Panasonic Technolgies, Inc. Method for proximity searching with range testing and range adjustment
US5761652A (en) * 1996-03-20 1998-06-02 International Business Machines Corporation Constructing balanced multidimensional range-based bitmap indices
US5781906A (en) * 1996-06-06 1998-07-14 International Business Machines Corporation System and method for construction of a data structure for indexing multidimensional objects
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
US6122628A (en) * 1997-10-31 2000-09-19 International Business Machines Corporation Multidimensional data clustering and dimension reduction for indexing and searching
US6490532B1 (en) * 1999-01-25 2002-12-03 Mount Sinai Hospital Method to construct protein structures
US6871201B2 (en) * 2001-07-31 2005-03-22 International Business Machines Corporation Method for building space-splitting decision tree
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
JP2003330943A (ja) * 2002-05-17 2003-11-21 Fujitsu Ltd 多次元インデクス生成装置、多次元インデクス生成方法、近似情報作成装置、近似情報作成方法、及び検索装置
US6928445B2 (en) * 2002-06-25 2005-08-09 International Business Machines Corporation Cost conversant classification of objects

Also Published As

Publication number Publication date
US7325001B2 (en) 2008-01-29
WO2005002243A3 (en) 2005-06-30
EP1629397A4 (en) 2012-03-21
CN1809826A (zh) 2006-07-26
KR20060033733A (ko) 2006-04-19
US6941315B2 (en) 2005-09-06
JP4516071B2 (ja) 2010-08-04
JP2007521565A (ja) 2007-08-02
TW200508911A (en) 2005-03-01
WO2005002243A2 (en) 2005-01-06
US7430567B2 (en) 2008-09-30
US20050171972A1 (en) 2005-08-04
EP1629397A2 (en) 2006-03-01
KR101015324B1 (ko) 2011-02-15
US20040260727A1 (en) 2004-12-23
US20060041541A1 (en) 2006-02-23

Similar Documents

Publication Publication Date Title
TWI360756B (en) Multidimensional data object searching using bit v
JP5463415B2 (ja) 準複製画像検索のための方法およびシステム
Gordo et al. Asymmetric distances for binary embeddings
KR100353798B1 (ko) 영상 객체 모양 정보 추출 방법 및 그를 이용한 내용기반 이미지 검색 시스템 및 그 방법
US7966327B2 (en) Similarity search system with compact data structures
US9053386B2 (en) Method and apparatus of identifying similar images
Shashank et al. Private content based image retrieval
EP3767483B1 (en) Method, device, system, and server for image retrieval, and storage medium
AU2012202352A1 (en) Method, system and apparatus for determining a hash code representing a portion of an image
US20070005556A1 (en) Probabilistic techniques for detecting duplicate tuples
US10289702B2 (en) Image retrieval method
US20020059206A1 (en) Method for searching multimedia using progressive histogram
JP2014048989A (ja) BoF表現生成装置及びBoF表現生成方法
US20230343094A1 (en) Video Group Classification Using Object Tracker
CN114691940A (zh) 索引构建方法、装置、向量搜索方法及检索系统
JP2010250634A (ja) 画像サーバー、画像検索システム、画像検索方法およびインデックス作成方法
Aiger et al. Yes, we CANN: Constrained Approximate Nearest Neighbors for local feature-based visual localization
KR20060030085A (ko) 벡터 표현으로 변형된 도미넌트 컬러 기술자를 사용한멀티미디어 데이터베이스의 인덱싱 및 검색 방법
US11500937B1 (en) Data retrieval system
Kiranyaz et al. Perceptual Color Descriptors
US20240152510A1 (en) Content extraction using related entity group metadata from reference objects
JP2010250633A (ja) 画像サーバー、画像検索システム、画像検索方法およびインデックス作成方法
CN114791966A (zh) 索引构建方法、装置、向量搜索方法及检索系统
CN114722244A (zh) 索引构建方法、装置、数据系统及搜索方法
Chan et al. Content-based image retrieval using regional representation

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees