TWI696081B

TWI696081B - 樣本集的處理方法及裝置、樣本的查詢方法及裝置

Info

Publication number: TWI696081B
Application number: TW107143437A
Authority: TW
Inventors: 楊文
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-01-08
Filing date: 2018-12-04
Publication date: 2020-06-11
Also published as: CN108241745B; US20200278953A1; US10896164B2; WO2019134567A1; CN108241745A; EP3709184A1; TW201931169A; EP3709184A4; EP3709184B1

Abstract

本說明書實施例提供對樣本集進行分類處理、索引處理的方法和裝置，以及查詢相似樣本的方法和裝置。在分類處理中，對樣本集中的樣本進行兩級聚類，將聚類結果記錄在第一向量表和第二向量表中。在索引處理中，為樣本集中的每個樣本建立兩級索引，第一級索引指向該樣本所屬於的粗聚類中心，第二級索引指向該樣本的分段向量所對應的分段聚類中心。在查詢相似樣本過程中，對查詢樣本進行兩級檢索。第一級檢索，從分類處理的第一向量表中確定與查詢樣本距離較近的粗聚類中心，並獲取歸屬於這些粗聚類中心的對比樣本。第二級檢索，將距離滿足預定條件的對比樣本作為相似樣本。如此，實現樣本的快速檢索和查詢。

Description

樣本集的處理方法及裝置、樣本的查詢方法及裝置

本說明書一個或多個實施例涉及電腦技術領域，尤其涉及樣本集的預處理，和樣本的查詢方法及裝置。

隨著網際網路的升級，人們越來越多地利用網際網路進行更多的搜尋、查詢作業。比如，人們已經非常習慣使用各種搜尋引擎來搜尋感興趣的內容。同時，人們搜尋和查詢的對象也越來越複雜，例如，由搜尋文本關鍵詞，逐漸發展為搜尋圖片，搜尋音樂等。隨著搜尋和查詢對象變得更加複雜，搜尋的難度指數級增加。首先，複雜的對象通常需要用高維向量來表徵。因此在進行搜尋的過程中，通常需要比對諸多高維向量之間的距離或相似度。另一態樣，在大數據時代下，網路上的數據呈爆炸式增長的趨勢。當待檢索的樣本庫中存在巨量數據時，如果採用暴力搜尋，針對每一樣本進行高維向量的運算，計算量非常大，導致查詢時間太長，從而難以滿足用戶需求。因此，需要更有效的方式，對複雜對象進行相似性搜尋。

本說明書一個或多個實施例描述了一種方法和裝置，預先對樣本集中的樣本進行兩個層級的聚類並建立兩個層級的索引，在樣本查詢過程中，通過兩個層級的檢索，快速地查詢出相似樣本。根據第一態樣，提供了一種對樣本集進行分類處理的方法，包括：通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心，並在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心，並在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量。根據第二態樣，提供一種為樣本集建立索引表的方法，包括：獲取根據第一態樣的第一向量表和第二向量表；獲取所述樣本集中任意樣本的特徵向量V；從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的類簇標識作為第二索引數據；分別將所述第一索引數據和第二索引數據添加到索引表的第一索引字段和第二索引字段中。根據第三態樣，提供了一種查詢相似樣本的方法，包括：獲取查詢樣本的特徵向量T；獲取根據第一態樣的第一向量表和第二向量表；獲取第二態樣所述的索引表；從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量T的距離滿足第一預定條件的中心向量，將該中心向量所對應的類簇作為選定類簇；根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本；確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離；將所述樣本距離滿足第二預定條件的樣本確定為所述查詢樣本的相似樣本。根據第四態樣，提供一種對樣本集進行分類處理的裝置，包括：第一聚類單元，配置為通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心，並在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；分段單元，配置為將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；第二聚類單元，配置為分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心，並在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量。根據第五態樣，提供一種為樣本集建立索引表的裝置，包括：向量表獲取單元，配置為獲取第四態樣的裝置得到的第一向量表和第二向量表；樣本獲取單元，配置為獲取所述樣本集中任意樣本的特徵向量V；第一索引建立單元，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；分段單元，配置為將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；第二索引建立單元，配置為從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的類簇標識作為第二索引數據；記錄單元，配置為分別將所述第一索引數據和第二索引數據添加到索引表的第一索引字段和第二索引字段中。根據第六態樣，提供一種查詢相似樣本的裝置，包括：查詢樣本獲取單元，配置為獲取查詢樣本的特徵向量T；向量表獲取單元，配置為獲取通過第四態樣的裝置得到的第一向量表和第二向量表；索引表獲取單元，配置為獲取通過第五態樣的裝置得到的索引表；第一確定單元，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量T的距離滿足第一預定條件的中心向量，將該中心向量所對應的類簇作為選定類簇；第二確定單元，配置為根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本；距離確定單元，配置為確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離；樣本確定單元，配置為將所述樣本距離滿足第二預定條件的樣本確定為所述查詢樣本的相似樣本。根據第七態樣，提供了一種計算設備，包括儲存器和處理器，其特徵在於，所述儲存器中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現第一態樣到第三態樣的方法。通過本說明書實施例提供的方法及裝置，預先離線地為樣本集中的樣本進行兩個層級的聚類，建立兩個層級的索引。在線上查詢過程中，相應地利用兩個層級的檢索和篩選，確定出查詢樣本的相似樣本。在以上過程中，通過第一層級檢索縮小樣本範圍，並且在第二層級檢索中，將大量高維向量計算轉化為分段的低維向量，進一步提升運算速度。從而，提供更加快速的複雜樣本的查詢和檢索。

下面結合圖式，對本說明書提供的方案進行描述。圖1為本說明書揭露的一個實施例的實施場景示意圖。如圖1所示，在儲存平臺中儲存有大量樣本構成的樣本集，這些樣本可以是圖片、音訊、文檔等各種內容類型。儲存平臺可以是集中式平臺，分散式平臺(例如hadoop分散式檔案系統HDFS)。為了應對用戶對這些複雜樣本的搜尋查詢，計算平臺預先離線地對儲存平臺中的樣本集進行分析和處理。計算平臺的離線處理過程主要包含兩個部分：分類處理和索引處理。在分類處理過程中，計算平臺對樣本集中的樣本進行兩級聚類。第一級聚類，將各個樣本的特徵向量整體進行聚類，獲得粗類簇中心；第二級聚類，將各個樣本的特徵向量劃分為M個分段，針對每個分段i進行分段聚類，獲得每個分段對應的分段類簇中心。可以在向量表(其可以更進一步地包含第一向量表和第二向量表)中分別記錄上述粗類簇中心和各個分段類簇中心。在索引處理過程中，計算平臺為樣本集中的每個樣本建立索引，使得每個樣本可以通過索引指向分類處理得到的粗類簇中心和分段類簇中心，也就是說，將樣本集中的每個樣本劃分到，或者使其歸屬於其索引所指向的類簇中心。與兩級分類處理相對應地，為每個樣本建立兩級索引，第一級索引指向該樣本所屬於的粗類簇中心，第二級索引指向該樣本的分段向量所對應的分段類簇中心。相應地，為樣本集建立索引表，索引表包括第一索引字段和第二索引字段，其中第一索引字段記錄各個樣本的第一級索引，第二索引字段記錄各個樣本的第二級索引。在預先進行了上述分類處理和索引處理的基礎上，計算平臺可以利用分類處理和索引處理的結果，對線上的查詢請求進行快速處理。具體地，對於接收到的查詢樣本T，對應地對其進行兩級檢索。第一級檢索，從分類處理的第一向量表中確定與查詢樣本T距離較近的粗類簇中心，利用索引表的第一索引字段，獲取歸屬於這些粗類簇中心的樣本，在此稱為對比樣本。第二級檢索，確定查詢樣本T與各個對比樣本的距離，將距離滿足條件的對比樣本作為相似樣本。更具體地，可以通過第二向量表和第二索引字段，快速確定查詢樣本T與各個對比樣本的距離。如此，通過兩級檢索，提升查詢的速度。可以理解，圖1所示的計算平臺可以是任何具有處理、計算能力的實體，例如伺服器。儘管在以上描述中，將計算平臺示出為一個集中的平臺，但是實踐中，計算平臺也可以採用分散式來實現。或者，計算平臺可以包含不同處理模組來進行不同階段的處理。例如，採用分類模組進行離線分類處理，採用索引模組進行索引處理，採用查詢模組進行查詢處理。下面具體描述上述分類處理、索引處理和查詢處理的執行方式。圖2示出根據一個實施例的分類處理的流程圖。如圖2所示，分類處理可以包含以下步驟：步驟21，對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇和N個類簇中心；步驟22，在第一向量表中記錄所述N個類簇的類簇標識和N個類簇中心對應的中心向量；步驟23，將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，形成與各個分段i對應的分段向量；步驟24，分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇和分段類簇中心；步驟25，在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量。下面描述上述各個步驟的執行。可以理解，樣本集中包含大量的待處理、待檢索樣本，這些樣本可以儲存在例如HDFS的分散式檔案系統中。為了對這些樣本進行分析，在預備步驟中，可以首先為各個樣本提取特徵向量，特徵向量用於表徵樣本的特徵。如前所述，待分析樣本可以是圖片、音訊、文檔等各種內容類型。對於不同類型的樣本，可以採用已知的方式提取其特徵向量。例如，對於圖片樣本，可以提取以下樣本特徵元素：像素數目，灰度均值，灰度中值，子區域數目，子區域面積，子區域灰度均值，等，將這些特徵元素作為向量元素，構成特徵向量。對於文本樣本而言，樣本特徵可以包括：文本中的一元分詞，二元分詞，三元分詞，詞數目，詞頻等。可以提取這些特徵作為向量元素，構成文本樣本的特徵向量。對於其他類型的樣本，可以採用所屬技術領域已知的對應的方式。可以理解的是，對於圖片、音訊等複雜類型的樣本，樣本的特徵向量通常為高維向量。典型地，圖片樣本的特徵向量可以在幾百維，甚至上千維。一般地，儲存平臺在儲存樣本本身的同時，還儲存其特徵向量。在提取了特徵向量的基礎上，在步驟21，對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇和對應的類簇中心。在一個實施例中，樣本集中的樣本數目不算太大，例如，不超過一定閾值(比如5000個)，此時可以利用樣本集中的全部樣本進行聚類。在另一實施例中，樣本集中的樣本數目非常大，例如超過上述閾值，此時可以從樣本集中隨機抽取一些樣本進行聚類。相應地，該步驟中的多個樣本為樣本集中的部分樣本。對於上述的多個樣本所對應的多個特徵向量，可以採用多種聚類方法進行聚類。在一個實施例中，採用kmeans(K均值)聚類方法進行聚類。具體地，隨機選擇k個樣本作為初始均值向量，計算樣本到各均值向量的距離，把它劃到距離最小的類簇；然後計算新的均值向量，進行迭代，直至均值向量未更新或到達最大次數。在另一實施例中，採取基於層次的聚類算法進行聚類，例如BIRCH算法、CURE算法等；在又一個實施例中，採取基於密度的聚類算法，例如DBSCAN算法、OPTICS算法等。還可以採用其他聚類方法進行聚類。假定通過聚類，將上述多個樣本的特徵向量聚類為N個類簇，每個類簇具有對應的類簇中心。於是，在步驟21，確定出N個類簇中心。可以理解，每個類簇中心可以用一個與特徵向量同樣維度的向量來表示，此處稱為中心向量。相應地，在步驟22，可以在一個向量表中，此處稱為第一向量表，記錄N個類簇中心對應的中心向量。相對於後面步驟中的分段向量聚類，步驟21中的聚類在本文中有時又稱為粗聚類，或全向量聚類，得到的類簇又稱為粗類簇。可以理解的是，可以根據樣本數目和所需精度，來設置或調整聚類算法和聚類參數，從而調整得到的粗類簇的數目N。在一個具體例子中，假定樣本庫中有5萬個樣本，在步驟21，對其中的5000個樣本進行聚類，每個樣本的特徵向量為500維，得到20個粗類簇和對應的中心向量。表1示例性示出對應的第一向量表。

在表1中，用Ci表示第i個類簇的類簇標識，用

表示第i個類簇的中心向量。另一態樣，在步驟23，將上述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，形成與各個分段i對應的分段向量。如前所述，複雜樣本對應的特徵向量往往為高維向量，為了在粗聚類基礎上對其進行進一步分類，首先對各個特徵向量進行降維處理。具體地，將各個樣本的特徵向量劃分為M個分段，由此形成M個分段向量。在一個實施例中，將各個樣本的特徵向量平均地劃分為M個分段向量。假定樣本的特徵向量的維度為P，那麼可以將其平均地劃分為M個P/M維的分段向量。在另一實施例中，分段向量的劃分可以是非均勻的，例如第i分段的維度為Pi，只要保證Pi(i=1到M)之和為總維度P即可。更具體地，在一個例子中，假定樣本的特徵向量為500維，即V=(f1，f2，f3，…，f500)，在步驟22中將其劃分為50個分段，即M=50。在平均劃分的情況下，每個分段為10維的分段向量，即第一分段向量V1=(f1,f2,f3,…f10)，第二分段向量V2=(f11,f12,…f20),第i分段向量Vi=(f10i+1,f10i+2,…f11i)。在此基礎上，在步驟24，分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇和分段類簇中心，並在步驟25，在第二向量表中記錄所述分段類簇的標識，以及各分段類簇中心對應的分段中心向量。可以理解，由於對各個樣本的特徵向量均進行了分段，因此每個樣本都具有M個分段向量。對於同一分段i下各個樣本的分段向量，可以再次進行聚類，從而確定該分段i對應的k個分段類簇中心。在一個實施例中，對於各個分段，採用相同的聚類算法，確定出相同數目的分段類簇中心。在另一實施例中，對於不同分段，可以採取不同的聚類算法，從而確定出不同數目的分段類簇中心。仍以前述的被劃分為50個分段的500維向量為例，假定在一個例子中，採用相同聚類算法，對各個分段的分段向量進行聚類，每個分段得到16個分段類簇中心(k=16)。每個分段類簇中心可以表示為與對應的分段向量維度相同的向量，在此稱為分段中心向量。在該例子中，每個分段向量維度為10，相應地，分段中心向量為10維向量。如此確定出的各分段對應的分段中心向量可以記錄在第二向量表中。表2示出在該例子下的第二向量表的示意。

在以上表2中，Si-j表示第i分段下的第j個分段類簇，

表示Si-j對應的分段中心向量。在被平均劃分50個分段的500維向量的例子中，每個分段中心向量

均為10維向量。需要理解的是，表2只是一種示例。如果各個分段不是平均分段，那麼各個分段對應的分段向量的維數，以及進而的分段中心向量的維數，可以並不相同。如果各個分段採取不同的聚類算法，或者在相同的聚類算法中設定了不同的算法參數，那麼各個分段聚類得到的分段類簇的數目可能並不相同。如此，通過圖2所示的方式對樣本集進行了分類處理，得到第一向量表和第二向量表作為分類結果。在一個實施例中，上述第一向量表和第二向量表儲存在計算平臺本地。在另一實施例中，上述第一向量表和第二向量表儲存在分散式檔案系統中，例如HDFS系統中。在這樣的情況下，計算平臺需要記錄第一向量表和第二向量表在分散式檔案系統中的配置參數，這些配置參數用於記錄各個向量表在分散式檔案系統中的具體儲存位置和存取路徑。在一個實施例中，計算平臺每隔預定時間執行一次圖2所示的分類處理過程，例如每天一次，三天一次，等，以應對樣本集中樣本的變化和更新。在多次執行上述分類處理的過程中，每次可以選擇樣本集中同一部分的樣本進行聚合分類，也可以選擇不同部分的樣本進行聚合分類。在生成的第一向量表和第二向量表有變化的情況下，更新儲存的第一向量表和第二向量表。基於分類處理的結果，可以對樣本集中的各個樣本進行索引處理，為其建立索引，使得每個樣本可以通過索引指向分類處理得到的粗聚類中心和分段聚類中心。圖3示出根據一個實施例的索引處理的流程圖。如圖3所示，索引處理的過程包括以下步驟：在步驟31，獲取分類處理的第一向量表和第二向量表；在步驟32，獲取樣本集中任意樣本的特徵向量V；在步驟33，從第一向量表記錄的N個中心向量中，確定出與特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；在步驟34，將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；在步驟35，從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的標識作為第二索引數據；在步驟36，分別將第一索引數據和第二索引數據添加到樣本集的索引表所包括的第一索引字段和第二索引字段中。下面描述以上各個步驟的執行方式。首先，在步驟31，獲取分類處理得到的第一向量表和第二向量表。在一個實施例中，上述第一向量表和第二向量表儲存在分散式檔案系統中。此時，可以首先獲取上述第一和第二向量表的配置參數，通過配置參數獲得第一向量表和第二向量表的存取路徑，根據該存取路徑讀取第一向量表和第二向量表。在一個實施例中，如前所述，上述第一向量表和第二向量表每隔預定時間進行一次更新。此時，首先判斷第一向量表和第二向量表是否完成更新，僅在完成更新的情況下執行接下來的步驟。在一個例子中，通過設置標記檔案，來標記向量表的更新狀態，例如每當第一向量表和第二向量表更新完成，生成一個特定檔案，例如done檔案；而在重新進行分類處理的過程中，刪除或隱藏該檔案。相應地，通過查詢標記檔案來確定向量表的更新狀態，例如通過判斷done檔案是否存在，來確定向量表的更新是否完成。在其他例子中，還可以通過其他形式設置更新狀態，例如通過向量表本身的狀態標籤等。在確定第一向量表和第二向量表完成更新的情況下，執行下面的步驟32。在步驟32，獲取樣本集中任意樣本R的特徵向量V。可以理解，該任意樣本R的特徵向量V也是如前所述的高維向量，其提取過程和可能包含的元素如前所述，不再贅述。接著，在步驟33，從第一向量表記錄的N個中心向量中，確定出與特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標記作為第一索引數據。如前所述，第一向量表記錄了粗聚類得到的N個類簇中心所對應的中心向量，相應地在該步驟33中，分別計算特徵向量V與這N個中心向量的距離，確定出距離最近的中心向量，將該中心向量對應的類簇標記，例如類簇ID號，作為第一索引數據。換而言之，確定出與樣本R的整體特徵向量V距離最近的中心向量，從而確定出特徵向量V所歸屬的粗類簇。因此，第一索引數據指示出，與特徵向量V距離最近的，也就是特徵向量V所歸屬的粗類簇。例如表1記錄了針對5000個500維特徵向量進行聚類，得到的20個類簇，以及各類簇中心對應的中心向量

到

。假定對於當前的樣本R，其同樣具有500維特徵向量V，可以分別計算該特徵向量V與

到

的距離D1到D20，從中確定出距離最小的中心向量。假定在該步驟中確定出，在各中心向量中，

與特徵向量V距離最近，那麼該樣本的第一索引數據即為

所對應的類簇標記C9。換而言之，該樣本從全向量整體上，歸屬於類簇C9。另一態樣，在步驟34，將上述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi。可以理解，該步驟中將高維特徵向量V劃分為M個分段的方式，與分類處理過程中包含的分段聚類的分段方式相一致，不再贅述。接著，在步驟35，從第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的標識作為第二索引數據。如前所述，第二向量表記錄了分段聚類得到的，各個分段i對應的k個分段類簇，以及各個分段類簇中心對應的分段中心向量。相應地在該步驟35中，對於每個分段i，分別計算樣本R的分段向量Vi與這k個分段中心向量的距離，確定出距離最近的分段中心向量，將該分段中心向量對應的分段類簇的標記，例如類簇ID號，作為第二索引數據。換而言之，確定出各個分段i下，與樣本R的分段向量Vi距離最近的分段中心向量，從而確定出該分段向量Vi所歸屬的分段類簇。第二索引數據即指示出，與各個分段向量Vi距離最近的，也就是Vi所歸屬的分段類簇。例如表2記錄了將500維特徵向量劃分為50個分段(M=50)，對每個分段的分段向量進行分段聚類，得到的各分段i下的16個分段類簇Si-j，以及各分段類簇中心對應的分段中心向量

。假定當前樣本R的特徵向量V也被平均劃分為50個分段。可以針對每一分段i，計算樣本R的分段向量Vi與該分段i下的16個分段中心向量的距離，確定出距離最近的分段中心向量。例如，假定在該步驟中確定出，對於第1分段下的16個分段中心向量

到

，樣本R的分段向量V1距離

最近，那麼該分段中心向量對應的分段類簇的標記S1-3可以包含在第二索引數據中。類似地，假定經過計算比較，在第2分段下，與樣本R的分段向量V2距離最近的分段中心向量為

，在第3分段下，與分段向量V3距離最近的分段中心向量為

，……，在第50分段下，與分段向量V50距離最近的分段中心向量為

。如此可以確定各個分段下距離最近的分段中心向量，和對應的分段類簇。對應地，在該具體例子中，樣本R的第二索引數據可以包括：第一分段下的分段類簇S1-3，第二分段下的分段類簇S2-11，第三分段下的分段類簇S3-8，……，以及第50分段下的分段類簇S50-5。在如上所述確定出第一索引數據和第二索引數據的基礎上，在步驟36，將確定出的第一索引數據和第二索引數據添加到樣本集的索引表中。具體地，在為樣本集創建索引表的時候，為索引表設置第一索引字段和第二索引字段，第一索引字段用於儲存各個樣本的第一索引數據，第二索引字段用於儲存各個樣本的第二索引數據。相應地，在為任意樣本建立索引，即確定其第一索引數據和第二索引數據的基礎上，將第一索引數據添加到索引表中與該樣本對應的第一索引字段中，將第二索引數據添加到與該樣本對應的第二索引字段中。例如，在以上舉例的500維的樣本R的例子中，其第一索引數據為C9，第二索引數據包括S1-3，S2-11，S3-8，等。相應地，可以將C9添加到該樣本對應的第一索引字段，將S1-3，S2-11，S3-8等添加到該樣本對應的第二索引字段。以上描述了針對樣本集中某個樣本R建立索引的過程。可以理解，通過對樣本集中各個樣本都執行上述方法，可以為樣本集中各個樣本均建立索引。在樣本集發生變化時，例如添加了新的樣本時，可以針對該新樣本執行圖3的方法，從而更新索引表。如此，索引表可以記錄樣本集中每個樣本的索引資訊。表3示出索引表的一個示例。

在以上表3中，樣本Ym的第一索引字段中的數據Im表示該樣本m歸屬的粗類簇，Im的數值選自表1中的C1-C20；第二索引字段中的IIm-j表示該樣本m的第j分段所歸屬的分段類簇，其數值選自表2中的Sj-1，Sj-2到Sj-16。特別地，表3中還示出了上述舉例說明的樣本R的索引資訊，即第一索引字段的數據為C9，第二索引字段的數據包括S1-3，S2-11，S3-8, …, S50-5。可以理解，以上的表3僅用於示例索引表中包含的資訊，索引表的具體儲存結構可以根據需要進行設置。在一個例子中，索引表被劃分為若干子表，分別儲存在分散式檔案系統中。在一個實施例中，在以上建立索引表的基礎上，對該索引表進行進一步處理，獲得倒排索引。具體地，對上述索引表中第一索引字段進行索引倒排，獲得第一倒排索引表。索引倒排是所屬技術領域中常用的索引處理方式，是反向地從索引值確定出數據項的過程。由於以上獲得的索引表中第一索引字段記錄了各個樣本對應的粗類簇標識，通過對第一索引字段經過索引倒排，可以反過來確定出各個粗類簇所對應的樣本。從粗類簇到對應樣本的映射記錄在第一倒排索引表中。因此，第一倒排索引表實際上記錄了歸屬於各個粗類簇Ci的樣本。表4示出第一倒排索引表的一個例子。

在表4中，與表1對應地記錄了20個粗類簇對應的樣本。在可以理解，表3、表4都只是一種示例，索引表的具體儲存格式可以根據業務需求而設置。在一個實施例中，除了儲存例如表3的索引表，還儲存例如表4的倒排索引表。如上所述，結合圖2描述了對樣本集進行分類處理的過程，結合圖3描述了為樣本集建立索引表的過程。可以理解，圖2所示的分類處理，和圖3所示的索引處理，都是針對樣本集預先進行的準備處理，可以預先離線地進行，以便加快線上查詢的處理速度和召回速度。下面描述線上查詢樣本的過程。圖4示出根據一個實施例的查詢相似樣本的方法的流程圖。如圖4所示，查詢相似樣本的方法包括以下步驟：在步驟41，獲取查詢樣本的特徵向量T；在步驟42，獲取圖2方法獲得的第一向量表和第二向量表；在步驟43，獲取圖3方法獲得的索引表；在步驟44，從第一向量表記錄的N個中心向量中，確定出與特徵向量T的距離滿足第一預定條件的中心向量，以及該中心向量對應的類簇標識；在步驟45，根據索引表中的第一索引字段，確定與所述類簇標識對應的樣本作為對比樣本；在步驟46，確定各個對比樣本與查詢樣本之間的樣本距離；在步驟47，將樣本距離滿足第二預定條件的樣本確定為查詢樣本的相似樣本。下面描述以上各個步驟的執行方式。首先在步驟41，獲取查詢樣本的特徵向量T。一般地，查詢樣本為用戶輸入的樣本，用戶希望通過這樣的查詢，獲得與查詢樣本相似的樣本，例如用戶輸入一張圖片，希望找到與該圖片相似的其他圖片。在一個實施例中，一旦接收到用戶的查詢請求，在步驟41，從查詢請求中獲得用戶輸入的查詢樣本，例如，一張圖片，並從查詢樣本中提取出其特徵向量T。特徵向量T的提取過程和可能包含的元素可以參考結合圖2步驟21的描述，不再贅述。另一態樣，在步驟42和S43，分別獲取圖2方法獲得的第一向量表和第二向量表，以及圖3方法獲得的索引表。在一個實施例中，上述第一和第二向量表，以及索引表，均儲存在進行查詢處理的計算平臺本地，此時可以直接讀取向量表和索引表。在另一實施例中，上述第一向量表和/或第二向量表和/或索引表，儲存在分散式檔案系統中。在這樣的情況下，在以上步驟中，首先獲取對應向量表和/或索引表的配置參數，從中提取出儲存位置和存取路徑，根據存取路徑獲取對應的向量表和/或索引表。一旦獲得了第一向量表，可以執行步驟44，從第一向量表記錄的N個中心向量中，確定出與特徵向量T的距離滿足第一預定條件的中心向量作為選定中心向量，並確定所述選定中心向量對應的選定類簇的標識。如前所述，第一向量表記錄了粗聚類得到的N個類簇對應的N個中心向量。在該步驟44中，可以依次計算，查詢樣本的特徵向量T與這N個中心向量的距離，得到N個距離，根據這N個距離確定出滿足預定條件的中心向量作為選定中心向量。為了進行區分，此處的預定條件被稱為第一預定條件。在一個實施例中，該第一預定條件為距離最近的中心向量。此時，步驟44中可以確定出距離最近的一個選定中心向量。在另一實施例中，該第一預定條件為距離最小的預定數目個(n個)中心向量，例如n=3。相應地，在步驟44中，對於計算得到的N個距離進行排序，確定距離值最小的3個中心向量為選定中心向量。在又一實施例中，該第一預定條件為距離小於一定閾值的中心向量，例如該閾值為D0。相應地，在步驟44中，對於計算得到的N個距離，確定出距離小於該閾值D0的中心向量作為選定中心向量。在還一個實施例中，該第一預定條件為N個中心向量中距離最小的預定比例的中心向量。例如，假定該預定比例為10%，如果N=20，則從這20個中心向量中確定出距離最小的2個中心向量作為選定中心向量；如果N=50，則從這50個中心向量中確定出距離最小的5個中心向量作為選定中心向量。在其他實施例中，可以根據業務需求將上述的第一預定條件設置為其他形式。一旦確定出滿足第一預定條件的選定中心向量，根據第一向量表中記錄的粗類簇標識和中心向量的對應關係，可以確定出滿足條件的選定類簇和對應的類簇標識。在步驟45，根據索引表中的第一索引字段，確定與選定類簇對應的樣本作為對比樣本。如前所述，索引表的第一索引字段記錄了各個樣本所對應的粗類簇。通過查詢索引表中的第一索引字段中的第一索引數據，可以確定出哪些樣本對應於選定類簇，將這些樣本作為對比樣本。這個過程類似於索引倒排的過程。因此，在一個實施例中，步驟45包括，通過對第一索引字段進行索引倒排，確定與選定類簇對應的樣本作為對比樣本。在另一實施例中，在索引處理階段已經建立了如前所述的第一倒排索引表，例如表4。在這樣的情況下，通過查詢該第一倒排索引表，可以直接讀取獲得與選定類簇對應的樣本作為對比樣本。可以理解，通過步驟44-S45，首先確定出了距離查詢樣本較近(滿足第一預定條件)的粗類簇，然後確定出了該粗類簇中包含的對比樣本。如此，對樣本集中的樣本進行了第一級檢索和篩選，選擇出了與查詢樣本歸屬於同樣的粗類簇或者歸屬於附近的粗類簇的樣本作為對比樣本，進行下一級的繼續對比。例如，如果將5000個樣本粗聚類為20個類簇，平均每個類簇中包含250個樣本。假定在步驟44中確定出了2個粗類簇作為選定類簇，那麼在步驟45中將確定出大約500個對比樣本。如此，通過第一級篩選，將樣本範圍縮小到了樣本集總量的10%。相比於直接計算查詢樣本與樣本集中所有樣本的距離的方式，以上的篩選極大地減小了計算量和效能消耗。對於以上確定出的對比樣本，在接下來的步驟中進行繼續比對。具體的，在步驟46，確定各個對比樣本與查詢樣本之間的樣本距離。在一個實施例中，直接計算查詢樣本與各個對比樣本之間的距離。在一個例子中，計算查詢樣本的特徵向量與對比樣本的特徵向量之間的歐式距離作為樣本距離。在另一例子中，計算查詢樣本的特徵向量和對比樣本的特徵向量之間的餘弦相似度作為樣本距離。還可以採取所屬技術領域中已知的其他距離計算方式。在一個實施例中，為了減小計算量提升計算速度，將對比樣本對應的第二索引數據中的分段中心向量近似作為其分段向量，計算查詢樣本與對比樣本在各分段i下的分段距離Di，根據各個分段距離Di確定樣本距離。圖5示出根據一個實施例的確定樣本距離的流程圖，即圖4中步驟46的子步驟。如圖5所示，首先在步驟51，將查詢樣本的特徵向量T根據維度劃分為M個分段，形成與各個分段i對應的分段向量Ti。可以理解，查詢樣本的特徵向量T的分段方式與樣本分類處理和索引處理過程中的向量分段方式相一致。接著，在步驟52，通過查詢索引表的第二索引字段以及第二向量表，確定對比樣本在各分段i下對應的分段類簇標識和分段中心向量。如前所述，第二索引字段中的數據指示出，樣本的各分段向量所歸屬的分段類簇。第二向量表則記載了各個分段類簇對應的分段中心向量。通過查詢第二向量表和索引表的第二索引字段，可以確定出對比樣本在各分段i下所歸屬的分段類簇和對應的分段中心向量。此處，實際上將對比樣本在分段i下所歸屬的分段類簇的分段中心向量，近似作為該對比樣本在該分段i下的分段向量。如此，通過查表的方式近似獲得對比樣本的各分段向量，而省卻了將對比樣本重新劃分為多個分段向量的過程，簡化了計算，提升了速度。如前所述，在步驟51，獲得了特徵向量T在分段i下的分段向量Ti；在步驟52，確定出了對比樣本在分段i下的分段中心向量。基於此，在步驟53，可以確定特徵向量T在各分段i下的分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di。在該步驟中，可以通過常規距離計算，確定兩者之間的距離作為分段距離Di。於是，在步驟54，可以基於各個分段距離Di，確定查詢樣本與對比樣本之間的樣本距離。在一個實施例中，對各個分段距離Di進行求和，將求和結果作為查詢樣本和對比樣本的樣本距離D。即：

在另一實施例中，將各個分段距離Di的平方和再開方作為查詢樣本和對比樣本的樣本距離D，即：

在其他實施例中，還可以採用其他算法，基於各個分段距離Di，確定樣本距離。可以理解的是，通過以上方式，將查詢樣本和對比樣本之間的距離計算從高維向量之間的運算，轉化為分段的低維向量之間的運算，加快了計算速度。進一步地，在一個實施例中，可以通過建立距離表並查表的方式，進一步加快步驟53中確定分段距離Di的計算過程。具體而言，在一個實施例中，步驟53可以包括以下步驟。首先，計算查詢樣本在各分段i下的分段向量Ti與第二向量表中記錄的、該分段i下的各個分段中心向量j之間的距離Dij，形成距離表。接著，利用步驟52確定的、對比樣本在分段i下對應的分段類簇標識，查詢所述距離表，確定分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di。圖6示出以上查表過程。在圖6的示意圖中，假定基於表2中所示的第二向量表建立了距離表。具體地，表2示出了將樣本集中的樣本劃分為50個分段，每個分段得到16個分段類簇中心的情況。對於每個分段i(i=1到50)，可以分別計算查詢樣本的分段向量Ti與該分段下的16個分段中心向量之間的距離，由此形成50*16的距離表。距離表中的距離Dij表示，在分段i下，分段向量Ti與第j個分段類簇的分段中心向量之間的距離。另一態樣，假定通過查詢第二索引字段確定出了對比樣本在各分段下的分段類簇，例如對比樣本Y1的第二索引數據包括：S1-3，S2-1，…,S50-16，這意味著，Y1在分段1下，歸屬於第3個分段類簇S1-3，在分段2下，歸屬於第1個分段類簇S2-1，…,在分段50下，歸屬於第16個分段類簇。因此，將上述第二索引數據定位到距離表中，可以相應地將分段1下分段向量T1與S1-3的距離，即D1-3，作為分段距離D1，將分段2下分段向量T2與S2-1的距離，即D2-1，作為分段距離D2，…，將分段50下分段向量T50與S50-16的距離，即D50-16，作為分段距離D50。在圖6中，用加粗方框示出通過查表確定的對比樣本Y1與查詢樣本的各分段距離。可以理解，在對比樣本數量依然比較大的情況下，例如大於一定閾值(比如500個)，建立距離表並查表的方式可以進一步加快計算速度。儘管建立距離表需要一定的計算量，但是在對比樣本數量較大的情況下，距離表中的各個分段距離可以在依次對各個對比樣本進行計算時得到複用，省卻一些重複計算，因此可以進一步提升計算效率。通過以上方式，得到查詢樣本和對比樣本的各個分段距離Di，並基於分段距離確定出總的樣本距離。可以理解，可以針對各個對比樣本進行這樣的計算，從而得到各個對比樣本的樣本距離。回到圖4的步驟47，基於以上得到的各個對比樣本的樣本距離，將樣本距離滿足第二預定條件的樣本確定為查詢樣本的相似樣本。在一個實施例中，上述第二預定條件為樣本距離最小的對比樣本。此時，步驟47中可以確定出樣本距離最小的對比樣本作為相似樣本。在另一實施例中，該第二預定條件為樣本距離最小的預定數目個對比樣本，例如10個。相應地，在步驟47中，對於計算得到的樣本距離進行排序，確定距離值最小的10個對比樣本作為相似樣本。在又一實施例中，該第二預定條件為樣本距離小於一定距離閾值的對比樣本。相應地，在步驟47中，對於計算得到的樣本距離，確定出樣本距離小於該閾值的對比樣本作為相似樣本。在其他實施例中，可以根據業務需求設置上述的第二預定條件。如此，通過兩個層級的檢索和篩選，確定出查詢樣本的相似樣本。在以上過程中，第一預定條件作為第一層級的篩選條件，可以極大縮小樣本範圍，減小數據計算量。在第二層級篩選的過程中，可以基於預先建立的向量表和索引表，將高維向量計算轉化為分段的低維向量，進一步提升運算速度。從而，提供更加快速的複雜樣本的查詢和檢索。根據另一態樣的實施例，還提供對樣本集進行分類處理、索引處理和查詢處理的裝置。圖7示出根據一個實施例的對樣本集進行分類處理的裝置的示意性方塊圖。如圖7所示，分類處理裝置700包括：第一聚類單元71，配置為通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心；第一記錄單元72，配置為在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；分段單元73，配置為將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；第二聚類單元74，配置為分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心；第二記錄單元75，配置為在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量。在一個實施例中，上述裝置700還包括記錄單元(未示出)，配置為將所述第一向量表和第二向量表儲存在分散式檔案系統中，並記錄所述第一向量表和第二向量表對應的配置參數，所述配置參數指示所述第一向量表和第二向量表在分散式檔案系統中的存取路徑。圖8示出根據一個實施例的為樣本集建立索引表的裝置的示意性方塊圖。如圖8所示，該裝置800包括：向量表獲取單元81，配置為獲取如圖7所示的裝置得到的第一向量表和第二向量表；樣本獲取單元82，配置為獲取所述樣本集中任意樣本的特徵向量V；第一索引建立單元83，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；分段單元84，配置為將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；第二索引建立單元85，配置為從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的類簇標識作為第二索引數據；以及記錄單元86，配置為分別將所述第一索引數據和第二索引數據添加到索引表的第一索引字段和第二索引字段中。在一個實施例中，第一向量表和第二向量表儲存在分散式檔案系統中，相應地，向量表獲取單元81配置為：獲取所述第一向量表和第二向量表的配置參數，通過配置參數獲得第一向量表和第二向量表的存取路徑；根據所述存取路徑從所述分散式檔案系統中讀取第一向量表和第二向量表。在一個實施例中，裝置800還包括：狀態查詢單元(未示出)，配置為通過查詢標記檔案，確定所述第一向量表和第二向量表的更新狀態。在一個實施例中，裝置800還包括：索引倒排單元(未示出)，配置為對所述索引表中第一索引字段進行索引倒排，獲得第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本。圖9示出根據一個實施例的查詢相似樣本的裝置的示意性方塊圖。如圖9所示，裝置900包括：查詢樣本獲取單元91，配置為獲取查詢樣本的特徵向量T；向量表獲取單元92，配置為獲取通過圖7的裝置700得到的第一向量表和第二向量表；索引表獲取單元93，配置為獲取通過圖8的裝置得到的索引表；第一確定單元94，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量T的距離滿足第一預定條件的中心向量，將該中心向量所對應的類簇作為選定類簇；第二確定單元95，配置為根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本；距離確定單元96，配置為確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離；樣本確定單元97，配置為將所述樣本距離滿足第二預定條件的樣本確定為所述查詢樣本的相似樣本。在一個實施例中，上述第一預定條件為：距離最小的預定數目個中心向量，或者，距離小於一定閾值的中心向量。在一個實施例中，所述第二確定單元95配置為：通過對第一索引字段進行索引倒排，確定與選定類簇對應的樣本作為對比樣本。在另一實施例中，所述索引表還包括根據所述第一索引字段確定的第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本；相應地，第二確定單元95配置為：通過查詢所述第一倒排索引表，讀取與所述選定類簇對應的樣本作為對比樣本。在一個實施例中，距離確定單元96配置為：將所述特徵向量T根據維度劃分為M個分段，形成與各個分段i對應的分段向量Ti；通過查詢索引表的第二索引字段以及第二向量表，確定對比樣本在各分段i下對應的分段類簇標識和分段中心向量；確定特徵向量T在各分段i下的分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di；基於各個分段距離Di，確定查詢樣本與對比樣本之間的樣本距離。在一個實施例中，所述距離確定單元96進一步配置為：計算所述特徵向量T在各分段i下的分段向量Ti與第二向量表中記錄的、該分段i下的各個分段中心向量j之間的距離Dij，形成距離表；利用對比樣本在各分段i下對應的分段類簇標識，查詢所述距離表，確定分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di。通過以上的分類處理裝置700和索引處理裝置800，預先離線地為樣本集中的樣本進行了兩個層級的聚類，建立了兩個層級的索引。在線上查詢過程中，查詢處理裝置900相應地利用兩個層級的檢索和篩選，確定出查詢樣本的相似樣本。在以上過程中，通過第一層級檢索縮小樣本範圍，並且在第二層級檢索中，將大量高維向量計算轉化為分段的低維向量，進一步提升運算速度。從而，提供更加快速的複雜樣本的查詢和檢索。根據另一態樣的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程式，當所述電腦程式在電腦中執行時，令電腦執行結合圖2至圖5所描述的方法。根據再一態樣的實施例，還提供一種計算設備，包括儲存器和處理器，所述儲存器中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現結合圖2至圖5所述的方法。發明所屬技術領域中具有通常知識者應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或程式碼進行傳輸。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、均等、改進等，均應包括在本發明的保護範圍之內。

21‧‧‧步驟 22‧‧‧步驟 23‧‧‧步驟 24‧‧‧步驟 25‧‧‧步驟 31‧‧‧步驟 32‧‧‧步驟 33‧‧‧步驟 34‧‧‧步驟 35‧‧‧步驟 36‧‧‧步驟 41‧‧‧步驟 42‧‧‧步驟 43‧‧‧步驟 44‧‧‧步驟 45‧‧‧步驟 46‧‧‧步驟 47‧‧‧步驟 51‧‧‧步驟 52‧‧‧步驟 53‧‧‧步驟 54‧‧‧步驟 71‧‧‧第一聚類單元 72‧‧‧第一記錄單元 73‧‧‧分段單元 74‧‧‧第二聚類單元 75‧‧‧第二記錄單元 81‧‧‧向量表獲取單元 82‧‧‧樣本獲取單元 83‧‧‧第一索引建立單元 84‧‧‧分段單元 85‧‧‧第二索引建立單元 86‧‧‧記錄單元 91‧‧‧查詢樣本獲取單元 92‧‧‧向量表獲取單元 93‧‧‧索引表獲取單元 94‧‧‧第一確定單元 95‧‧‧第二確定單元 96‧‧‧距離確定單元 97‧‧‧樣本確定單元 700‧‧‧裝置 800‧‧‧裝置 900‧‧‧裝置

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅是本發明的一些實施例，對於發明所屬技術領域中具有通常知識者來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。圖1示出本說明書揭露的一個實施例的實施場景示意圖；圖2示出根據一個實施例的分類處理的流程圖；圖3示出根據一個實施例的索引處理的流程圖；圖4示出根據一個實施例的查詢相似樣本的方法的流程圖；圖5示出根據一個實施例的確定樣本距離的流程圖；圖6示出查詢距離表的過程示意圖；圖7示出根據一個實施例的對樣本集進行分類處理的裝置的示意性方塊圖；圖8示出根據一個實施例的為樣本集建立索引表的裝置的示意性方塊圖；圖9示出根據一個實施例的查詢相似樣本的裝置的示意性方塊圖。

Claims

一種為樣本集建立索引表的方法，包括：獲取根據對樣本集進行分類處理的方法得到的第一向量表和第二向量表，該對樣本集進行分類處理的方法包括：通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心；在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心；在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量；獲取所述樣本集中任意樣本的特徵向量V；從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的類簇標識作為第二索引數據；分別將所述第一索引數據和第二索引數據添加到索引表的第一索引字段和第二索引字段中。
根據請求項1所述的方法，其中所述第一向量表和第二向量表儲存在分散式檔案系統中，所述獲取根據該對樣本集進行分類處理的方法得到的第一向量表和第二向量表包括：獲取所述第一向量表和第二向量表的配置參數，通過配置參數獲得第一向量表和第二向量表的存取路徑；根據所述存取路徑從所述分散式檔案系統中讀取第一向量表和第二向量表。
根據請求項1所述的方法，還包括：通過查詢標記檔案，確定所述第一向量表和第二向量表的更新狀態。
根據請求項1所述的方法，還包括：對所述索引表中第一索引字段進行索引倒排，獲得第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本。
一種查詢相似樣本的方法，包括：獲取查詢樣本的特徵向量T；獲取根據對樣本集進行分類處理的方法獲得的第一向量表和第二向量表，該對樣本集進行分類處理的方法包括：通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心；在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心；在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量；獲取如請求項1所述的索引表；從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量T的距離滿足第一預定條件的中心向量，將該中心向量所對應的類簇作為選定類簇；根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本；確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離；將所述樣本距離滿足第二預定條件的樣本確定為所述查詢樣本的相似樣本。
根據請求項5所述的方法，其中所述第一預定條件為：距離最小的預定數目個中心向量，或者，距離小於一定閾值的中心向量。
根據請求項5所述的方法，其中根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本包括：通過對第一索引字段進行索引倒排，確定與選定類簇對應的樣本作為對比樣本。
根據請求項5所述的方法，其中所述索引表還包括根據所述第一索引字段確定的第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本；根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本包括：通過查詢所述第一倒排索引表，讀取與所述選定類簇對應的樣本作為對比樣本。
根據請求項5所述的方法，其中確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離包括：將所述特徵向量T根據維度劃分為M個分段，形成與各個分段i對應的分段向量Ti；通過查詢索引表的第二索引字段以及第二向量表，確定對比樣本在各分段i下對應的分段類簇標識和分段中心向量；確定特徵向量T在各分段i下的分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di；基於各個分段距離Di，確定查詢樣本與對比樣本之間的樣本距離。
根據請求項9所述的方法，其中確定特徵向量T在各分段i下的分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di包括：計算所述特徵向量T在各分段i下的分段向量Ti與第二向量表中記錄的、該分段i下的各個分段中心向量j之間的距離Dij，形成距離表；利用對比樣本在各分段i下對應的分段類簇標識，查詢所述距離表，確定分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di。
一種為樣本集建立索引表的裝置，包括：向量表獲取單元，配置為獲取對樣本集進行分類處理的裝置得到的第一向量表和第二向量表，該對樣本集進行分類處理的裝置包括：第一聚類單元，配置為通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心，並在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；分段單元，配置為將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；第二聚類單元，配置為分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心，並在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量；樣本獲取單元，配置為獲取所述樣本集中任意樣本的特徵向量V；第一索引建立單元，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量V距離最近的中心向量，將該最近的中心向量對應的類簇標識作為第一索引數據；分段單元，配置為將所述特徵向量V根據維度劃分為M個分段，形成與各個分段i對應的分段向量Vi；第二索引建立單元，配置為從所述第二向量表記錄的、各個分段i對應的k個分段中心向量中，確定與對應的分段向量Vi距離最近的分段中心向量，將確定出的分段中心向量對應的分段類簇的類簇標識作為第二索引數據；記錄單元，配置為分別將所述第一索引數據和第二索引數據添加到索引表的第一索引字段和第二索引字段中。
根據請求項11所述的裝置，其中所述第一向量表和第二向量表儲存在分散式檔案系統中，所述向量表獲取單元配置為：獲取所述第一向量表和第二向量表的配置參數，通過配置參數獲得第一向量表和第二向量表的存取路徑；根據所述存取路徑從所述分散式檔案系統中讀取第一向量表和第二向量表。
根據請求項11所述的裝置，還包括：狀態查詢單元，配置為通過查詢標記檔案，確定所述第一向量表和第二向量表的更新狀態。
根據請求項11所述的裝置，還包括：索引倒排單元，配置為對所述索引表中第一索引字段進行索引倒排，獲得第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本。
一種查詢相似樣本的裝置，包括：查詢樣本獲取單元，配置為獲取查詢樣本的特徵向量T；向量表獲取單元，配置為獲取通過對樣本集進行分類處理的裝置得到的第一向量表和第二向量表，該對樣本集進行分類處理的裝置包括：第一聚類單元，配置為通過對樣本集中多個樣本的特徵向量進行聚類，確定N個類簇以及對應的N個類簇中心，並在第一向量表中記錄所述N個類簇的類簇標識以及所述N個類簇中心對應的N個中心向量；分段單元，配置為將所述多個樣本中各個樣本的特徵向量根據維度劃分為M個分段，以形成與各個分段i對應的分段向量；第二聚類單元，配置為分別對所述多個樣本的各個分段向量進行聚類，確定各個分段i對應的k個分段類簇，以及對應的k個分段類簇中心，並在第二向量表中記錄各個分段i對應的k個分段類簇的類簇標識，以及各個分段類簇中心對應的分段中心向量；索引表獲取單元，配置為獲取通過請求項11的裝置得到的索引表；第一確定單元，配置為從所述第一向量表記錄的N個中心向量中，確定出與所述特徵向量T的距離滿足第一預定條件的中心向量，將該中心向量所對應的類簇作為選定類簇；第二確定單元，配置為根據所述索引表中的第一索引字段，確定與所述選定類簇對應的樣本作為對比樣本；距離確定單元，配置為確定所述對比樣本中各個對比樣本與所述查詢樣本之間的樣本距離；樣本確定單元，配置為將所述樣本距離滿足第二預定條件的樣本確定為所述查詢樣本的相似樣本。
根據請求項15所述的裝置，其中所述第一預定條件為：距離最小的預定數目個中心向量，或者，距離小於一定閾值的中心向量。
根據請求項15所述的裝置，其中所述第二確定單元配置為：通過對第一索引字段進行索引倒排，確定與選定類簇對應的樣本作為對比樣本。
根據請求項15所述的裝置，其中所述索引表還包括根據所述第一索引字段確定的第一倒排索引表，所述第一倒排索引表記錄各個類簇所對應的樣本；所述第二確定單元配置為：通過查詢所述第一倒排索引表，讀取與所述選定類簇對應的樣本作為對比樣本。
根據請求項15所述的裝置，其中所述距離確定單元配置為：將所述特徵向量T根據維度劃分為M個分段，形成與各個分段i對應的分段向量Ti；通過查詢索引表的第二索引字段以及第二向量表，確定對比樣本在各分段i下對應的分段類簇標識和分段中心向量；確定特徵向量T在各分段i下的分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di；基於各個分段距離Di，確定查詢樣本與對比樣本之間的樣本距離。
根據請求項19所述的裝置，其中所述距離確定單元還配置為：計算所述特徵向量T在各分段i下的分段向量Ti與第二向量表中記錄的、該分段i下的各個分段中心向量j之間的距離Dij，形成距離表；利用對比樣本在各分段i下對應的分段類簇標識，查詢所述距離表，確定分段向量Ti與對比樣本對應的分段中心向量之間的分段距離Di。
一種計算設備，包括儲存器和處理器，其特徵在於，所述儲存器中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現請求項1至4中任一項所述的方法。
一種計算設備，包括儲存器和處理器，其特徵在於，所述儲存器中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現請求項5至10中任一項所述的方法。