TW201636877A - 對資料物件篩選分類的方法、裝置以及電子設備 - Google Patents

對資料物件篩選分類的方法、裝置以及電子設備 Download PDF

Info

Publication number
TW201636877A
TW201636877A TW104128413A TW104128413A TW201636877A TW 201636877 A TW201636877 A TW 201636877A TW 104128413 A TW104128413 A TW 104128413A TW 104128413 A TW104128413 A TW 104128413A TW 201636877 A TW201636877 A TW 201636877A
Authority
TW
Taiwan
Prior art keywords
description
path
attribute
screening
network
Prior art date
Application number
TW104128413A
Other languages
English (en)
Inventor
Yi-Cong Huang
deng-po Fu
Chao Wang
Yun-Feng Gan
jun-liang Li
Qi Qiang
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201636877A publication Critical patent/TW201636877A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一種對資料物件篩選分類的方法,包括:讀取篩選需求,根據其描述值建立分層的屬性描述網路;從待篩選資料物件的描述資訊中提取出其中包含的所述屬性描述網路中的描述值;建立所述篩選需求與所述屬性描述網路間的映射關係,產生路徑依賴圖;將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各描述值遍歷比較;若一個描述路徑的所有描述值均包含在待篩選資料物件的描述資訊中,則該描述路徑記為該待篩選資料物件的匹配路徑;根據待篩選資料物件的各匹配路徑,確定所述待篩選資料物件符合的篩選需求。該對資料物件篩選分類的方法,基於路徑依賴圖,合併了公共描述值與公共子描述路徑,減少了篩選過程中的判斷,節省了計算時間。

Description

對資料物件篩選分類的方法、裝置以及電子設備
本發明涉及資料篩選技術,具體涉及一種對資料物件篩選分類的方法。本發明同時涉及一種對資料物件篩選分類的裝置,以及一種電子設備。
伴隨著雲計算和大資料的發展,在大資料計算領域湧現出了各種各樣的計算模型,用於在各種各樣的資料計算場景中進行處理和計算;其中,從海量資料中篩選出部分有用資料這一資料計算場景的應用範圍變得越來越廣,尤其表現為根據一次性輸入的大批量篩選需求,從海量使用者資料中篩選出滿足大批量篩選需求中各個篩選需求的目標使用者群。
現有的解決方案是通過Map-Reduce框架程式實現,Map-Reduce是一種用於大批量資料平行計算的軟體架構,可以在數小時內處理十億級的資料登錄。Map-Reduce的基本步驟分為Map和Reduce兩個階段,Map階段的主要流程包括:1)讀入大批量篩選需求,解析其中包含的運算式,建立運算式與Map表之間的對應關係,獲得與 Map表相關的原子運算式並去除重複;2)逐條讀入Map表中記錄的海量使用者資料,針對每一條使用者資料迴圈執行上述原子運算式計算;3)通過Map表輸出的使用者資料中的使用者ID,以列表的形式輸出該用戶在上述原子運算式中滿足的至少一個原子運算式;Reduce階段的主要流程包括:1)讀入大批量篩選需求,解析其中包含的運算式,建立運算式與Map表之間的對應關係,獲得各個篩選需求需要滿足的原子運算式,構成原子運算式列表;2)讀入Map表中的使用者資料,對每個使用者在各個Map表中的使用者資料進行合併,合併之後得到用戶在各個Map表中滿足的多個原子運算式,構成原子運算式列表;3)合併上述1)和2)兩步獲得的結果,得到用戶和篩選需求之間的對應關係,並將用戶和篩選需求之間的對應關係輸出。
上述現有技術提供的對資料物件篩選分類的方法存在明顯的缺陷。
現有技術提供的基於Map-Reduce框架程式實現,當一次性輸入大批量的篩選需求之後,所需的資料計算量非常大,假設篩選需求數目為R,每個篩選需求平均的運算式數目為E,使用者數為N,則實現對使用者的篩選分類的資料計算總量為R*E*N,計算總量非常大,導致計算耗時較長;此外,隨著篩選需求數目的增加,完成大批量資料的篩選分類所需的資料計算時間急劇增長,無法滿足對大批量資料篩選分類的業務需求。
本發明提供一種對資料物件篩選分類的方法,以解決現有的對資料物件篩選分類的方法存在的耗時長和無法滿足大批量資料物件篩選分類的業務需求的問題。本發明同時涉及一種對資料物件篩選分類的裝置,以及一種電子設備。
本發明提供的一種對資料物件篩選分類的方法,包括:讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值;建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑; 根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
可選的,所述將各個篩選需求的描述值列出,建立屬性描述網路,包括:獲取各個篩選需求中包含的描述資訊;對所述描述資訊按照屬性進行分類;每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成所述屬性描述網路。
可選的,所述將上述各個屬性欄位按照從高到低的層級關係分層排布,包括:獲取所述各個屬性欄位下描述值的個數;根據所述各個屬性欄位下描述值的個數從大到小的順序,依次將所述各個屬性欄位按照從高到低的層級關係分層排布。
可選的,所述將上述各個屬性欄位按照從高到低的層級關係分層排布,包括:根據所述屬性欄位的性質,獲取描述值為單一選擇的屬性欄位;將所述描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據 所述屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
可選的,所述屬性描述網路中,對於同一層的不同描述值按照預定的排序標準順序排列。
可選的,所述建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖,包括:將每個篩選需求轉換為描述路徑表達形式;分別產生每個描述路徑運算式的至少一個描述路徑;獲取所述篩選需求的互不重複的描述路徑構成描述路徑組;將所述描述路徑組中的各個描述路徑映射到所述屬性描述網路中,組成路徑依賴圖。
可選的,所述描述路徑為包括至少一個描述值或者包括多個相與關係的描述值;一個描述路徑的不同描述值位於屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
可選的,所述將所述描述路徑組中的各個描述路徑映射到所述屬性描述網路中,組成路徑依賴圖,包括:以層級高優先和同層的描述值在前優先的排序規則,對所述描述路徑排序;按照上述排序,依次將所述描述路徑映射到所述屬性描述網路中;合併描述路徑中具有完全相同的高層描述值的部分, 產生所述路徑依賴圖。
可選的,所述路徑依賴圖中的高層描述值完全相同,包括:從描述路徑包含的最高層描述值向下,每一層都相同。
可選的,所述將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較,在遍歷比較過程中,若所述待篩選物件的描述資訊中不包含某個描述值,則捨棄對路徑依賴圖中通過該描述值向下的描述路徑的遍歷。
可選的,所述將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較的步驟中,所述遍歷採用深度優先遍歷。
可選的,所述根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求的步驟,採用如下方式實現:根據每個篩選需求的描述路徑表達形式,確定每個篩選需求包含的描述路徑;若一個篩選需求包含的任意一個描述路徑包含在所述待篩選資料物件的匹配路徑中,則所述待篩選資料物件符合該篩選需求。
可選的,所述根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求的步驟中,確定所述待篩選資料物件符合的所有篩選需求。
可選的,包括根據待篩選資料物件的符合的各個篩選 需求,將所述待篩選資料物件歸入不同的分類。
本發明同時提供一種對資料物件篩選分類的裝置,包括:篩選需求讀取單元,用於讀取篩選需求;屬性描述網路建立單元,用於將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;待篩選資料物件讀取單元,用於讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值;路徑依賴圖產生單元,用於建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;遍歷比較單元,用於將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若所述路徑依賴圖中的一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求;篩選需求確定單元,用於根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需 求。
可選的,所述屬性描述網路建立單元,包括:描述資訊獲取子單元,用於獲取各個篩選需求中包含的描述資訊;描述資訊分類子單元,用於對所述描述資訊按照屬性進行分類;每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;屬性描述網路產生子單元,用於將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成所述屬性描述網路。
可選的,所述屬性描述網路產生子單元,包括:描述值個數獲取子單元,用於獲取所述各個屬性欄位下描述值的個數;屬性欄位分層排布子單元,用於根據所述各個屬性欄位下描述值的個數從大到小的順序,依次將所述各個屬性欄位按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路產生子單元,包括:單一選擇屬性欄位獲取子單元,用於根據所述屬性欄位的性質,獲取描述值為單一選擇的屬性欄位;屬性欄位置換獲取子單元,用於將所述描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據所述屬性欄位的性質,該屬性欄位所包含的描述值之間互 斥。
可選的,所述屬性描述網路產生子單元,包括:描述值排序子單元,用於將同一層的不同描述值按照預定的排序標準順序排列。
可選的,所述路徑依賴圖產生單元,包括:篩選需求轉換子單元,用於將每個篩選需求轉換為描述路徑表達形式;描述路徑產生子單元,用於分別產生每個描述路徑運算式的至少一個描述路徑;描述路徑組獲取子單元,用於獲取所述篩選需求的互不重複的描述路徑構成描述路徑組;路徑依賴圖產生子單元,用於將所述描述路徑組中的各個描述路徑映射到所述屬性描述網路中,組成路徑依賴圖。
可選的,所述路徑依賴圖產生子單元,包括:描述路徑排序子單元,用於以層級高優先和同層的描述值在前優先的排序規則,對所述描述路徑排序;描述路徑映射子單元,用於按照上述排序,依次將所述描述路徑映射到所述屬性描述網路中;描述路徑合併子單元,用於合併描述路徑中具有完全相同的高層描述值的部分,產生所述路徑依賴圖。
本發明同時提供一種電子設備,包括:顯示器;處理器; 輸入裝置;記憶體,用於儲存程式,該程式用於控制該電子設備執行下述步驟:通過所述輸入裝置讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值;建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若所述路徑依賴圖中的一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
可選的,所述篩選需求中包含有描述資訊,所述描述資訊按照屬性進行分類,每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述 值;所述屬性描述網路中,每層對應一個屬性欄位,各個屬性欄位按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路中,各個屬性欄位根據各自的描述值個數從大到小的順序,按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路中,描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據所述屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
可選的,所述屬性描述網路中,對於同一層的不同描述值按照預定的排序標準順序排列。
可選的,所述篩選需求用於轉換為描述路徑表達形式,所述描述路徑運算式用於產生描述路徑,這些篩選需求的互不重複的描述路徑構成描述路徑組;每個篩選需求轉換的描述路徑表達形式包括至少一個描述路徑。
可選的,所述描述路徑為包括至少一個描述值或者包括多個相與關係的描述值;一個描述路徑的不同描述值位於屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
可選的,所述路徑依賴圖中,高層描述值完全相同的描述路徑,其相同部分被合併,形成向低層分叉的分支路徑;所述高層描述值完全相同,是指從描述路徑包含的最高層描述值向下,每一層都相同。
可選的,所述遍歷採用深度優先遍歷。
可選的,所述待篩選資料物件符合的篩選需求存在一個或者多個,或者不存在。
可選的,所述待篩選資料物件根據符合的各個篩選需求,歸入不同的分類。
與現有技術相比,本發明具有以下優點:本發明提供的一種對資料物件篩選分類的方法,包括:讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值;建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若所述路徑依賴圖中的一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
本發明提供的所述對資料物件篩選分類的方法中,根據讀取的篩選需求建立屬性描述網路,並根據輸入的所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖,將所述待篩選資料物件的描述資 訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較,獲得所述待篩選資料物件的匹配路徑,從而得出所述待篩選資料物件符合的篩選需求;該對資料物件篩選分類的方法,基於路徑依賴圖,合併了公共描述值與公共子描述路徑,減少了篩選過程中的判斷過程,節省了資料計算時間,在進行大批量的資料篩選時,可以節省大量時間,滿足進行大批量資料篩選分類的業務需求。在本發明的較佳實施例中,結合分層過濾剪枝方式,可進一步節省計算時間。
401‧‧‧篩選需求讀取單元
402‧‧‧屬性描述網路建立單元
403‧‧‧待篩選資料物件讀取單元
404‧‧‧路徑依賴圖產生單元
405‧‧‧遍歷比較單元
406‧‧‧篩選需求確定單元
501‧‧‧顯示器
502‧‧‧處理器
503‧‧‧輸入裝置
504‧‧‧記憶體
圖1是本發明第一實施例提供的一種對資料物件篩選分類的方法處理流程圖;圖2是本發明第一實施例提供的一種屬性描述網路的示意圖;圖3是本發明第一實施例提供的一種路徑依賴圖的示意圖;圖4是本發明第二實施例提供的一種對資料物件篩選分類的裝置示意圖;圖5是本發明第三實施例提供的一種電子設備示意圖。
在下面的描述中闡述了很多具體細節以便於充分理解 本發明。但是本發明能夠以很多不同於在此描述的其他方式來實施,本領域技術人員可以在不違背本發明內涵的情況下做類似推廣,因此本發明不受下面公開的具體實施的限制。
本發明第一實施例提供一種對資料物件篩選分類的方法,本發明第二實施例提供一種對資料物件篩選分類的裝置,本發明第三實施例提供一種電子設備。
本發明第一實施例提供的對資料物件篩選分類的方法的實施例請參照圖1至圖3,其示出了該對資料物件篩選分類的方法的處理流程圖。
以下結合圖1對本實施例提供的一種對資料物件篩選分類的方法進行說明,並且對該方法的各個步驟進行說明;此外,本實施例提供的一種對資料物件篩選分類的方法的具體步驟之間的順序關係請根據圖1確定。
本實施例假設的應用場景為電子商務平臺中,一次性讀取商家的大批量的篩選需求,從海量用戶中篩選出符合各個篩選需求的目標使用者。本發明提供的對資料物件篩選分類的方法當然還可以用於其它場合,在此不作限定。
步驟S101,讀取篩選需求。
本實施例中,所述篩選需求,是指在電子商務平臺中商家用於從海量使用者中篩選目標使用者輸入的篩選條件;例如:在電子商務平臺中,商家想要根據使用者資訊從海量使用者中篩選出性別為男、年齡小於18、興趣為 運動,並且在該商家的店鋪內購買商品的月成交額小於1000的所有用戶,則上述性別為男、年齡小於18、興趣為運動,並且店鋪月成交額小於1000為該商家輸入的篩選條件,即:篩選需求;並且該商家想要獲取的目標使用者的使用者資訊必須同時滿足下述四個條件:性別為男、年齡小於18、興趣為運動,並且店鋪月成交額小於1000,缺一不可。
需要說明的是,本實施例中,讀取篩選需求是指一次性讀取大批量篩選需求,這些篩選需求中包含描述目標物件的種種描述資訊。
步驟S102,將各個篩選需求的描述值列出,建立屬性描述網路。
所述屬性描述網路,是指一種用於表達使用者的使用者資訊的方式。
所述屬性描述網路的建立步驟如下:
1)獲取各個篩選需求中包含的描述資訊;所述篩選需求中包含的描述資訊,是指用於描述篩選需求的文字或者圖像資訊。
例如:上述商家的篩選需求為:性別為男、年齡小於18、興趣為運動、店鋪月成交額小於1000為,則該篩選需求中包含的描述資訊可以用“性別=男and年齡<18 and興趣=運動and店鋪月成交額<1000”來表示。
本步驟中,獲取上述步驟S101中讀取的大批量篩選需求中各個篩選需求包含的描述資訊,為下述步驟2)和 3)根據各個篩選需求中包含的描述資訊建立所述屬性描述網路做資料準備。
需要說明的是,本步驟還包括對所述篩選需求中包含的描述資訊進行解析和最佳化; 本實施例中,對所述描述資訊進行解析,是指對所述描述資訊進行語法分析,檢查是否合法;此外,還包括對所述描述資訊中包含的運算進行運算順序的最佳化; 對所述描述資訊進行最佳化,包括對所述描述資訊中包含的運算進行運算順序的最佳化,具體是指將所述描述資訊中包含的“或(or)”運算全部等價轉換為一組或者多組“與(and)”運算。
例如:包含“or”運算的描述資訊“(A or B)and C”可以等價轉換成兩組僅包含“and”運算的“A and C”、“B and C”。
此外,對所述描述資訊進行最佳化,還包括對所述描述資訊進行語義分析最佳化,包括:對所述描述資訊進行語義分析最佳化包含描述資訊的去除重複,將多個重複的描述資訊進行去除重複,保留其中任意一個即可;以及,分析描述資訊之間的包含關係。
例如:描述資訊“(A or B)and C”和描述資訊“A and B and C”,前者包含後者,即:根據包含描述資訊“(A or B)and C”的篩選需求篩選出的目標使用者中包含有根據包含描述資訊“A and B and C”的篩選需求篩選出的全部目標使用者。
除此之外,上述的對所述篩選需求中包含的描述資訊進行解析和最佳化還可以採用其他方式實現,在此不作限定。
2)對所述描述資訊按照屬性進行分類;每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;將上述步驟1)獲取到的各個篩選需求中包含的描述資訊,按照所述描述資訊的屬性進行分類,分為多個分類,針對每一個屬性設置一個對應的屬性欄位,並將上述歸屬於每一個屬性下的至少一個描述資訊進行規範化,所述描述資訊規範化之後分別作為該屬性對應的屬性欄位下的描述值。
例如:上述篩選需求中包含的描述資訊:“性別=男and年齡<18 and興趣=運動and店鋪月成交額<1000”,將該選需求中包含的描述資訊按照屬性分為性別、年齡、興趣和店鋪月成交額4類,則性別屬性下的描述資訊為“性別=男”,年齡屬性下的描述資訊為“年齡<18”,興趣屬性下的描述資訊為“興趣=運動”,店鋪月成交額屬性下的描述資訊為“店鋪月成交額<1000”;並且,將上述性別屬性下的描述資訊“性別=男”規範化為“男”,作為性別屬性欄位下的描述值;將上述年齡屬性下的描述資訊“年齡<18”規範化為“<18”,作為年齡屬性欄位下的描述值;將上述興趣屬性下的描述資訊“興趣=運 動”規範化為“運動”,作為興趣屬性欄位下的描述值;以及將上述店鋪月成交額屬性下的描述資訊“店鋪月成交額<1000”規範化為“<1000”,作為店鋪月成交額屬性欄位下的描述值。
3)將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成所述屬性描述網路。
屬性描述網路可以抽象為一種分層過濾模型,並且只有通過上一層級的過濾之後,才會到下一層級進行過濾,因此,將具有強過濾描述值對應的屬性欄位放在層級位置比較高的層級,以減少資料計算量,從而加快計算。
本實施例中,獲取上述步驟2)得到的各個屬性欄位中每一個屬性欄位下描述值的個數,根據所述每一個屬性欄位下描述值的個數從大到小的順序,將上述步驟2)得到的各個屬性欄位,依次按照從高到低的層級關係分層排布,每層對應一個屬性欄位,構成所述屬性描述網路。
需要說明的是,在對上述步驟2)得到的各個屬性欄位按照從高到低的層級關係分層排布時,按照下述規則:根據上述各個屬性欄位的性質,獲取所述屬性欄位中描述值為單一選擇的屬性欄位;將所述描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據所述屬性欄位的性質,該屬性欄位所包含的描述值之間互 斥,例如:性別屬性欄位下的描述值,“男、女、未知”之間是相互互斥的,對於任意一個使用者,性別屬性是確定的,因此,使用者的使用者資訊中,只能包含“男、女、未知”中的任意一個,不能同時包含兩個或者兩個以上。
對於單一選擇的屬性欄位,該屬性欄位包含的所有描述值中,有且僅有一個描述值成立;但是對於不是單一選擇的屬性欄位,可能有一個或者多個描述值成立,在進行資料計算時往往要遍歷該屬性欄位包含的所有描述值,計算耗時遠大於單一選擇的屬性欄位遍歷的計算耗時,因此,將單一選擇的屬性欄位置於其他屬性欄位(即:不是單一選擇的屬性欄位)之上,可以有效的減小經過單一選擇的屬性欄位的過濾之後還需進行的其他屬性欄位過濾所需的資料計算量,減少計算耗時,提高性能。
此外,需要說明的是,所述屬性描述網路中,同一層對應的一個屬性欄位下的不同描述值按照預定的排序標準順序排列。
綜上所述,所述屬性描述網路具有如下特性:每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,各層具有從上到下的層級關係;各個屬性欄位按照描述值的個數從大到小依次按照從上到下的層級關係分層排布,並且描述值為單一選擇的屬性欄位置於其他屬性欄位之上;並且,各層分別對應的屬性欄位下的不同描述值按照預定的排序標準順序排列。
例:如圖2所示,其示出了所述屬性描述網路的示意圖。
除此之外,上述將各個屬性欄位按照從上到下的層級關係分層排布,構成所述屬性描述網路的步驟,還可以用本實施例之外的其他方法實現,在此不作限定。
步驟S103,讀取待篩選資料物件的描述資訊。
所述待篩選資料物件的描述資訊,是指電子商務平臺中海量使用者的使用者資訊。
本步驟中,讀取海量的待篩選資料物件的描述資訊,並從各個待篩選資料物件的描述資訊中提取出所述描述資訊中包含的至少一個所述屬性描述網路中的描述值。
例如:使用者A的使用者資訊為:“性別=男、年齡<18、興趣=運動、在某商家的店鋪中店鋪月成交額>1000”,則提取出該用戶A在上述的附圖2所示的屬性描述網路中的描述值為:“男、<18、運動、<1000”。
步驟S104,建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖。
具體實現如下:
1)將每個篩選需求轉換為描述路徑表達形式;本步驟中,根據上述步驟S101中讀取的大批量篩選需求,見該大批量篩選需求中各個篩選需求轉換為描述路徑表達形式;其中,篩選需求與描述路徑運算式一一對應。
2)分別產生每個描述路徑運算式的至少一個描述路 徑;根據上述步驟1)獲得的所述描述路徑表達形式,根據所述描述路徑運算式,分別產生每個描述路徑運算式的至少一個描述路徑。
3)獲取所述篩選需求的互不重複的描述路徑構成描述路徑組;根據上述步驟2)獲得各個篩選需求的描述路徑之後,去除各個篩選需求的描述路徑的集合中重複的描述路徑,構成各個篩選需求(即:大批量篩選需求)的描述路徑組;其中,所述描述路徑為包括至少一個描述值或者包括多個相與關係的描述值,一個描述路徑的不同描述值位於所述屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
4)將所述描述路徑組中的各個描述路徑映射到所述屬性描述網路中,組成路徑依賴圖。
根據上述步驟3)獲得各個篩選需求(即:大批量篩選需求)的描述路徑組,本步驟中,將所述描述路徑組中的各個描述路徑映射到所述屬性描述網路中,組成所述路徑依賴圖。
步驟如下:a、根據上述步驟3)獲得的各個篩選需求(即:大批量篩選需求)的描述路徑組,以層級高優先和同層的描述值在前優先的排序規則,對所述描述路徑組中的所有描 述路徑進行排序;b、根據上述步驟a中的所述描述路徑組中的所有描述路徑進行排序,依次將所述描述路徑組中的所有描述路徑映射到所述屬性描述網路中;c、合併描述路徑中具有完全相同的高層描述值的部分,組成所述路徑依賴圖。
所述高層描述值完全相同,是指從描述路徑包含的最高層描述值向下,每一層都相同。
例如:描述路徑組包括:描述路徑A和描述路徑B;其中,描述路徑A為:“男and<18 and運動and<1000”,描述路徑B為:“男and<18 and運動and>1000 and<10000”;描述路徑A和描述路徑B的高層描述值(男、<18、運動)相同;則合併描述路徑A和描述路徑B的高層描述值(男、<18、運動),組成的所述路徑依賴圖,如圖3所示,其示出了所述路徑依賴圖的示意圖。
除此之外,上述路徑依賴圖還可以採用其他方法實現,在此不做限定。
步驟S105,將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較。
根據上述步驟S103讀取的海量待篩選資料物件的描述資訊,以及上述步驟S104獲得的所述路徑依賴圖,本 步驟中,將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較,若一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑,從而獲得海量待篩選資料物件中每個待篩選資料物件的匹配路徑。
其中,每個待篩選資料物件的匹配路徑可能為一個或者多個,也可能不存在。
需要說明的是,本實施例採用深度優先遍歷將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較。
以下,通過舉例說明所述深度優先遍歷的實現過程,如圖3所示的路徑依賴圖,以下結合圖3所示的路徑依賴圖,對本實施例提供的深度優先遍歷進行說明;圖3所示的路徑依賴圖中,根據從上到下的層級關係,以及從左到右的描述值排列順序,路徑依賴圖中包含的描述路徑依次包括:描述路徑1:“男and<18 and運動and<1000”;描述路徑2:“男and<18 and運動and>1000 and<10000”;描述路徑3:“男and<18 and運動and>10000”;描述路徑4:“男and<18 and手機and<1000”;描述路徑5:“男and<18 and手機and>1000 and<10000”; 描述路徑6:“男and<18 and手機and>10000”;描述路徑7:“男and>20 and<30 and運動and<1000”;描述路徑8:“男and>20 and<30 and運動and>1000 and<10000”;描述路徑9:“男and>20 and<30 and運動and>10000”;描述路徑10:“男and>20 and<30 and手機and<1000”;描述路徑11:“男and>20 and<30 and手機and>1000 and<10000”;描述路徑12:“男and>20 and<30 and手機and>10000”;按照深度優先遍歷的規則與所述路徑依賴圖中的各個描述值進行遍歷比較時:待篩選資料物件的描述資訊為x,在假設篩選資料物件的描述資訊為x中包含有圖3所示的路徑依賴圖中的所有描述值的情況下,則按照深度優先遍歷的規則的比較順序為:“男”->“<18”->“運動”->“<1000”->“>1000 and<10000”->“>10000”->“手機”->“<1000”->“>1000 and<10000”->“>10000”->“20 and<30”“運動”->“<1000”->“>1000 and<10000”->“>10000”->“手機”->“<1000”->“>1000 and<10000”->“>10000”。
上述的深度優先遍歷的規則的比較順序是一種基於假 設下的情況,目的是為了充分說明按照深度優先遍歷進行遍歷時的順序規則。
一般而言,則在遍歷比較過程中,若所述待篩選物件的描述資訊中不包含某個描述值,則捨棄對路徑依賴圖中通過該描述值向下的描述路徑的遍歷。
例如:上述圖3所示的路徑依賴圖中,待篩選資料物件的描述資訊x中不包含“年齡”屬性欄位的描述值“<18”,則將經過該描述值“<18”的所有描述路徑(包括:描述路徑1至描述路徑6)捨棄,即:無需對描述路徑1至描述路徑6進行遍歷,只需對描述路徑7至描述路徑12按照深度優先遍歷進行遍歷即可。
若一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑,即:給所述待篩選資料物件打上標籤,該標籤即為包含所述匹配路徑的標籤。
若所述待篩選資料物件的匹配路徑為一個,則給所述待篩選資料物件打上包含該匹配路徑的標籤;若所述待篩選資料物件的匹配路徑為多個(大於或等於2個),則給所述待篩選資料物件分別打上包含各個匹配路徑的標籤;若所述待篩選資料物件不存在匹配路徑,則表明該待篩選資料物件為無效資料,不作處理即可。
步驟S106,根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
上述步驟S105中根據深度優先遍歷演算法進行比較,獲得了海量待篩選資料物件中每個待篩選資料物件的匹配路徑,本步驟中,根據上述步驟S105獲得的每個待篩選資料物件的各個匹配路徑,確定海量待篩選資料物件中每個待篩選資料物件符合的篩選需求。
具體實現如下:
1)根據每個篩選需求的描述路徑表達形式,確定每個篩選需求包含的描述路徑;根據上述步驟S104獲得的大批量篩選需求中每個篩選需求的描述路徑表達形式,確定大批量篩選需求中每個篩選需求包含的至少一個描述路徑,並且,每個描述路徑歸屬於至少一個篩選需求。
2)若一個篩選需求包含的任意一個描述路徑包含在所述待篩選資料物件的匹配路徑中,則所述待篩選資料物件符合該篩選需求。
根據上述步驟S105獲得的所述待篩選資料物件的匹配路徑,以及根據上述步驟1)確定的每個篩選需求包含的描述路徑,將所述待篩選資料物件分別歸入所述匹配路徑歸屬的各個篩選需求對應的分類下,即:得到了每個待篩選資料物件滿足的篩選需求,每個待篩選資料物件滿足的篩選需求個數可能為一個或者多個,也可能不存在。
重複上述過程,直至將上述步驟S103讀取的海量待篩選資料物件全部歸屬到篩選需求對應的分類下;從而得到步驟S101中讀取的大批量篩選需求中每個 篩選需求的分類下的待篩選資料物件的集合。
除此之外,上述實現還可以採用本實施例之外的其他方法實現,在此不做限定。
本發明第二實施例提供的所述對資料物件篩選分類的裝置實施例如下:在上述的實施例中,提供了一種對資料物件篩選分類的方法,與之相對應的,本發明還提供了一種對資料物件篩選分類的裝置。
參照圖4,其示出了根據本實施例提供的一種對資料物件篩選分類的裝置示意圖。由於裝置實施例基本相似於方法實施例,所以描述得比較簡單,相關的部分請參見方法實施例的對應說明即可。下述描述的裝置實施例僅僅是示意性的。
本發明所述的一種對資料物件篩選分類的裝置,包括:篩選需求讀取單元401,用於讀取篩選需求;屬性描述網路建立單元402,用於將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;待篩選資料物件讀取單元403,用於讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值; 路徑依賴圖產生單元404,用於建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;遍歷比較單元405,用於將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若所述路徑依賴圖中的一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求;篩選需求確定單元406,用於根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
可選的,所述屬性描述網路建立單元402,包括:描述資訊獲取子單元,用於獲取各個篩選需求中包含的描述資訊;描述資訊分類子單元,用於對所述描述資訊按照屬性進行分類;每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;屬性描述網路產生子單元,用於將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成所述屬性描述網路。
可選的,所述屬性描述網路產生子單元,包括: 描述值個數獲取子單元,用於獲取所述各個屬性欄位下描述值的個數;屬性欄位分層排布子單元,用於根據所述各個屬性欄位下描述值的個數從大到小的順序,依次將所述各個屬性欄位按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路產生子單元,包括:單一選擇屬性欄位獲取子單元,用於根據所述屬性欄位的性質,獲取描述值為單一選擇的屬性欄位;屬性欄位置換獲取子單元,用於將所述描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據所述屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
可選的,所述屬性描述網路產生子單元,包括:描述值排序子單元,用於將同一層的不同描述值按照預定的排序標準順序排列。
可選的,所述路徑依賴圖產生單元404,包括:篩選需求轉換子單元,用於將每個篩選需求轉換為描述路徑表達形式;描述路徑產生子單元,用於分別產生每個描述路徑運算式的至少一個描述路徑;描述路徑組獲取子單元,用於獲取所述篩選需求的互不重複的描述路徑構成描述路徑組;路徑依賴圖產生子單元,用於將所述描述路徑組中的 各個描述路徑映射到所述屬性描述網路中,組成路徑依賴圖。
可選的,所述路徑依賴圖產生子單元,包括:描述路徑排序子單元,用於以層級高優先和同層的描述值在前優先的排序規則,對所述描述路徑排序;描述路徑映射子單元,用於按照上述排序,依次將所述描述路徑映射到所述屬性描述網路中;描述路徑合併子單元,用於合併描述路徑中具有完全相同的高層描述值的部分,產生所述路徑依賴圖。
本發明第三實施例提供的所述電子設備實施例如下:在上述的實施例中,提供了一種對資料物件篩選分類的方法,還提供了一種與之相對應的對資料物件篩選分類的裝置,另外,本發明提供一種用於實現上述對資料物件篩選分類的方法的電子設備。
參照圖5,其示出了根據本實施例提供的一種電子設備示意圖。所述電子設備實施例描述得比較簡單,相關的部分請參見上述方法實施例的對應說明即可。下述描述的所述電子設備實施例僅僅是示意性的。
本發明所述的一種電子設備,包括:顯示器501;處理器502;輸入裝置503;記憶體504,用於儲存程式,該程式用於控制該電子設備執行下述步驟: 通過所述輸入裝置503讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個所述屬性描述網路中的描述值;建立所述篩選需求與所述屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將所述待篩選資料物件的描述資訊中包含的描述值與所述路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若所述路徑依賴圖中的一個描述路徑的所有描述值均包含在所述待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據所述待篩選資料物件的各個匹配路徑,確定所述待篩選資料物件符合的篩選需求。
可選的,所述篩選需求中包含有描述資訊,所述描述資訊按照屬性進行分類,每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;所述屬性描述網路中,每層對應一個屬性欄位,各個屬性欄位按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路中,各個屬性欄位根據各 自的描述值個數從大到小的順序,按照從高到低的層級關係分層排布。
可選的,所述屬性描述網路中,描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,所述描述值為單一選擇的屬性欄位,是指根據所述屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
可選的,所述屬性描述網路中,對於同一層的不同描述值按照預定的排序標準順序排列。
可選的,所述篩選需求用於轉換為描述路徑表達形式,所述描述路徑運算式用於產生描述路徑,這些篩選需求的互不重複的描述路徑構成描述路徑組;每個篩選需求轉換的描述路徑表達形式包括至少一個描述路徑。
可選的,所述描述路徑為包括至少一個描述值或者包括多個相與關係的描述值;一個描述路徑的不同描述值位於屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
可選的,所述路徑依賴圖中,高層描述值完全相同的描述路徑,其相同部分被合併,形成向低層分叉的分支路徑;所述高層描述值完全相同,是指從描述路徑包含的最高層描述值向下,每一層都相同。
可選的,所述遍歷採用深度優先遍歷。
可選的,所述待篩選資料物件符合的篩選需求存在一個或者多個,或者不存在。
可選的,所述待篩選資料物件根據符合的各個篩選需 求,歸入不同的分類。
本發明雖然以較佳實施例公開如上,但其並不是用來限定本發明,任何本領域技術人員在不脫離本發明的精神和範圍內,都可以做出可能的變動和修改,因此本發明的保護範圍應當以本發明申請專利範圍所界定的範圍為準。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
1、電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括非暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
2、本領域技術人員應明白,本發明的實施例可提供為方法、系統或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

Claims (32)

  1. 一種對資料物件篩選分類的方法,其特徵在於,包括:讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個該屬性描述網路中的描述值;建立該篩選需求與該屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將該待篩選資料物件的描述資訊中包含的描述值與該路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若一個描述路徑的所有描述值均包含在該待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路徑;根據該待篩選資料物件的各個匹配路徑,確定該待篩選資料物件符合的篩選需求。
  2. 根據申請專利範圍第1項的對資料物件篩選分類的方法,其中,該將各個篩選需求的描述值列出,建立屬性描述網路,包括:獲取各個篩選需求中包含的描述資訊;對該描述資訊按照屬性進行分類;每一個屬性設置一 個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成該屬性描述網路。
  3. 根據申請專利範圍第2項的對資料物件篩選分類的方法,其中,該將上述各個屬性欄位按照從高到低的層級關係分層排布,包括:獲取該各個屬性欄位下描述值的個數;根據該各個屬性欄位下描述值的個數從大到小的順序,依次將該各個屬性欄位按照從高到低的層級關係分層排布。
  4. 根據申請專利範圍第2項的對資料物件篩選分類的方法,其中,該將上述各個屬性欄位按照從高到低的層級關係分層排布,包括:根據該屬性欄位的性質,獲取描述值為單一選擇的屬性欄位;將該描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,該描述值為單一選擇的屬性欄位,是指根據該屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
  5. 根據申請專利範圍第2項的對資料物件篩選分類的方法,其中,該屬性描述網路中,對於同一層的不同描述值按照預定的排序標準順序排列。
  6. 根據申請專利範圍第1項的對資料物件篩選分類的方法,其中,該建立該篩選需求與該屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖,包括:將每個篩選需求轉換為描述路徑表達形式;分別產生每個描述路徑運算式的至少一個描述路徑;獲取該篩選需求的互不重複的描述路徑構成描述路徑組;將該描述路徑組中的各個描述路徑映射到該屬性描述網路中,組成路徑依賴圖。
  7. 根據申請專利範圍第6項的對資料物件篩選分類的方法,其中,該描述路徑為包括至少一個描述值或者包括多個相與關係的描述值;一個描述路徑的不同描述值位於屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
  8. 根據申請專利範圍第6項的對資料物件篩選分類的方法,其中,該將該描述路徑組中的各個描述路徑映射到該屬性描述網路中,組成路徑依賴圖,包括:以層級高優先和同層的描述值在前優先的排序規則,對該描述路徑排序;按照上述排序,依次將該描述路徑映射到該屬性描述網路中;合併描述路徑中具有完全相同的高層描述值的部分,產生該路徑依賴圖。
  9. 根據申請專利範圍第8項的對資料物件篩選分類的 方法,其中,該路徑依賴圖中的高層描述值完全相同,包括:從描述路徑包含的最高層描述值向下,每一層都相同。
  10. 根據申請專利範圍第1項的對資料物件篩選分類的方法,其中,該將該待篩選資料物件的描述資訊中包含的描述值與該路徑依賴圖中的各個描述值進行遍歷比較,在遍歷比較過程中,若該待篩選物件的描述資訊中不包含某個描述值,則捨棄對路徑依賴圖中通過該描述值向下的描述路徑的遍歷。
  11. 根據申請專利範圍第1項的對資料物件篩選分類的方法,其中,該將該待篩選資料物件的描述資訊中包含的描述值與該路徑依賴圖中的各個描述值進行遍歷比較的步驟中,該遍歷採用深度優先遍歷。
  12. 根據申請專利範圍第1項的對資料物件篩選分類的方法,其中,該根據該待篩選資料物件的各個匹配路徑,確定該待篩選資料物件符合的篩選需求的步驟,採用如下方式實現:根據每個篩選需求的描述路徑表達形式,確定每個篩選需求包含的描述路徑;若一個篩選需求包含的任意一個描述路徑包含在該待篩選資料物件的匹配路徑中,則該待篩選資料物件符合該篩選需求。
  13. 根據申請專利範圍第12項的對資料物件篩選分類的方法,其中,該根據該待篩選資料物件的各個匹配路 徑,確定該待篩選資料物件符合的篩選需求的步驟中,確定該待篩選資料物件符合的所有篩選需求。
  14. 根據申請專利範圍第13項的對資料物件篩選分類的方法,其中,包括根據待篩選資料物件的符合的各個篩選需求,將該待篩選資料物件歸入不同的分類。
  15. 一種對資料物件篩選分類的裝置,其特徵在於,包括:篩選需求讀取單元,用於讀取篩選需求;屬性描述網路建立單元,用於將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;待篩選資料物件讀取單元,用於讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個該屬性描述網路中的描述值;路徑依賴圖產生單元,用於建立該篩選需求與該屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;遍歷比較單元,用於將該待篩選資料物件的描述資訊中包含的描述值與該路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若該路徑依賴圖中的一個描述路徑的所有描述值均包含在該待篩選資料物件的描述資訊中,則將該描述路徑記錄為該待篩選資料物件的匹配路 徑;根據該待篩選資料物件的各個匹配路徑,確定該待篩選資料物件符合的篩選需求;篩選需求確定單元,用於根據該待篩選資料物件的各個匹配路徑,確定該待篩選資料物件符合的篩選需求。
  16. 根據申請專利範圍第15項的對資料物件篩選分類的裝置,其中,該屬性描述網路建立單元,包括:描述資訊獲取子單元,用於獲取各個篩選需求中包含的描述資訊;描述資訊分類子單元,用於對該描述資訊按照屬性進行分類;每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;屬性描述網路產生子單元,用於將上述各個屬性欄位按照從高到低的層級關係分層排布;每層對應一個屬性欄位,構成該屬性描述網路。
  17. 根據申請專利範圍第16項的對資料物件篩選分類的裝置,其中,該屬性描述網路產生子單元,包括:描述值個數獲取子單元,用於獲取該各個屬性欄位下描述值的個數;屬性欄位分層排布子單元,用於根據該各個屬性欄位下描述值的個數從大到小的順序,依次將該各個屬性欄位按照從高到低的層級關係分層排布。
  18. 根據申請專利範圍第16項的對資料物件篩選分類的裝置,其中,該屬性描述網路產生子單元,包括: 單一選擇屬性欄位獲取子單元,用於根據該屬性欄位的性質,獲取描述值為單一選擇的屬性欄位;屬性欄位置換獲取子單元,用於將該描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,該描述值為單一選擇的屬性欄位,是指根據該屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
  19. 根據申請專利範圍第18項的對資料物件篩選分類的裝置,其中,該屬性描述網路產生子單元,包括:描述值排序子單元,用於將同一層的不同描述值按照預定的排序標準順序排列。
  20. 根據申請專利範圍第18項的對資料物件篩選分類的裝置,其中,該路徑依賴圖產生單元,包括:篩選需求轉換子單元,用於將每個篩選需求轉換為描述路徑表達形式;描述路徑產生子單元,用於分別產生每個描述路徑運算式的至少一個描述路徑;描述路徑組獲取子單元,用於獲取該篩選需求的互不重複的描述路徑構成描述路徑組;路徑依賴圖產生子單元,用於將該描述路徑組中的各個描述路徑映射到該屬性描述網路中,組成路徑依賴圖。
  21. 根據申請專利範圍第20項的對資料物件篩選分類的裝置,其中,該路徑依賴圖產生子單元,包括:描述路徑排序子單元,用於以層級高優先和同層的描述值在前優先的排序規則,對該描述路徑排序; 描述路徑映射子單元,用於按照上述排序,依次將該描述路徑映射到該屬性描述網路中;描述路徑合併子單元,用於合併描述路徑中具有完全相同的高層描述值的部分,產生該路徑依賴圖。
  22. 一種電子設備,其特徵在於,包括:顯示器;處理器;輸入裝置;記憶體,用於儲存程式,該程式用於控制該電子設備執行下述步驟:通過該輸入裝置讀取篩選需求;將各個篩選需求的描述值列出,建立屬性描述網路;該屬性描述網路為分層網路,每層對應一個屬性欄位,每個屬性欄位具有至少一個描述值,該屬性描述網路的各層具有從高到低的層級關係;讀取待篩選資料物件的描述資訊;從中提取出該待篩選資料物件的描述資訊中包含的至少一個該屬性描述網路中的描述值;建立該篩選需求與該屬性描述網路之間的映射關係,根據該映射關係產生路徑依賴圖;將該待篩選資料物件的描述資訊中包含的描述值與該路徑依賴圖中的各個描述值進行遍歷比較;在遍歷比較過程中,若該路徑依賴圖中的一個描述路徑的所有描述值均包含在該待篩選資料物件的描述資訊中,則將該描述路徑 記錄為該待篩選資料物件的匹配路徑;根據該待篩選資料物件的各個匹配路徑,確定該待篩選資料物件符合的篩選需求。
  23. 根據申請專利範圍第22項的電子設備,其中,該篩選需求中包含有描述資訊,該描述資訊按照屬性進行分類,每一個屬性設置一個對應的屬性欄位,歸屬於每一個屬性下的至少一個描述資訊經過規範化後分別作為該屬性對應的屬性欄位下的至少一個描述值;該屬性描述網路中,每層對應一個屬性欄位,各個屬性欄位按照從高到低的層級關係分層排布。
  24. 根據申請專利範圍第23項的電子設備,其中,該屬性描述網路中,各個屬性欄位根據各自的描述值個數從大到小的順序,按照從高到低的層級關係分層排布。
  25. 根據申請專利範圍第23項的電子設備,其中,該屬性描述網路中,描述值為單一選擇的屬性欄位置於其他屬性欄位之上;其中,該描述值為單一選擇的屬性欄位,是指根據該屬性欄位的性質,該屬性欄位所包含的描述值之間互斥。
  26. 根據申請專利範圍第23項的電子設備,其中,該屬性描述網路中,對於同一層的不同描述值按照預定的排序標準順序排列。
  27. 根據申請專利範圍第22項的電子設備,其中,該篩選需求用於轉換為描述路徑表達形式,該描述路徑運算式用於產生描述路徑,這些篩選需求的互不重複的描述路 徑構成描述路徑組;每個篩選需求轉換的描述路徑表達形式包括至少一個描述路徑。
  28. 根據申請專利範圍第27項的電子設備,其中,該描述路徑為包括至少一個描述值或者包括多個相與關係的描述值;一個描述路徑的不同描述值位於屬性描述網路中的不同層級,並且不同描述值按照所在層級從高到低排列。
  29. 根據申請專利範圍第27項的電子設備,其中,該路徑依賴圖中,高層描述值完全相同的描述路徑,其相同部分被合併,形成向低層分叉的分支路徑;該高層描述值完全相同,是指從描述路徑包含的最高層描述值向下,每一層都相同。
  30. 根據申請專利範圍第22項的電子設備,其中,該遍歷採用深度優先遍歷。
  31. 根據申請專利範圍第23項的電子設備,其中,該待篩選資料物件符合的篩選需求存在一個或者多個,或者不存在。
  32. 根據申請專利範圍第24項的電子設備,其中,該待篩選資料物件根據符合的各個篩選需求,歸入不同的分類。
TW104128413A 2015-01-09 2015-08-28 對資料物件篩選分類的方法、裝置以及電子設備 TW201636877A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510011902.XA CN105824855B (zh) 2015-01-09 2015-01-09 一种对数据对象筛选分类的方法、装置以及电子设备

Publications (1)

Publication Number Publication Date
TW201636877A true TW201636877A (zh) 2016-10-16

Family

ID=56356510

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104128413A TW201636877A (zh) 2015-01-09 2015-08-28 對資料物件篩選分類的方法、裝置以及電子設備

Country Status (4)

Country Link
US (1) US10394907B2 (zh)
CN (1) CN105824855B (zh)
TW (1) TW201636877A (zh)
WO (1) WO2016112348A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758725B (zh) * 2020-05-08 2022-03-21 台達電子工業股份有限公司 資料分析系統和資料分析方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526541B (zh) * 2016-08-30 2019-09-13 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107562880A (zh) * 2017-09-01 2018-01-09 北京神州泰岳软件股份有限公司 一种基于多级分类器的分类结果筛选方法及装置
US11086991B2 (en) * 2019-08-07 2021-08-10 Advanced New Technologies Co., Ltd. Method and system for active risk control based on intelligent interaction
US11449578B2 (en) * 2019-09-27 2022-09-20 Botty Todorov DIMANOV Method for inspecting a neural network
CN110895590A (zh) * 2019-11-29 2020-03-20 贝壳技术有限公司 候选对象的获取方法和装置、电子设备和存储介质
CN113505273B (zh) * 2021-05-24 2023-08-22 平安银行股份有限公司 基于重复数据筛选的数据排序方法、装置、设备及介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5414812A (en) * 1992-03-27 1995-05-09 International Business Machines Corporation System for using object-oriented hierarchical representation to implement a configuration database for a layered computer network communications subsystem
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US6505228B1 (en) * 1998-07-22 2003-01-07 Cisco Technology, Inc. Dynamic determination of execution sequence
US6405211B1 (en) * 1999-07-08 2002-06-11 Cohesia Corporation Object-oriented representation of technical content and management, filtering, and synthesis of technical content using object-oriented representations
JP2002117031A (ja) * 2000-10-06 2002-04-19 Internatl Business Mach Corp <Ibm> 情報配信方法、情報配信システム、情報処理装置およびコンピュータプログラム製品
US7546334B2 (en) * 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
US7024693B2 (en) 2001-11-13 2006-04-04 Sun Microsystems, Inc. Filter-based attribute value access control
US8015541B1 (en) * 2002-10-24 2011-09-06 Rage Frameworks, Inc. Business process technology for the enterprise
US7181450B2 (en) * 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7451403B1 (en) * 2002-12-20 2008-11-11 Rage Frameworks, Inc. System and method for developing user interfaces purely by modeling as meta data in software application
US7516157B2 (en) * 2003-05-08 2009-04-07 Microsoft Corporation Relational directory
CA2429909A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries
US20040252121A1 (en) * 2003-06-13 2004-12-16 Ankur Bhatt Integrating graphical charts into software applications
US20070118496A1 (en) * 2005-11-21 2007-05-24 Christof Bornhoevd Service-to-device mapping for smart items
EP1997039A1 (en) * 2006-03-14 2008-12-03 International Business Machines Corporation Data mining by determining patterns in input data
US7962493B2 (en) 2007-03-05 2011-06-14 Microsoft Corporation Dynamic computation of identity-based attributes
US20090106732A1 (en) * 2007-10-19 2009-04-23 Daniel James Hanson Hierarchical data models and methods for navigating same
US20090100732A1 (en) * 2007-10-19 2009-04-23 Concept Workshop Worldwide, Llc Magnetic display device
CN101925896B (zh) * 2008-01-23 2016-05-11 初世先 信息的可视化表达方法和装置、及其可视人机交互表达界面
CN101686146B (zh) * 2008-09-28 2013-01-30 华为技术有限公司 模糊查询、查询结果处理和过滤条件处理的方法及设备
US8719066B2 (en) 2010-08-17 2014-05-06 Edifice Technologies Inc. Systems and methods for capturing, managing, sharing, and visualising asset information of an organization
CN102567346A (zh) * 2010-12-17 2012-07-11 腾讯科技(深圳)有限公司 一种数据片段弱周期匹配模式的挖掘方法和装置
US8732101B1 (en) * 2013-03-15 2014-05-20 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile
US9262469B1 (en) * 2012-04-23 2016-02-16 Monsanto Technology Llc Intelligent data integration system
CN103425648B (zh) 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 关系圈的处理方法和系统
WO2014001568A2 (en) * 2012-06-29 2014-01-03 Reyntjens Nick Alex Lieven Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system
US20140095518A1 (en) 2012-09-28 2014-04-03 Sap Ag Calculated measures as attribute filters
US9489377B1 (en) * 2014-02-21 2016-11-08 Yummly, Inc. Inferring recipe difficulty
US9767089B2 (en) * 2014-08-28 2017-09-19 Industrial Audit Corporation Collecting and auditing structured data layered on unstructured objects
CN104317959B (zh) * 2014-11-10 2018-07-17 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758725B (zh) * 2020-05-08 2022-03-21 台達電子工業股份有限公司 資料分析系統和資料分析方法

Also Published As

Publication number Publication date
US10394907B2 (en) 2019-08-27
CN105824855A (zh) 2016-08-03
WO2016112348A1 (en) 2016-07-14
US20160203228A1 (en) 2016-07-14
CN105824855B (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
TW201636877A (zh) 對資料物件篩選分類的方法、裝置以及電子設備
TWI718643B (zh) 異常群體識別方法及裝置
CN107679985B (zh) 风险特征筛选、描述报文生成方法、装置以及电子设备
US9336184B2 (en) Representation of an interactive document as a graph of entities
JP6134632B2 (ja) 資金フロー分析装置及び方法
US10922477B2 (en) Rules/model-based data processing system for intelligent event prediction in an electronic data interchange system
CN104239324A (zh) 一种基于用户行为的特征提取、个性化推荐的方法和系统
CN107918657B (zh) 一种数据源的匹配方法和装置
CN104077723B (zh) 一种社交网络推荐系统及方法
CN107077489A (zh) 用于多维数据的自动洞察
US11347758B2 (en) Method and apparatus for processing search data
TW201833851A (zh) 風控事件自動處理方法及裝置
CN110175184A (zh) 一种数据维度的下钻方法、系统及电子设备
CN111382181A (zh) 一种基于股权穿透的指定企业派系归属分析方法及系统
CN108804458A (zh) 一种爬虫网页采集方法和装置
CN116245670B (zh) 基于双标签模型处理财税数据的方法、装置、介质和设备
CN109218211A (zh) 数据流的控制策略中阈值的调整方法、装置和设备
US20220318236A1 (en) Library information management system
CN110781211B (zh) 一种数据的解析方法及装置
Dave et al. Identifying big data dimensions and structure
CN110879853B (zh) 信息向量化方法与计算机可读存储介质
Hameed et al. Business intelligence: Self adapting and prioritizing database algorithm for providing big data insight in domain knowledge and processing of volume based instructions based on scheduled and contextual shifting of data
CN104933185B (zh) 维基百科条目质量评价方法
US20140136293A1 (en) Relative trend analysis of scenarios
Jiang et al. Conducting product comparative analysis to outperform competitor’s product using Teardown JST Model