TW201416894A - 識別特徵群體的方法及裝置和搜索方法及裝置 - Google Patents

識別特徵群體的方法及裝置和搜索方法及裝置 Download PDF

Info

Publication number
TW201416894A
TW201416894A TW102107866A TW102107866A TW201416894A TW 201416894 A TW201416894 A TW 201416894A TW 102107866 A TW102107866 A TW 102107866A TW 102107866 A TW102107866 A TW 102107866A TW 201416894 A TW201416894 A TW 201416894A
Authority
TW
Taiwan
Prior art keywords
feature
group
value
candidate group
objects
Prior art date
Application number
TW102107866A
Other languages
English (en)
Other versions
TWI611305B (zh
Inventor
Zhi-Qiang Chen
Hai-Jie Gu
ji-dong Shao
gu-li Lin
Shui Liu
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201416894A publication Critical patent/TW201416894A/zh
Application granted granted Critical
Publication of TWI611305B publication Critical patent/TWI611305B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申請提供了一種識別特徵群體的方法及裝置和搜索方法及裝置。搜索識別特徵群體的方法包括:在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值判斷該候選群體是否為特徵群體。本申請可以識別出惡意註冊的網站帳號群體,避免買家參與到虛假交易,進而提高網絡購物的交易安全。

Description

識別特徵群體的方法及裝置和搜索方法及裝置
本申請係關於交易資訊處理領域,特別係關於一種識別特徵群體的方法和裝置,以及一種搜索方法和裝置。
網際網路上大部分網站都具有帳號註冊功能,一些大型網站甚至擁有上億的用戶。
目前,一些購物網站的賣家為了宣傳自己的商品,會人工地或者程序自動地在網站上註冊大量無用的帳號。網站上的大量惡意註冊帳號常常會給網站的正常營運造成巨大的破壞,例如,利用惡意註冊帳號購買某個商品,會產生大量的虛假銷售記錄,消費者會被虛假的銷售記錄欺騙而購買該商品。
目前,針對網站惡意註冊的行為,可以透過註冊前預防和註冊後處理兩個環節來處理,註冊前預防一般是透過在網站用戶註冊階段增加驗證碼輸入的步驟,這種方法能在一定程度上防止基於程序自動註冊的惡意註冊行為;註冊後處理是針對預防無效情況下已產生的惡意註冊帳號,針對某一種用戶標識,如Cookie,若在同一個Cookie下 登錄過的不同帳號數大於預設值,則判斷這些帳號屬於惡意註冊帳號。
以上現有技術中存在的問題是,針對註冊前預防的方式,目前已有具備驗證碼識別功能的自動註冊程序可以破解驗證碼,並且該方式無法預防透過大量人工註冊的惡意註冊行為;註冊後處理的方式只考慮了帳號間的直接關聯關係,只能發現少量的惡意註冊帳號,由於大部分惡意註冊帳號未必會共用一個用戶標識。比如,以Cookie為例,同一個網站用戶在不同時間不同機器上使用帳號,其關聯的Cookie很可能是不相同的,這種情況下簡單的查看一個Cookie關聯的帳號數並不能有效的發現異常資訊。
因此,目前需要本領域技術人員解決的一個技術問題就是,提供一種識別特徵群體的機制,以識別出惡意註冊的網站帳號群體,避免買家參與到虛假交易,進而提高網絡購物的交易安全。
本申請所要解決的技術問題是提供一種識別特徵群體的方法,以識別出惡意註冊的網站帳號群體,避免買家參與到虛假交易,進而提高網絡購物的交易安全。
本申請還提供了一種識別特徵群體的裝置,用以保證上述方法在實際中的應用及實現。
為了解決上述問題,本申請公開了一種識別特徵群體 的方法,包括:在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值判斷該候選群體是否為特徵群體。
較佳的,該方法還包括:針對各第一對象,將關聯同一第二對象的第一對象確定為直接關聯對象;依據各第一對象的直接關聯對象的個數,生成候選群體對應的第二特徵值。
較佳的,該方法還包括:在參考該第一特徵值判斷該候選群體是否為特徵群體的同時,參考該第二特徵值。
較佳的,該第一對象為用戶帳號,該第二對象為用戶標識;該映射關係資料包括,各用戶帳號與其所關聯的所有用戶標識的映射關係列表,以及各用戶標識與其所關聯的所有用戶帳號的映射關係列表。
較佳的,該第一對象和第二對象具備屬性值,該依據映射關係資料,提取包括多個第一對象和第二對象的候選群體的步驟包括: 針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值;提取屬性值相同的第一對象和第二對象,組成候選群體。
較佳的,該針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值的步驟包括:步驟1、針對各個第一對象或第二對象,依據該映射關係資料,確定所關聯的第一對象或第二對象;步驟2、提取該關聯的第一對象或第二對象所對應的屬性值;步驟3、將提取的屬性值中最小的值作為該第一對象或第二對象對應的修正值;步驟4、判斷各第一對象或第二對象的屬性值,與對應的修正值是否相同,若是,則結束操作,若否,則以修正值替換屬性值,並返回步驟1。
較佳的,該候選群體包括一個或多個,該第一對象的屬性值的初始值為帳號ID的字符串,該第二對象的屬性值的初始值與用戶標識相同或是用戶標識的字符串。
較佳的,該針對各第一對象,確定其直接關聯對象的步驟包括:針對各第一對象,確定關聯的第二對象,並確定各關聯的第二對象所關聯的第一對象;將所有關聯的第二對象所關聯的第一對象進行合併, 去重,將去重後的第一對象作為直接關聯對象。
較佳的,該第一特徵值記為n,該第二特徵值為各第一對象的直接關聯對象的個數加和後,再除以n(n-1)的結果。
較佳的,該參考第一特徵值,判斷候選群體是否為特徵群體的步驟包括:若該第一特徵值大於第一閥值,則該候選群體為特徵群體。
較佳的,參考第一特徵值和第二特徵值,判斷候選群體是否為特徵群體的步驟包括:若該第一特徵值大於第一閥值,且該第二特徵值大於第二閥值,則該候選群體為特徵群體。
本申請還提供了一種搜索方法,包括:接收特徵群體的搜索請求;透過上述識別特徵群體的方法識別特徵群體,並返回特徵群體的屬性資訊。
本申請還提供了一種識別特徵群體的裝置,包括:映射關係資料提取模組,用於在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;候選群體提取模組,用於依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對 象進行關聯;特徵群體判斷模組,用於將該候選群體中第一對象的個數作為第一特徵值,並按照該第一特徵值判斷該候選群體是否為特徵群體。
本申請還提供了一種搜索裝置,包括:搜索請求接收模組,用於接收特徵群體的搜索請求;資訊返回模組,用於透過申請專利範圍上述識別特徵群體的裝置識別特徵群體,並返回特徵群體的屬性資訊。
與現有技術相比,本申請具有以下優點:本申請依據用戶帳戶和用戶標識的對應關係,利用圖論的方法,先找出有直接或間接關聯的用戶帳戶和用戶標識作為一個候選群體,將具有間接關聯關係的帳戶歸於同一個帳戶群體,然後依據各用戶帳戶直接關聯的帳戶數計算候選群體的群體密度,依據帳戶數,或是結合候選群體密度和帳戶數來判斷是否是惡意註冊帳戶群體。相比於現有技術,本申請依據帳戶之間的間接關聯關係可以找出潛在的惡意註冊帳號,發現惡意註冊帳號群體,從而可以避免買家參與到虛假交易,提高網絡購物的交易安全。
401‧‧‧映射關係資料提取模組
402‧‧‧候選群體提取模組
403‧‧‧第一判斷模組
501‧‧‧映射關係資料提取模組
502‧‧‧候選群體提取模組
503‧‧‧直接關聯對象確定模組
504‧‧‧特徵值生成模組
505‧‧‧第二判斷模組
601‧‧‧搜索請求接收模組
602‧‧‧資訊返回模組
圖1是本申請的一種識別特徵群體的方法實施例1的流程圖;圖2是本申請的一種識別特徵群體的方法實施例2的流程圖; 圖3是本申請的一種的搜索方法實施例的流程圖;圖4是本申請的一種識別特徵群體的裝置實施例1的結構框圖;圖5是本申請的一種識別特徵群體的裝置實施例2的結構框圖;圖6是本申請的一種搜索裝置實施例的結構框圖;圖7是本申請的鄰接表對應的示意圖圖8為本申請的候選群體的示意圖。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
參考圖1,示出了本申請的一種識別特徵群體的方法實施例1的流程圖,具體可以包括以下步驟:步驟101、在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料。
在具體的實現中,該第一對象可以為用戶帳號,一個用戶可以註冊一個或多個帳號;該第二對象可以為用戶標識,用戶標識是帳號在瀏覽網站的過程中留下的,能夠確定用戶身份的資訊,例如,登錄時產生的cookie、帳戶綁定的郵箱、手機號、或者是多種資訊透過一定算法計算出來的一個值,一個帳號可以對應多個用戶標識,一個用戶標識也可以用於多個帳號。
該映射關係資料可以包括,各用戶帳號與其所關聯的所有用戶標識的映射關係列表,以及各用戶標識與其所關聯的所有用戶帳號的映射關係列表。用戶帳號與用戶標識的關聯關係可以存放在預置的資料庫中,資料庫中具體包括了,各用戶帳號所關聯的所有的用戶標識的列表,以及,每個用戶標識所關聯的所有用戶帳號的列表。
具體的,可以在預置資料庫中提取一段時間內(例如最近3個月)的映射關係資料,這些映射關係資料可以視為圖論中用於表示一個圖的鄰接表。例如,A1、A2、A3分別表示三個用戶帳號,B1、B2、B3分別表示三個用戶標識,假設資料庫中保存的映射關係可以表示為(A1,B1)、(A1,B2)、(A2,B2)、(A2,B3)、(A3,B3),那麼,該映射關係構成的鄰接表對應的示意圖如圖7所示。
該鄰接表所表示的圖有以下特點:圖中的頂點為所有的用戶帳號或者用戶標識,每一條邊只連接一個用戶帳號或一個用戶標識,表示某帳號與某用戶標識存在關聯關係。
透過解析網站的行為日誌可以獲取映射關係資料,具體而言,記錄登錄用戶在網站上的行為日誌,行為日誌中包含了用戶帳號以及對應的用戶標識,解析行為日誌即可獲取用戶帳號與用戶標識的對應關係,例如帳號登錄網站時,可以得到帳號的cookie之間的關聯,用戶在填寫自己的郵箱時,可以得到帳號與郵箱之間的關聯。解析出映射關係後,可以存放在預置的資料庫中。
步驟102、依據該映射關係資料,提取包括該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯。
依據映射關係資料可以初步提取出一個或多個惡意註冊帳號群體的候選群體。候選群體中,任意兩個對象之間均是連通的。更具體而言,任意兩個第一對象之間可以透過一個或多個第一對象和/或第二對象關聯;任意兩個第二對象可以透過一個或多個第一對象和/或第二對象關聯;任意一個第一對象和任意一個第二對象之間也可以透過一個或多個第一對象和/或第二對象關聯。
如圖8所示,給出了本申請所述的候選群體的示意圖,其中,A1,A2,A3,A4為用戶帳號,B1,B2,B3為用戶標識,連線表示具備關聯關係。由圖可知,帳號A1與標識B1和B2關聯,標識B1分別與帳號A1,A2和A3關聯,標識B2分別與帳號A1,A3和A4關聯,帳號A4分別與標識B2和B3關聯;並且,任意一個用戶帳號或用戶標識,與另一個任意的帳號或用戶標識,可以透過一個或多個用戶帳號或用戶標識進行關聯,如帳號A1與A2可以透過標識B2關聯,帳號A1與標識B3可以透過標識帳號A1和標識B2關聯。
在本申請的一種較佳實施例中,該第一對象和該第二對象均可以具備屬性值,較佳的,該候選群體可以包括一個或多個,該第一對象的屬性值的初始值可以為帳號ID 的字符串,例如,第一對象用戶帳號名為amy,對應的帳號ID為12345,對應的屬性值為“12345”;該第二對象的屬性值的初始值可以與用戶標識相同或是用戶標識的字符串,例如,第二對象用戶標識為手機號21231441或郵箱amy@123.com,相應的,第二對象的屬性值的初始值可以是“21231441”或“amy@123.com”。
具體的,可以透過以下步驟提取候選群體:子步驟S11、針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值。
在具體的實現中,可以透過以下步驟更新屬性值:子步驟S11-1、針對各個第一對象或第二對象,依據該映射關係資料,確定所關聯的第一對象或第二對象;子步驟S11-2、提取該關聯的第一對象或第二對象所對應的屬性值;子步驟S11-3、將提取的屬性值中最小的值作為該第一對象或第二對象對應的修正值;子步驟S11-4、判斷各第一對象或第二對象的屬性值,與對應的修正值是否相同,若是,則結束操作,若否,則以修正值替換屬性值,並返回子步驟S11-1。
以某個第一對象A1為例,對應的屬性值為a1依據映射關係資料,可以確定其對應的第二對象B1,B2,B3...Bn,收集這些第二對象的屬性值b1,b2,b3...bn,比較b1,b2,b3...bn的大小,取其中最小的值,例如b2,作為該 第一對象對應的修正值a1’=b2;同樣的方法,生成各個第二對象對應的修正值。然後對比各第一對象或第二對象的屬性值與其對應的修正值是否相同,例如對於第一對象A1,即判斷a1是否等於b2。若存在不相同的情況,則以修正值替換相應的屬性值,並且返回到子步驟S11-1中,重複執行上述步驟,直至各第一對象或第二對象的屬性值與其對應的修正值相同為止。
具體而言,對各個屬性值的比較可以透過比較兩個字符串的字典序來實現。例如,對於兩個字符串S1和S2,將S1和S2利用任意一種編碼方式(例如使用UTF8編碼)轉成兩個字節碼數組C1和C2。比較C1和C2的第一個元素;如果兩者不相等,則第一個元素值小的數組的字典序靠前,否則比較兩個數組的第二個元素;如果第二個元素兩者不相等,則值小數組的字典序靠前,否則依次類推;如果遍曆過程中某個數組已被遍曆,那麼該數組的字典序靠前。
例如,當S1=“abc”,S2=“123”時。將S1和S2按ASCII碼轉成對應的字節碼數組C1={97,98,99},C2={49,50,51},由於S2的第一個元素小於S1,那麼S2的字典序靠前。字典序靠前的字符串為比較小的字符串,由此對多個屬性值的字符串進行比較,可以找到最小的屬性值。
子步驟S12、提取屬性值相同的第一對象和第二對象,組成候選群體。
透過步驟S11,各第一對象或第二對象的屬性值均與修正值相同之後,可以將屬性值相同的第一對象和第二對象,組成候選群體,即在候選群體中,包括多個第一對象和第二對象,無論是第一對象的屬性值還是第二對象的屬性值均相同。
對於映射關係資料表示的鄰接表,在對應的圖中,將每個用戶帳戶和用戶標識作為一個頂點,以上提取候選群體的步驟可以理解為圖論中利用標記擴散法(label propagation)尋找連通子圖的過程。
Step 1、針對每個頂點對應有唯一的標記值(上面步驟中的屬性值),對於每個頂點,確定與其相連的多個頂點;Step 2、對於每個頂點,獲取與之相連的其他頂點的標記值;Step 3、若某個頂點的所關聯的其他頂點的標記值中的最小值和該頂點的當前標記值不同,則以最小標記值取代當前標記值,並返回到Step 1,若相同,則提取具備相同標記的頂點,作為一個連通子圖。
此處得到的連通子圖即為候選群體,連通子圖中的每兩個點都可以透過其他的點連接起來,即該候選群體中任意兩個第一對象或第二對象(任意兩個第一對象,任意兩個第二對象,任意兩個第一對象和第二對象)均透過一個或多個第一對象或第二對象進行關聯。
其中,具備相同的第二對象的兩個第一對象稱為直接 關聯帳號,透過多個第一對象或第二對象進行關聯的兩個第一對象稱為間接關聯帳號,例如,對於帳號A和帳號B,如果能找能一系列帳號X1,X2,..Xn(n>=1),使得A與X1直接關聯,Xi與Xi+1(1<=i<=n-1)直接關聯,Xn與B直接關聯,則A與B是間接關聯帳號。透過連通子圖的方法找到的候選群體,不僅找出了具備直接關聯關係的帳號,還把具備間接關聯關係的多個帳號集合在一起。
步驟103、將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值,判斷該候選群體是否為特徵群體。
在本申請的一種較佳實施例中,該步驟103可以包括:子步驟S21、若該第一特徵值大於第一閥值,則該候選群體為特徵群體。
針對各候選群體,以第一特徵值來判斷是否為特徵群體,較佳的,當候選群體所包含的帳號數大於第一閥值,則認為該候選群體為惡意註冊帳號的特徵群體。
其中,第一閥值的具體取值與網站性質、規模以及惡意註冊行為的具體標準相關,在具體的實現中可以根據資料進行必要的調試。較佳的,第一閥值的取值可以為幾百到幾千。
相比於現有技術,本申請依據帳戶之間的直接關聯關係和間接關聯關係確定候選群體,從而可以找出更多潛在的惡意註冊帳號,依據候選群體中帳號的個數進一步確定 惡意註冊帳號群體,從而可以避免買家參與到虛假交易,提高網絡購物的交易安全。
參考圖2,示出了本申請的一種識別特徵群體的方法實施例2的流程圖,具體可以包括以下步驟:步驟201、在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料。
步驟202、依據該映射關係資料,提取包括該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯。
步驟203、針對各第一對象,將關聯同一第二對象的第一對象確定為直接關聯對象。
在本申請的一種較佳實施例中,該步驟203可以包括:子步驟S31、針對各第一對象,確定關聯的第二對象,並確定各關聯的第二對象所關聯的第一對象;子步驟S32、將所有關聯的第二對象所關聯的第一對象進行合併,去重,將去重後的第一對象作為直接關聯對象。
第一對象的直接關聯對象是指具有相同的第二對象的另一個第一對象,即具有相同用戶標識的兩個帳號。
具體的,針對某個用戶帳號,先找出與其關聯的用戶標識,以及各用戶標識關聯的多個用戶帳號;然後將各用戶標識關聯的多個用戶帳號進行合併,去重,即可得到第 一對象的直接關聯對象。例如,帳號A與標識B和標識C關聯,標識B與帳號D和帳號E關聯,標識C與帳號D和帳號F關聯,將標識B和標識C所關聯的帳號進行合併得到4個帳號,分別為帳號D、帳號E、帳號D和帳號F,進行去重得到帳號D、帳號E和帳號F,即為A的三個直接關聯對象。
步驟204、依據各第一對象的直接關聯對象的個數,生成候選群體對應的第二特徵值。
在圖論中,各第一對象的直接關聯對象的個數即為第一對象的度數。本申請中,第二特徵值即為圖論中的群體密度,針對某個候選群體,將候選群體中的用戶帳號的個數記為n,該第二特徵值可以為各第一對象的度數加和後,再除以n(n-1)的結果,在具體的實現中,群體密度的取值範圍在0~1之間。
步驟205、將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值和第二特徵值,判斷該候選群體是否為特徵群體。
該步驟205可以包括:子步驟S41、若該第一特徵值大於第一閥值,且該第二特徵值大於第二閥值,則該候選群體為特徵群體。
與上個實施例不同的是,本實施例針對各候選群體,以第一特徵值結合第二特徵值來判斷是否為特徵群體,可以使得惡意群體的識別更為準確。較佳的,當候選群體所包含的帳號數大於第一閥值,群體密度大於第二閥值,則 認為該候選群體為惡意註冊帳號的特徵群體。
其中,第一閥值和第二閥值的具體取值與網站性質、規模以及惡意註冊行為的具體標準相關,在具體的實現中可以根據資料進行必要的調試。較佳的,第一閥值的取值可以為幾百到幾千,第二閥值的取值可以為0.7到0.9之間。
參考圖3,示出了本申請的一種搜索方法實施例的流程圖,具體可以包括以下步驟:步驟301、接收特徵群體的搜索請求。
步驟302、識別特徵群體,並返回特徵群體的屬性資訊。
該特徵群體透過實施例1或2所述的方法識別出。用戶提交搜索請求,請求搜索惡意註冊的帳號群體,服務器接收到搜索請求,會按照實施例1或2所述的方法確定特徵群體,特徵群體中包括了用戶帳戶和用戶標識,依據用戶帳戶還可以搜索到特徵群體相關用戶的其他屬性資訊,例如,註冊時間,信譽值,交易歷史資料等,然後可以將特徵群體以及相關的屬性資訊返回給用戶。
綜上所述,本申請依據用戶帳戶和用戶標識的對應關係,利用圖論的方法,先找出有直接或間接關聯的用戶帳戶和用戶標識作為一個候選群體,將具有間接關聯關係的帳戶歸於同一個帳戶群體,然後依據各用戶帳戶直接關聯的帳戶數計算候選群體的群體密度,依據帳戶數,或是結合候選群體密度和帳戶數來判斷是否是惡意註冊帳戶群 體。相比於現有技術,本申請依據帳戶之間的間接關聯關係可以找出潛在的惡意註冊帳號,發現惡意註冊帳號群體,從而可以避免買家參與到虛假交易,提高網絡購物的交易安全。
對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作和模組並不一定是本申請所必須的。
參考圖4,示出了本申請的一種識別特徵群體的裝置實施例1的結構框圖,具體可以包括以下模組:映射關係資料提取模組401,用於在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;候選群體提取模組402,用於依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;第一判斷模組403,用於將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值,判斷該候選群體是否為特徵群體。
在本申請的一種較佳實施例中,該第一對象可以為用 戶帳號,該第二對象可以為用戶標識;該映射關係資料可以包括,各用戶帳號與其所關聯的所有用戶標識的映射關係列表,以及各用戶標識與其所關聯的所有用戶帳號的映射關係列表。
在本申請的一種較佳實施例中,該第一對象和該第二對象均可以具備屬性值,該候選群體提取模組可以包括:屬性值更新子模組,用於針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值;候選群體組成子模組,用於提取屬性值相同的第一對象和第二對象,組成候選群體。
在本申請的一種較佳實施例中,該屬性值更新子模組可以包括:子單元1,用於針對各個第一對象或第二對象,依據該映射關係資料,確定所關聯的第一對象或第二對象;子單元2、用於提取該關聯的第一對象或第二對象所對應的屬性值;子單元3、用於將提取的屬性值中最小的值作為該第一對象或第二對象對應的修正值;子單元4,用於判斷各第一對象或第二對象的屬性值,與對應的修正值是否相同,若是,則結束操作,若否,則以修正值替換屬性值,並返回子單元1。
在本申請的一種較佳實施例中,該候選群體可以包括一個或多個,該第一對象的屬性值的初始值可以為帳號 ID的字符串,該第二對象的屬性值的初始值可以與用戶標識相同或是用戶標識的字符串。
在本申請的一種較佳實施例中,該第一判斷模組可以包括:第一特徵值判斷子模組,用於若該第一特徵值大於第一閥值,則該候選群體為特徵群體。
參考圖5,示出了本申請的一種識別特徵群體的裝置實施例2的結構框圖,具體可以包括以下模組:映射關係資料提取模組501,用於在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;候選群體提取模組502,用於依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;直接關聯對象確定模組503,用於針對各第一對象,將關聯同一第二對象的第一對象確定為直接關聯對象;特徵值生成模組504,用於依據各第一對象的直接關聯對象的個數,生成候選群體對應的第二特徵值;第二判斷模組505,用於將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值和第二特徵值,判斷該候選群體是否為特徵群體。
在本申請的一種較佳實施例中,該直接關聯對象確定 模組可以包括:第一對象確定子模組,用於針對各第一對象,確定關聯的第二對象,並確定各關聯的第二對象所關聯的第一對象;合併子模組,用於將所有關聯的第二對象所關聯的第一對象進行合併,去重,將去重後的第一對象作為直接關聯對象。
在本申請的一種較佳實施例中,該第一特徵值可以記為n,該第二特徵值可以為各第一對象的直接關聯對象的個數加和後,再除以n(n-1)的結果。
在本申請的一種較佳實施例中,該第二判斷模組可以包括:第二特徵值判斷子模組,用於若該第一特徵值大於第一閥值,且該第二特徵值大於第二閥值,則該候選群體為特徵群體。
參考圖6,示出了本申請的一種搜索裝置實施例的結構框圖,具體可以包括以下模組:搜索請求接收模組601,用於接收特徵群體的搜索請求;資訊返回模組602,用於透過實施例4或5所述的裝置識別特徵群體,並返回特徵群體的屬性資訊。
由於該裝置實施例基本相應於前述圖1-圖3所示的方法實施例,故本實施例的描述中未詳盡之處,可以參見前述實施例中的相關說明,在此就不贅述了。
本申請可用於眾多通用或專用的計算系統環境或配置中。例如:個人計算機、伺服器計算機、手持設備或可攜式設備、平板型設備、多處理器系統、基於微處理器的系統、機頂盒、可編程的消費電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統或設備的分佈式計算環境等等。
本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模組。一般地,程序模組包括執行特定任務或實現特定抽象資料類型的例程、程序、對象、組件、資料結構等等。也可以在分佈式計算環境中實踐本申請,在這些分佈式計算環境中,由透過通信網絡而被連接的遠程處理設備來執行任務。在分佈式計算環境中,程序模組可以位於包括儲存設備在內的本地和遠程計算機儲存媒體中。
在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括該要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上對本申請所提供的一種識別特徵群體的方法和一種搜索方法,以及,一種識別特徵群體的方法和一種搜索 裝置進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。

Claims (14)

  1. 一種識別特徵群體的方法,其特徵在於,包括:在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;將該候選群體中第一對象的個數作為第一特徵值,參考該第一特徵值判斷該候選群體是否為特徵群體。
  2. 如申請專利範圍第1項所述的方法,其中,還包括:針對各第一對象,將關聯同一第二對象的第一對象確定為直接關聯對象;依據各第一對象的直接關聯對象的個數,生成候選群體對應的第二特徵值。
  3. 如申請專利範圍第2項所述的方法,其中,還包括:在參考該第一特徵值判斷該候選群體是否為特徵群體的同時,參考該第二特徵值。
  4. 如申請專利範圍第1項所述的方法,其中,該第一對象為用戶帳號,該第二對象為用戶標識;該映射關係資料包括,各用戶帳號與其所關聯的所有用戶標識的映射關係列表,以及各用戶標識與其所關聯的所有用戶帳號的映 射關係列表。
  5. 如申請專利範圍第1項所述的方法,其中,該第一對象和第二對象具備屬性值,該依據映射關係資料,提取包括多個第一對象和第二對象的候選群體的步驟包括:針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值;提取屬性值相同的第一對象和第二對象,組成候選群體。
  6. 如申請專利範圍第4項所述的方法,其中,該針對各個第一對象或第二對象,依據所關聯的第一對象或第二對象對應的屬性值,更新對應的屬性值的步驟包括:步驟1、針對各個第一對象或第二對象,依據該映射關係資料,確定所關聯的第一對象或第二對象;步驟2、提取該關聯的第一對象或第二對象所對應的屬性值;步驟3、將提取的屬性值中最小的值作為該第一對象或第二對象對應的修正值;步驟4、判斷各第一對象或第二對象的屬性值,與對應的修正值是否相同,若是,則結束操作,若否,則以修正值替換屬性值,並返回步驟1。
  7. 如申請專利範圍第6項所述的方法,其中,該候選群體包括一個或多個,該第一對象的屬性值的初始值為帳號ID的字符串,該第二對象的屬性值的初始值與用戶標識相同或是用戶標識的字符串。
  8. 如申請專利範圍第2項所述的方法,其中,該針對各第一對象,確定其直接關聯對象的步驟包括:針對各第一對象,確定關聯的第二對象,並確定各關聯的第二對象所關聯的第一對象;將所有關聯的第二對象所關聯的第一對象進行合併,去重,將去重後的第一對象作為直接關聯對象。
  9. 如申請專利範圍第2項所述的方法,其中,該第一特徵值記為n,該第二特徵值為各第一對象的直接關聯對象的個數加和後,再除以n(n-1)的結果。
  10. 如申請專利範圍第1項所述的方法,其中,該參考第一特徵值,判斷候選群體是否為特徵群體的步驟包括:若該第一特徵值大於第一閥值,則該候選群體為特徵群體。
  11. 如申請專利範圍第3項所述的方法,其中,參考第一特徵值和第二特徵值,判斷候選群體是否為特徵群體的步驟包括:若該第一特徵值大於第一閥值,且該第二特徵值大於第二閥值,則該候選群體為特徵群體。
  12. 一種搜索方法,其特徵在於,包括:接收特徵群體的搜索請求;透過申請專利範圍第1至11項中任一項所述的方法識別特徵群體,並返回特徵群體的屬性資訊。
  13. 一種識別特徵群體的裝置,其特徵在於,包括: 映射關係資料提取模組,用於在預置資料庫中提取第一對象、第二對象,以及第一對象與第二對象的映射關係資料;候選群體提取模組,用於依據該映射關係資料,提取包括多個該第一對象和第二對象的候選群體,該候選群體中任意一個第一對象或第二對象,與另一個任意的第一對象或第二對象,均透過一個或多個第一對象和/或第二對象進行關聯;特徵群體判斷模組,用於將該候選群體中第一對象的個數作為第一特徵值,並按照該第一特徵值判斷該候選群體是否為特徵群體。
  14. 一種搜索裝置,其特徵在於,包括:搜索請求接收模組,用於接收特徵群體的搜索請求;資訊返回模組,用於透過申請專利範圍第12項所述的裝置識別特徵群體,並返回特徵群體的屬性資訊。
TW102107866A 2012-10-23 2013-03-06 識別特徵群體的方法及裝置和搜索方法及裝置 TWI611305B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210407962.XA CN103778151B (zh) 2012-10-23 2012-10-23 一种识别特征群体的方法及装置和搜索方法及装置

Publications (2)

Publication Number Publication Date
TW201416894A true TW201416894A (zh) 2014-05-01
TWI611305B TWI611305B (zh) 2018-01-11

Family

ID=50548273

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102107866A TWI611305B (zh) 2012-10-23 2013-03-06 識別特徵群體的方法及裝置和搜索方法及裝置

Country Status (3)

Country Link
US (1) US9785989B2 (zh)
CN (1) CN103778151B (zh)
TW (1) TWI611305B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507637B2 (en) 2019-07-11 2022-11-22 Gurunavi, Inc. Information processing apparatus, information processing method, and program for linking accounts

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9971830B2 (en) 2012-09-06 2018-05-15 Facebook, Inc. Recommending users to add to groups in a social networking system
US8938512B2 (en) * 2012-09-06 2015-01-20 Facebook, Inc. Recommending groups to create in a social networking system
US9177347B2 (en) 2012-09-06 2015-11-03 Facebook, Inc. Group recommendations based on answered questions in a social networking system
US8935346B2 (en) * 2012-09-06 2015-01-13 Facebook, Inc. Recommending groups to join in a social networking system
US9607036B2 (en) * 2013-08-21 2017-03-28 International Business Machines Corporation Managing a data set
CN104050239B (zh) * 2014-05-27 2017-04-12 重庆爱思网安信息技术有限公司 多个对象之间的相关性匹配分析方法
KR102053980B1 (ko) * 2014-06-19 2019-12-12 네이버 주식회사 소셜 네트워크 서비스 및 컨텐츠 제공 방법
CN105447028B (zh) * 2014-08-27 2019-06-28 阿里巴巴集团控股有限公司 识别特征账号的方法及装置
CN105631681B (zh) * 2014-10-29 2019-06-21 阿里巴巴集团控股有限公司 一种电子凭证传输账号的检测方法及设备
CN105791255B (zh) * 2014-12-23 2020-03-13 阿里巴巴集团控股有限公司 基于账户聚类的计算机风险识别方法及其系统
CN105812195B (zh) * 2014-12-30 2019-05-07 阿里巴巴集团控股有限公司 计算机识别批量账户的方法和装置
CN105808988B (zh) * 2014-12-31 2020-07-03 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN106301978A (zh) * 2015-05-26 2017-01-04 阿里巴巴集团控股有限公司 团伙成员账号的识别方法、装置及设备
US10896207B2 (en) * 2015-08-20 2021-01-19 International Business Machines Corporation Optimization of object-based storage
CN106570699A (zh) * 2015-10-08 2017-04-19 平安科技(深圳)有限公司 客户联系信息挖掘方法及服务器
CN105554140B (zh) * 2015-12-24 2020-01-10 腾讯科技(深圳)有限公司 一种用户群体定位方法及服务器
CN106991425B (zh) * 2016-01-21 2020-10-02 阿里巴巴集团控股有限公司 商品交易质量的检测方法和装置
CN107483381B (zh) * 2016-06-07 2021-10-15 中兴通讯股份有限公司 关联账户的监控方法及装置
CN107294974B (zh) * 2017-06-26 2020-10-02 阿里巴巴集团控股有限公司 识别目标团伙的方法和装置
CN107592296A (zh) * 2017-08-02 2018-01-16 阿里巴巴集团控股有限公司 垃圾账户的识别方法和装置
WO2019028710A1 (zh) * 2017-08-09 2019-02-14 深圳清华大学研究院 基于图结构数据的候选项集支持度计算方法及其应用
CN110278175B (zh) 2018-03-14 2020-06-02 阿里巴巴集团控股有限公司 图结构模型训练、垃圾账户识别方法、装置以及设备
CN109213801A (zh) * 2018-08-09 2019-01-15 阿里巴巴集团控股有限公司 基于关联关系的数据挖掘方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562814B1 (en) * 2003-05-12 2009-07-21 Id Analytics, Inc. System and method for identity-based fraud detection through graph anomaly detection
US20060149674A1 (en) * 2004-12-30 2006-07-06 Mike Cook System and method for identity-based fraud detection for transactions using a plurality of historical identity records
CN100481076C (zh) * 2005-12-23 2009-04-22 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN100465959C (zh) * 2006-05-25 2009-03-04 中国工商银行股份有限公司 本地化数据采集方法和系统
US20100169137A1 (en) * 2008-12-31 2010-07-01 Ebay Inc. Methods and systems to analyze data using a graph
CN102446177B (zh) * 2010-10-11 2015-12-16 高德软件有限公司 数据采集方法、设备、处理方法、系统及底图处理方法
US8458090B1 (en) 2012-04-18 2013-06-04 International Business Machines Corporation Detecting fraudulent mobile money transactions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507637B2 (en) 2019-07-11 2022-11-22 Gurunavi, Inc. Information processing apparatus, information processing method, and program for linking accounts
TWI788638B (zh) * 2019-07-11 2023-01-01 日商咕嘟媽咪股份有限公司 資訊處理裝置、資訊處理方法及程式

Also Published As

Publication number Publication date
US20140122294A1 (en) 2014-05-01
TWI611305B (zh) 2018-01-11
CN103778151A (zh) 2014-05-07
CN103778151B (zh) 2017-06-09
US9785989B2 (en) 2017-10-10

Similar Documents

Publication Publication Date Title
TWI611305B (zh) 識別特徵群體的方法及裝置和搜索方法及裝置
US11704342B2 (en) Similarity sharding
US9928537B2 (en) Management and storage of distributed bookmarks
WO2020147720A1 (zh) 信息推荐方法和装置以及存储介质
US10121557B2 (en) System and method for dynamic document matching and merging
JP2017123168A (ja) セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置
US11561988B2 (en) Systems and methods for harvesting data associated with fraudulent content in a networked environment
CN107622197B (zh) 设备识别方法及装置、用于设备识别的权重计算方法及装置
US20180075095A1 (en) Organizing datasets for adaptive responses to queries
US20150170248A1 (en) Product and content association
CN106933878B (zh) 一种信息处理方法及装置
CN116739626A (zh) 商品数据挖掘处理方法、装置、电子设备及可读介质
US10262063B2 (en) Method and system for providing alternative result for an online search previously with no result
US9317871B2 (en) Mobile classifieds search
CN110827101B (zh) 一种店铺推荐的方法和装置
JP6664580B2 (ja) 算出装置、算出方法および算出プログラム
WO2018205460A1 (zh) 获取目标用户的方法、装置、电子设备及介质
TWI639093B (zh) Object set and processing method and device thereof
US9607029B1 (en) Optimized mapping of documents to candidate duplicate documents in a document corpus
KR20200129782A (ko) 크롤링을 이용한 검색 대행 서비스 방법
KR20220129776A (ko) 전자 상거래에서의 이상거래 추적 방법 및 시스템
WO2014066171A1 (en) Determining characteristic group
KR101663885B1 (ko) 지식재산권 관리 방법 및 장치
KR101663887B1 (ko) 지식재산권 관리 방법 및 장치
WO2018165960A1 (zh) 基于哈希值的电商数据处理系统及方法