TWI699652B - 虛假地址資訊識別的方法及裝置 - Google Patents

虛假地址資訊識別的方法及裝置 Download PDF

Info

Publication number
TWI699652B
TWI699652B TW106132406A TW106132406A TWI699652B TW I699652 B TWI699652 B TW I699652B TW 106132406 A TW106132406 A TW 106132406A TW 106132406 A TW106132406 A TW 106132406A TW I699652 B TWI699652 B TW I699652B
Authority
TW
Taiwan
Prior art keywords
address information
verified
grid
account
training sample
Prior art date
Application number
TW106132406A
Other languages
English (en)
Other versions
TW201822032A (zh
Inventor
蔣賢禮
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201822032A publication Critical patent/TW201822032A/zh
Application granted granted Critical
Publication of TWI699652B publication Critical patent/TWI699652B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/126Applying verification of the received information the source of the received data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/63Location-dependent; Proximity-dependent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明揭示了一種虛假地址資訊識別的方法及裝置,首先確定帳戶的待核實地址資訊,之後根據該帳戶在預設時間段內上報的各地理位置資訊,在預先劃分的地理範圍中,採用訓練完成的分類模型,確定該帳戶的常駐範圍,之後根據該待核實地址資訊與該常駐範圍對應的網格的匹配結果,確定該待核實地址資訊是否是虛假的地址資訊。可見,在本發明中,確定的該帳戶的常駐範圍,是透過該帳戶歷史上報的地理位置資訊以及分類模型確定的,由於該帳戶上報的地理位置資訊不僅是真實的,還是對應於該帳戶的,所以確定的該常駐範圍不僅真實也可確定是該帳戶的,所以透過對該待核實地址資訊與該常駐範圍進行匹配,可以使得對虛假地址資訊的識別準確率更高。

Description

虛假地址資訊識別的方法及裝置
本發明有關資訊技術領域,尤其有關一種虛假地址資訊識別的方法及裝置。
隨著資訊技術的發展,透過網路執行的業務越來越多,通常可對用戶提供的地址資訊的真實性進行核實,來保證執行業務時的安全性。如,對的帳戶的基本資訊進行核實,若可判明該帳戶的地址資訊是虛假的,則該帳戶存在較高風險,在執行業務時需要謹慎對待。   在現有技術中,通常採用透過搜尋引擎核實以及物流資訊核實的方式,對地址資訊進行核實。   具體的,透過搜尋引擎進行地址資訊的核實,就是將該待核實的地址資訊輸入現有的搜尋引擎中進行搜索,透過該搜尋引擎已經收錄的地址資訊,確定該待核實的地址資訊是否真實存在。透過物流資訊進行地址資訊的核實,則是透過已經收錄的物流資訊中已有的地址資訊,對該待核實的地址資訊的真實性進行核實。   但是,透過搜尋引擎進行地址資訊的核實時,核實結果的準確率以及覆蓋率,均基於選擇的搜尋引擎已經收錄的地址資訊的數量而決定,即,當選用的搜尋引擎收錄的地址資訊多且覆蓋地域廣的話,核實結果的準確率和覆蓋率可能較高,而通常搜尋引擎對於繁華地域的地址資訊的收錄較為全面準確,但對於偏遠地區的地址資訊的收錄則相對較低,所以基於搜尋引擎的地質資訊核實的準確率不穩定,整體上不夠準確。   對於透過物流資訊進行地址資訊核實的方法來說,首先通常物流業為了保證使用物流業務的用戶的隱私,對於物流資訊保護較為嚴密,導致物流資訊難以獲得,另一方面,物流資訊的準確性與真實性並不是必須要核實的資訊,例如,用戶名“孫悟空”、地址“某市某區某社區東門”等等,上述物流資訊雖然不真實、不準確,但是也無礙物流業務的進行,但是卻無法用於對待驗證的地址資訊進行核實,所以使用物流資訊進行待驗證的地址資訊的核實也難以保證準確率和覆蓋率。   進一步地,即使用戶提供的地址資訊是真實的,但是也難以核實該地址是否是該用戶的工作地址或者居住地址,即,該地址資訊是真實的,但並非該用戶的地址,例如,用戶a將用戶b的家庭住址c作為自己的家庭住址,假設用戶b的家庭住址c是一個真實存在的地址,則在現有技術中,僅能識別該家庭住址c是真實的,而無法確定該家庭住址c是否是該用戶a的,對於用戶a來說,該家庭住址c實際上是虛假的地址資訊,而這類虛假的地址資訊在現有技術中尚難以識別,導致基於地址資訊進行風險控制的準確率降低。   可見,由於現有技術中對於地址資訊的核實的方法存在上述缺點,導致對虛假地址資訊識別的準確性低。
本發明實施例提供一種虛假地址資訊識別的方法,用於解決由於現有技術對地址資訊的核實存在準確率低、難以核實地址與帳戶的對應關係,導致虛假地址資訊核實的準確率低的問題。   本發明實施例提供一種虛假地址資訊識別的裝置,用於解決由於現有技術對地址資訊的核實存在準確率低、難以核實地址與帳戶的對應關係,導致虛假地址資訊核實的準確率低的問題。   本發明實施例採用下述技術方案:   一種虛假地址資訊識別的方法,包括:   確定帳戶的待核實地址資訊;   根據所述帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐範圍;   將所述待核實地址資訊與所述常駐範圍進行匹配;   根據所述待核實地址資訊與所述常駐範圍的匹配結果,確定所述待核實地址資訊是否是虛假地址資訊。   一種虛假地址資訊識別的裝置,包括:   第一確定模組,確定帳戶的待核實地址資訊;   第二確定模組,根據所述帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐範圍;   匹配模組,將所述待核實地址資訊與所述常駐範圍進行匹配;   識別模組,根據所述待核實地址資訊與所述常駐範圍的匹配結果,確定所述待核實地址資訊是否是虛假地址資訊。   本發明實施例採用的上述至少一個技術方案能夠達到以下有益效果:   首先確定帳戶的待核實地址資訊,之後根據該帳戶在預設時間段內上報的各地理位置資訊,在預先劃分的地理範圍中,採用訓練完成的分類模型,確定使用該帳戶的用戶的常駐範圍,之後根據該待核實地址資訊與該常駐範圍對應的網格的匹配結果,確定該待核實地址資訊是否是虛假的地址資訊。可見,在本發明中,確定的使用該帳戶的用戶的常駐範圍,是透過該帳戶歷史上報的地理位置資訊以及分類模型確定的,由於該帳戶上報的地理位置資訊不僅是真實的,還是對應於該帳戶的,所以確定的該常駐範圍不僅真實也可確定是該帳戶的,所以透過對該待核實地址資訊與該常駐範圍進行匹配,可以使得對虛假地址資訊的識別準確率更高。
為使本發明的目的、技術方案和優點更加清楚,下面將結合本發明具體實施例及相應的附圖對本發明技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。   以下結合附圖,詳細說明本發明各實施例提供的技術方案。   圖1為本發明實施例提供的一種虛假地址資訊識別的過程,具體包括以下步驟:   S101:確定帳戶的待核實地址資訊。   在現有技術中,通常服務提供方存在對地址資訊進行核實的需求,所以通常由服務提供方的伺服器進行地址資訊的核實。當然服務提供方也可以委託協力廠商進行該地址資訊的核實。其中,對地址資訊的核實可由伺服器根據預設條件進行的(如,以固定頻率或者定期進行地址資訊的核實等等),或者由協力廠商發起的(如,協力廠商伺服器提出對該地址資訊的核實請求),本發明對如何開始進行地址資訊的核實並不做具體限定。   另外,一般情況下是由用戶透過帳戶向伺服器提供地址資訊,所以地址資訊通常與帳戶是對應的,於是,在本發明實施例中,可由伺服器先確定帳戶的待核實地址資訊。   具體的,該待核實地址資訊可以是該帳戶已經設定的帳戶資訊中的家庭住址、工作地址等等用戶常駐的地址,則該伺服器在確定需要對該帳戶進行風險控制時,便可調用該帳戶已經設定的各地址資訊,作為該帳戶的待核實地址資訊。   或者,該待核實地址資訊也可是該伺服器向該帳戶發送地址詢問資訊後,該帳戶返回的地址資訊,其中,該地址詢問資訊可包含文本資訊、音訊資訊、視頻資訊中的至少一種,例如,該文本資訊可以是“請您提供詳細的家庭住址”或者“請您提供詳細的工作地址”等等,以使得該帳戶向該伺服器返回該待核實地址資訊。則,該伺服器可先確定需要進行風險控制的帳戶,再向該帳戶發送地址詢問資訊,並接受該帳戶返回的地址資訊,作為該帳戶的待核實地址資訊。   當然,具體該伺服器如何確定該帳戶的待核實地址資訊本發明並不做具體限定,可由工作人員根據實際應用時的需要進行設定。另外,該伺服器在確定該帳戶的該待核實地址資訊時,具體是確定該帳戶的家庭住址還是工作地址也可由工作人員根據實際應用時的需要進行設定,或者,該待核實地址資訊可以同時包括該帳戶的家庭住址以及工作地址。   需要說明的是,在本發明實施例中,該伺服器可以是單獨的一台設備,也可以是由多台設備組成的系統,即,分散式伺服器。   S102:根據所述帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐範圍。   由於現代社會中人們的生活軌跡是較為固定,且具有規律性的,如,工作日白天在辦公場所工作或者在學校學習,夜間回到住所休息,而除了工作日之外,人們在節假日的行動軌跡就相對較為隨機,除了在住所休息以外,還可能去一些景點、商圈等地點放鬆休閒。而由於人們這種較為固定的、具有規律性的生活軌跡,使得透過確定用戶不同時段的位置資訊,可以較為準確的確定該用戶的生活區域以及工作區域。   於是,在本發明實施例中,當該伺服器確定了該帳戶的待核實地址資訊之後,該伺服器還可以進一步確定該帳戶的常駐範圍,作為使用該帳戶的用戶的常駐範圍,以便後續對該待核實地址資訊進行核實,並進行虛假地址資訊識別。   具體的,首先,由於需要確定使用該帳戶的用戶的生活軌跡(以下簡稱為帳戶的生活軌跡),以確定使用該帳戶的用戶的常駐範圍,所以該伺服器可以先確定該帳戶上報的各地理位置資訊,其中,所述上報可以是該帳戶登錄後,根據預設的時間頻率(如,30分鐘一次),向該伺服器發送的該帳戶目前登錄的設備的地理位置資訊,或者是該帳戶在登錄時,向該伺服器發送的該帳戶目前登錄的設備的地理位置資訊,該帳戶上報地理位置資訊的方式,可以根據實際應用的需要進行設定,也可以採用與現有技術中即時獲取用戶地址本的方法,確定該帳戶上報的各地理位置資訊,具體方法發明不做限定。由於該帳戶在同一地點停留的時間越長,則該帳戶在該地點上報的地理位置資訊越多,所以可以透過上報的各地理位置資訊確定使用該帳戶的用戶的常駐範圍,即,該帳戶的常駐範圍。   另外,該帳戶上報的各地理位置資訊,可以是該帳戶上報的部分地理位置資訊,也可是該帳戶上報的全部地理位置資訊,具體可根據實際應用的需要設定。   進一步地,由於人們的工作地點以及居住地點通常是較為固定的,在大多數情況下短時間內不會改變,而另一方面,現代社會人員的流動性相對較高,所以在本發明中,該伺服器可以確定該帳戶在預設時間段內上報的各地理位置資訊。該預設時間段可以是目前時刻向前回溯的一段時間,例如,假設目前時刻為2016年11月11號,該預設時間段是回溯4個月,則該伺服器可確定2016年7月11號至2016年11月11號之間該帳戶上報的各地理位置資訊,也可以是該由指定開始時間,至指定結束時間內的時間段,例如,1月1日至6月1日之間的時間,為該預設時間段,具體可由工作人員根據實際應用的需要進行設定,本發明不做具體限定。   更進一步地,該預設時間段具體時長可由工作人員根據實際應用時的需要進行設定,例如4個月、9個月等等,而由於通常房屋租賃的時間最少是以半年為期,所以若該預設時間段的時長超過6個月則該帳戶的生活軌跡出現變化的可能性提高,當然,該預設時間段的時長本發明並不做具體限定,同樣可由工作人員根據實際應用的需要進行設定。則透過確定預設時間段內該帳戶上報的各地理位置資訊可以確定該帳戶較為規律的生活軌跡,既不會因為採集過長的時間段內的各地理位置資訊,確定出多條生活軌跡,也不會因為採集過短時間段內的各地理位置資訊,而難以確定該帳戶的生活軌跡。   其次,在本發明中,由於設備的定位精度並不固定,地理位置資訊的定位精度在設備受到環境影響時會出現誤差,所以該帳戶上報的各地理位置資訊在定位精度上也並不完全一致,所以為了更加準確的確定使用該帳戶的用戶的常駐範圍,該伺服器還可以根據預設的網格大小,將地圖劃分為若干網格,並以該地圖上的各網格,作為預先劃分的地理範圍,以各地位範圍取代精准定位的地理位置資訊,確定使用該帳戶的用戶的常駐範圍,避免由於定位精度的誤差帶來的影響,增加地理位置資訊的定位精度的冗餘,其中該地圖劃分的網格可如圖2所示。   圖2為本發明實施例提供的地圖網格的示意圖,可見,該伺服器中儲存的地圖已經預先劃分成網格狀,其中每個網格的為虛線的正方形每個網格可以用經緯度的方式進行表示。並且,該網格的邊長可由工作人員根據實際應用的需要進行設定,例如,該正方形網格的邊長為500米。需要說明的是,該預先劃分的網格的邊長越短,則確定的使用該帳戶的用戶的常駐範圍越精准,但同時,對於該帳戶上報的地理位置資訊的精度要求就越高,定位精度的誤差帶來的影響越大。當然,該網格也可是其他形狀,如圓形、三角形等等,本發明對此不做具體限定。   之後,該伺服器可以根據該預先劃分的各網格,確定該帳戶在預設時間段內上報的各地理位置資訊在各網格中的出現的次數以及時間,並且確定該帳戶在各網格中的特徵值,其中,該特徵值可如表1所示。
Figure 106132406-A0304-0001
表1   透過表1可見,透過上述8個特徵值可以確定每個網格中,該帳戶出現的頻率高低、該帳戶出現的時間段等資訊,如,針對每個網格,透過該出現次數占比以及出現天數占比可以確定該網格是否是該帳戶經常出現的網格,顯然若該網格不是該帳戶經常出現的網格則該網格是使用該帳戶的用戶的常駐範圍的概率較低、透過該工作日天數占比可以確定該網格是否是使用該帳戶的用戶的常駐範圍,顯然由於人們工作日的出行軌跡通常較為固定,所以在工作日出現次數較多的網格,更有可能是使用該帳戶的用戶的常駐範圍、透過該節假日天數占比可以確定該網格是否不是該帳戶工作或者居住的地區(例如,用戶經常週末去某體育館健身,則節假日在該體育館對應的網格中出現的次數較多,但該網格並不是該用戶的工作或者居住的地區)、透過該工作日白天占比可以確定該網格是否是該帳戶的工作區域、工作日夜間占比可以確定該網格是否是該帳戶的居住區域,等等。也就是說,上述在各網格中確定的特徵值可以反應出該帳戶在該地圖劃分的網格中的生活軌跡以及生活規律,並且可以排除該帳戶低頻出現的地域(即,該帳戶不常出現的地理範圍)對於確定使用該帳戶的用戶的常駐範圍的干擾,以便更準確的確定使用該帳戶的用戶的常駐範圍對應的網格,並且還可以確定該帳戶的生活區域對應的網格以及工作區域對應的網格。   另外,由於通常帳戶在上報的地理位置資訊時,該地理位置資訊可攜帶有上報時的時間,所以在本發明中,該伺服器可以透過各地理位置位置資訊上報時的時間,確定表1中的部分特徵值。其中該上報時的時間(簡稱,上報時間)可以是該伺服器接收到該地理位置資訊時,該伺服器的系統時間,也可以是該地理位置資訊被確定時的時間資訊,又或者可以是該地理位置資訊由設備發送至該伺服器時,該設備的發送時間。其中,若採用該伺服器的系統時間,則確定各帳戶的地理位置資訊的上報時間可以較為統一,方便管理,但是存在網路資訊延時帶來的誤差,當然,具體採用何種上報時間,本發明並不做具體限定,可由工作人員根據實際應用時的需要進行設定。   最後,該伺服器還可根據已經訓練完成的分類模型,確定各網格中,使用該帳戶的用戶經常出現的網格,作為使用該帳戶的用戶的常駐範圍。即,該伺服器可以將該帳戶對應的在各網格中的特徵值,輸入該訓練完成的分類模型中,並根據該分類模型輸出的對各網格的分類結果,確定各網格中屬於使用該帳戶的用戶的常駐範圍的網格。   需要說明的是,該伺服器可以選擇上述一個或者多個特徵值,用於確定使用該帳戶的用戶的常駐範圍,本發明並不限定該伺服器必須使用全部的特徵值來確定使用該帳戶的用戶的常駐範圍,同時,本發明也不限定僅採用上述表1所示的8種特徵值來確定使用該帳戶的用戶的常駐範圍,該特徵值的確定具體可以由工作人員根據實際應用的需要進行設定。   其中,對該分類模型的訓練過程,可以是:   首先,該伺服器可將預先確定多個地理位置資訊已經核實為真實的帳戶,即,已知真實地址資訊的帳戶,作為訓練樣本,之後採集各訓練樣本上報的各地理位置資訊,並針對每個訓練樣本,確定該訓練樣本在各網格中的特徵值,即,根據該訓練樣本在各網格中出現的次數以及時間,確定該訓練樣本在各網格中的特徵值。   然後,該伺服器可將各訓練樣本分別對應的各特徵值,依次輸入該分類模型中,並得到分類結果。其中,該分類模型初始的參數,可以隨機產生,或者由工作人員設定,該分類結果為,該分類模型對於每一個訓練樣本,確定每一個網格是屬於常駐範圍對應的網格還是屬於非常駐範圍對應的網格。   再後,該伺服器可根據各訓練樣本已知真實地址資訊分別對應的座標在各網格中的位置,確定該分類模型的分類結果的正確率,並根據該正確率調整該分類模型中的參數。   上述過程可以重複迴圈進行,直到預設的重複次數為止,或者該分類模型的分類結果的正確率達到預設的閾值為止,該預設的閾值可由工作人員根據需要設定。   進一步地,在本發明中,該分類模型可包括:隨機森林、邏輯回歸、神經網路等等分類演算法,本發明對具體採用何種分類模型並不限定。   S103:將所述待核實地址資訊與所述常駐範圍進行匹配。   S104:根據所述待核實地址資訊與所述常駐範圍的匹配結果,確定所述待核實地址資訊是否是虛假地址資訊。   在本發明實施例中,當該伺服器透過訓練完成的分類模型,在各網格中,確定使用該帳戶的用戶的常駐範圍對應的網格之後,該伺服器便可講該待核實地址資訊與該常駐範圍進行匹配,並判斷該待核實地址資訊是否是虛假地址資訊。   具體的,該伺服器首先,可以根據該待核實地址資訊對應的地球經度以及地球緯度,確定該待核實地址資訊的座標,之後該伺服器可在各網格中,確定該待核實地址資訊的座標對應的網格,最後,判斷該待核實地址資訊對應的網格與使用該帳戶的用戶的常駐範圍對應的網格是否相同(即,判斷該待核實的地址資訊的座標是否落入該常駐範圍對應的網格內),若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊。   其中,該待核實地址資訊對應的網格與使用該帳戶的用戶的常駐範圍對應的網格匹配,便意味著該待核實地址資訊的座標位於使用該帳戶的用戶的常駐範圍對應的網格中。   透過如圖1所示的風險控制的方法,該伺服器可確定使用該帳戶的用戶的常駐範圍對應的網格,之後再將該帳戶的待核實地址資訊對應的網格與使用該帳戶的用戶的常駐範圍對應的網格進行匹配,並根據匹配結果確定該待核實地址資訊是否是虛假地址資訊。可見,在對該帳戶的待核實地址進行核實時,該伺服器確定的使用該帳戶的用戶的常駐範圍是基於該帳戶歷史上報的地理位置資訊,在預先劃分的地圖網格中確定的,所以該常駐範圍對應的網格的可信度較高,並且可以確定該常駐範圍對應的網格是該帳戶的,則基於該常駐範圍對應的網格對該待核實地址資訊進行匹配時,該匹配結果的準確度較高,以此得到較為準確的虛假地址資訊的識別結果,使得對虛假地址資訊識別的準確率提高。   另外,由於不同設備的定位精度可能不完全一致,並且在不同的外部條件下,同一設備的定位精度也可能出現差異,而若該帳戶上報的地理位置資訊中存在定位精度較低的地理位置資訊時,則有可能導致後續確定的使用該帳戶的用戶的常駐範圍對應的網格不準確,進而影響後續對虛假地址資訊識別的準確率。   所以在本發明實施例中,該伺服器在確定該帳戶在預設時間段內上報的各地理位置資訊時,還可以根據預設的定位精度閾值,從各地理位置資訊中,選擇定位精度不小於該定位精度閾值的地理位置資訊,作為該帳戶的待核實地址資訊輸入該訓練完成的分類模型中,確定使用該帳戶的用戶的常駐範圍對應的網格。   同理,對於各訓練樣本來說,該伺服器也可以針對每個訓練樣本,從預設時間段內上報的各地理位置資訊中,確定定位精度不小於該定位精度閾值的地理位置資訊,訓練該分類模型。   進一步地,在本發明中,由於不同的分類模型對於不同類型的資料的效果不一致,而訓練樣本的地理位置資訊的分佈規律通常也是隨機的,例如,工作地點與居住地點很近的訓練樣本,以及工作地點與居住地點很遠的訓練樣本等等,可能導致對於同樣的訓練樣本,不同的分類模型得到的分類結果的準確性不完全一致,於是在本發明實施例中,該伺服器在訓練該分類模型時,可以採用常用的方法從多種分類模型中選擇效果較好的分類模型,作為確定該常駐範圍對應的網格的分類模型,具體的,該伺服器可採用多種分類模型分別對該訓練樣本進行訓練,並分別計算每個分類模型對應的受試者工作特徵曲線(Receiver Operating Characteristic Curve, ROC曲線)下的面積(Area Under Curve,AUC),並可將AUC最大的分類模型作為訓練完成的分類模型,當然,具體選用哪一個分類模型也可以由工作人員根據實際應用的需要進行選擇,例如,考慮時間成本,選擇分類速度較快的分類模型,作為訓練完成的分類模型等等,本發明並不做具體限定。   更進一步地,如上所述不同的類型的資料訓練出的分類模型可能存在差異,所以為了提高分類模型的適用性,在本發明實施例中,該伺服器可以選擇預設比例的訓練樣本,用於對各分類模型進行測試,則該伺服器在訓練各該分類模型時採用的樣本與計算的AUC時採用的樣本可不完全相同,以達到更好的分類模型的選擇結果,其中,該預設的比例可由工作人員設定,本發明並不限定。   另外,由於訓練樣本的生活軌跡也不是完全固定不變的,所以在採用各訓練樣本訓練該分類模型時,針對每個訓練樣本,該伺服器也可確定該訓練樣本的一段時間內上報的各地理位置資訊,其中該一段時間也可以與該預設時間段一致,也可以不一致,具體該一段時間的起始點與結束點可由工作人員根據實際應用時的需要進行確定,例如,從確定該訓練樣本的地址資訊為真實時開始,回溯4個月內的該訓練樣本上報的各地理位置資訊等等,本發明並不做具體限定。   進一步地,由於表1中所示的各特徵值所能體現的該帳戶的生活軌跡以及生活規律,並且,透過各地理位置資訊的上報時間,透過該特徵值該分類模型確定的分類結果中,還可以區分使用該帳戶的用戶的常駐範圍還可包括,使用該帳戶的用戶的常駐居住範圍以及使用該帳戶的用戶的常駐工作範圍。   則在步驟S101中該伺服器確定的該帳戶的待核實地址資訊還可包括:待核實居住地址資訊以及待核實工作地址資訊。於是,該訓練完成的分類模型,透過該帳戶上報的各地理位置資訊,可以確定該帳戶對應常駐居住範圍以及常駐工作範圍。   更進一步地,該分類模型在確定各訓練樣本時,可以確定已知真實居住地址資訊以及已知真實工作地址資訊的若干帳戶,作為訓練樣本,並針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在每個網格中的次數以及時間,再根據該訓練樣本在每個網格中出現的次數和時間,確定該訓練樣本在各網格中對應的特徵值,最後根據各訓練樣本在各網格中對應的特徵值、各訓練樣本已知真實居住地址資訊以及各訓練樣本已知真實工作地址資訊,訓練所述分類模型,則所述分類模型在確定常駐範圍時,可以僅以將常駐範圍確定為常駐居住範圍以及常駐工作範圍。   另外,在步驟S103中,當該待核實地址資訊為待核實居住地址資訊時,根據該待核實居住地址資訊對應的經度以及緯度,確定該待核實居住地址資訊的座標;判斷該待核實居住地址資訊的座標是否落入該常駐居住範圍內;若是,則確定該待核實地址資訊不是虛假地址資訊;若否,則確定該待核實地址資訊是虛假地址資訊,當該待核實地址資訊為待核實工作地址資訊時,根據該待核實工作地址資訊對應的經度以及緯度,確定該待核實工作地址資訊的座標;判斷該待核實工作地址資訊的座標是否落入該常駐工作範圍內;若是,則確定該待核實地址資訊不是虛假地址資訊;若否,則確定該待核實地址資訊是虛假地址資訊。   通常金融機構在對發明貸款或者信用卡的帳戶的風險進行判斷時,需要帳戶提供如,身分資訊、聯繫資訊、資產資訊等資訊,並對各資訊進行核實,來確定對該帳戶的潛在風險,以進行後續的操作。其中,聯繫資訊可包括:電話號碼、地址資訊等等。   於是,本發明另一實施例中,該地址資訊的核實,可以是該帳戶在向金融機構發明信用卡或者信貸服務時,該金融機構對該帳戶的地址資訊進行核實,則該伺服器可以是該金融機構的用於對地址資訊核實的伺服器,或者該金融機構可以是向該伺服器發起地址資訊核實請求的協力廠商,其中,通常金融機構對於地址資訊的核實出於兩個方面,一方面是對該地址資訊的真實性進行核實,另一方面,是對該地址資訊是否是該帳戶的進行核實。   進一步地,在透過步驟S101~S104之後,該伺服器可以確定該帳戶的該待核實地址資訊是否是虛假的地址資訊,並且,該伺服器不僅可以確定該待核實地址資訊的真實性,同時也可以確定該待核實地址資訊與該帳戶是否對應,即,該待核實地址資訊是否與使用該帳戶的用戶的常駐範圍匹配。   更進一步地,該待核實地址資訊可以是該帳戶的待核實居住地址資訊和/或該帳戶的待核實工作地址資訊,則透過對該待核實地址資訊是否是虛假地址資訊的識別,可以確定該帳戶的風險,如,若該帳戶提供的是虛假地址資訊,則該帳戶騙取貸款的可能性較高,反之亦然。例如,假設用戶d透過帳戶e,向銀行f發明信用卡業務,並且根據銀行的要求,提供了居住地址g以及工作地址h,進一步假設該銀行f的伺服器i確定該帳戶e的待核實地址資訊分別為,待核實居住地址,即居住地址g,以及待核實工作地址,即居住地址h,則該伺服器i可先根據該帳戶e在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,分別確定該帳戶e的常駐居住範圍以及該帳戶e的常駐工作範圍,再分別將該待核實居住地址資訊與該常駐居住範圍,以及該待核實工作地址資訊與該常駐工作範圍進行匹配,最後根據該待核實居住地址資訊與該常駐居住範圍的匹配結果以及該待核實工作地址資訊與該常駐工作範圍的匹配結果,確定該待核實居住地址資訊以及該待核實工作地址是否是虛假地址資訊,並且,該伺服器i可以僅當該待核實居住地址資訊以及該待核實工作地址有一個是虛假地址資訊時,確定該帳戶e的風險較高,不向該帳戶e提供信用卡業務,或者降低向該帳戶e提供的信用額度。當然,具體確定該帳戶提供的是虛假地址資訊後,後續採取何種操作本發明並不做具體限定。   需要說明的是,本發明實施例所提供方法的各步驟的執行主體均可以是同一設備,或者,該方法也由不同設備作為執行主體。比如,步驟S101和步驟S102的執行主體可以為設備1,步驟S103的執行主體可以為設備2;又比如,步驟S101的執行主體可以為設備1,步驟S102和步驟S103的執行主體可以為設備2;等等,即,該伺服器可以是由多台設備組成的分散式伺服器。同時,本發明實施例所提供的方法的各步驟的執行主體也不限定為伺服器,也可以是終端,該終端可以是手機、個人電腦、平板電腦等設備。   基於圖1所示的虛假地址資訊識別過程,本發明實施例還對應提供一種虛假地址資訊識別的裝置,如圖3所示。   圖3為本發明實施例提供的一種虛假地址資訊識別的裝置的結構示意圖,包括:   第一確定模組201,確定帳戶的待核實地址資訊;   第二確定模組202,根據所述帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐範圍;   匹配模組203,將所述待核實地址資訊與所述常駐範圍進行匹配;   識別模組204,根據所述待核實地址資訊與所述常駐範圍的匹配結果,確定所述待核實地址資訊是否是虛假地址資訊。   所述地理位置資訊包括:經度、緯度。   所述地理位置資訊還包括:定位精度,所述第二確定模組202,根據預設的定位精度閾值,從所述帳戶在預設時間段內上報的各地理位置資訊中,確定定位精度不小於所述預設的定位精度閾值的地理位置資訊,根據定位精度不小於所述預設的定位精度閾值的地理位置資訊,以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐範圍。   所述第二確地模組,根據預設的網格大小,將地圖劃分為若干網格,將所述地圖上的各網格,作為預先劃分的地理範圍。   所述第二確定模組202,採用下述方法訓練所述分類模型:確定若干已知真實地址資訊的帳戶,作為訓練樣本,針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在各網格中的次數以及時間,根據該訓練樣本在各網格中出現的次數和時間,確定該訓練樣本在各網格中對應的特徵值,根據各訓練樣本在各網格中對應的特徵值,以及各訓練樣本已知真實地址資訊,訓練所述分類模型。   所述第二確定模組202,根據所述帳戶在預設時間段內上報的各地理位置資訊,確定所述帳戶在各網格中對應的特徵值,將所述帳戶在各網格中對應的特徵值輸入所述訓練完成的分類模型中,確定所述帳戶的常駐範圍。   所述識別模組204,根據所述待核實地址資訊對應的經度以及緯度,確定所述待核實地址資訊的座標,判斷所述待核實地址資訊的座標是否落入所述常駐範圍內,若是,則確定所述待核實地址資訊不是虛假地址資訊,若否,則確定所述待核實地址資訊是虛假地址資訊。   所述待核實地址資訊包括:待核實居住地址資訊以及待核實工作地址資訊,所述第二確定模組202,根據所述帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定所述帳戶常駐居住範圍以及常駐工作範圍。   所述第二確定模組202,訓練所述分類模型,確定已知真實居住地址資訊以及已知真實工作地址資訊的若干帳戶,作為訓練樣本,針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在每個網格中的次數以及時間,根據該訓練樣本在每個網格中出現的次數和時間,確定該訓練樣本在各網格中對應的特徵值,根據各訓練樣本在各網格中對應的特徵值、各訓練樣本已知真實居住地址資訊以及各訓練樣本已知真實工作地址資訊,訓練所述分類模型,以使得所述分類模型用於確定常駐居住範圍以及常駐工作範圍。   該訓練樣本在任一網格中對應的特徵值包括:該訓練樣本在該網格內出現次數占總出現次數的比例、該訓練樣本在該網格內出現天數占總出現天數的比例、該訓練樣本在該網格內工作日出現天數占總出現天數的比例、該訓練樣本在該網格內節假日出現天數占總出現天數的比例、該訓練樣本在該網格內工作日白天出現天數占總出現天數的比例、該訓練樣本在該網格內工作日夜間出現天數占總出現天數的比例、該訓練樣本在該網格內節假日白天出現天數占總出現天數的比例、該訓練樣本在該網格內節假日夜間出現天數占總出現天數的比例中的至少一種。   所述識別模組204,當所述待核實地址資訊為待核實居住地址資訊時,根據所述待核實居住地址資訊對應的經度以及緯度,確定所述待核實居住地址資訊的座標;判斷所述待核實居住地址資訊的座標是否落入所述常駐居住範圍內;若是,則確定所述待核實地址資訊不是虛假地址資訊;若否,則確定所述待核實地址資訊是虛假地址資訊,當所述待核實地址資訊為待核實工作地址資訊時,根據所述待核實工作地址資訊對應的經度以及緯度,確定所述待核實工作地址資訊的座標;判斷所述待核實工作地址資訊的座標是否落入所述常駐工作範圍內;若是,則確定所述待核實地址資訊不是虛假地址資訊;若否,則確定所述待核實地址資訊是虛假地址資訊。   具體的,上述如圖3所示的虛假地址資訊識別的裝置可以位於伺服器中,該服務器具體可以是一台設備,也可以是由多台設備組成的系統,即,分散式伺服器。   在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式設計邏輯器件(Programmable Logic Device, PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對器件程式設計來確定。由設計人員自行程式設計來把一個數位系統“整合”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。   控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或固件)的電腦可讀媒體、邏輯門、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯程式設計來使得控制器以邏輯門、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。   上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、蜂窩電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。   為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。   本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。   本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。   這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。   這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。   在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。   記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。   電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫態性電腦可讀媒體(transitory media),如調變的資料信號和載波。   還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。   本領域技術人員應明白,本發明的實施例可提供為方法、系統或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。   本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本發明,在這些分散式運算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。   本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。   以上所述僅為本發明的實施例而已,並不用於限制本發明。對於本領域技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本發明的申請專利範圍的範圍之內。
S101、S102、S103、S104‧‧‧方法步驟201‧‧‧第一確定模組202‧‧‧第二確定模組203‧‧‧匹配模組204‧‧‧識別模組
此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:   圖1為本發明實施例提供的一種虛假地址資訊識別的過程;   圖2為本發明實施例提供的地圖網格的示意圖;   圖3為本發明實施例提供的一種虛假地址資訊識別的裝置的結構示意圖。

Claims (16)

  1. 一種虛假地址資訊識別的方法,其特徵在於,該方法包括:確定帳戶的待核實地址資訊;根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分地理範圍中,確定該帳戶常駐範圍,其中,預先劃分地理範圍,具體包括:根據預設的網格大小,將地圖劃分為若干網格;以及將該地圖上的各網格,作為預先劃分的地理範圍;將該待核實地址資訊與該常駐範圍進行匹配;以及根據該待核實地址資訊與該常駐範圍的匹配結果,確定該待核實地址資訊是否是虛假地址資訊,其中,採用下述方法訓練該分類模型:確定若干已知真實地址資訊的帳戶,作為訓練樣本;針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在各網格中的次數;根據該訓練樣本在各網格中出現的次數,確定該訓練樣本在各網格中對應的特徵值;以及 根據各訓練樣本在各網格中對應的特徵值,以及各訓練樣本已知真實地址資訊,訓練該分類模型,且其中,根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍,具體包括:根據該帳戶在預設時間段內上報的各地理位置資訊,確定該帳戶在各網格中對應的特徵值;以及將該帳戶在各網格中對應的特徵值輸入該訓練完成的分類模型中,確定該帳戶的常駐範圍。
  2. 如申請專利範圍第1項所述的方法,其中,該地理位置資訊包括:經度、緯度。
  3. 如申請專利範圍第2項所述的方法,其中,該地理位置資訊還包括:定位精度,且其中,根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍,具體包括:根據預設的定位精度閾值,從該帳戶在預設時間段內上報的各地理位置資訊中,確定定位精度不小於該預設的定位精度閾值的地理位置資訊;以及根據定位精度不小於該預設的定位精度閾值的地理位置資訊,以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍。
  4. 如申請專利範圍第1項所述的方法,其中,根據該待核實地址資訊與該常駐範圍的匹配結果,確定該待核實地址資訊是否是虛假地址資訊,具體包括:根據該待核實地址資訊對應的經度以及緯度,確定該待核實地址資訊的座標;以及判斷該待核實地址資訊的座標是否落入該常駐範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊。
  5. 如申請專利範圍第1項所述的方法,其中,該待核實地址資訊包括:待核實居住地址資訊以及待核實工作地址資訊;根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍,具體包括:根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐居住範圍以及常駐工作範圍。
  6. 如申請專利範圍第5項所述的方法,其中,訓練該分類模型,具體包括:確定已知真實居住地址資訊以及已知真實工作地址資 訊的若干帳戶,作為訓練樣本;針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在每個網格中的次數以及時間;根據該訓練樣本在每個網格中出現的次數和時間,確定該訓練樣本在各網格中對應的特徵值;以及根據各訓練樣本在各網格中對應的特徵值訓練樣本已知真實居住地址資訊以及各訓練樣本已知真實工作地址資訊,訓練該分類模型,以使得該分類模型用於確定常駐居住範圍以及常駐工作範圍。
  7. 如申請專利範圍第6項所述的方法,其中,該訓練樣本在任一網格中對應的特徵值包括:該訓練樣本在該網格內出現次數占總出現次數的比例、該訓練樣本在該網格內出現天數占總出現天數的比例、該訓練樣本在該網格內工作日出現天數占總出現天數的比例、該訓練樣本在該網格內節假日出現天數占總出現天數的比例、該訓練樣本在該網格內工作日白天出現天數占總出現天數的比例、該訓練樣本在該網格內工作日夜間出現天數占總出現天數的比例、該訓練樣本在該網格內節假日白天出現天數占總出現天數的比例、該訓練樣本在該網格內節假日夜間出現天數占總出現天數的比例中的至少一種。
  8. 如申請專利範圍第5項所述的方法,其中,根據該待 核實地址資訊與該常駐範圍的匹配結果,確定該待核實地址資訊是否是虛假地址資訊,具體包括:當該待核實地址資訊為待核實居住地址資訊時,根據該待核實居住地址資訊對應的經度以及緯度,確定該待核實居住地址資訊的座標;判斷該待核實居住地址資訊的座標是否落入該常駐居住範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊;當該待核實地址資訊為待核實工作地址資訊時,根據該待核實工作地址資訊對應的經度以及緯度,確定該待核實工作地址資訊的座標;以及判斷該待核實工作地址資訊的座標是否落入該常駐工作範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊。
  9. 一種虛假地址資訊識別的裝置,其特徵在於,該裝置包括:第一確定模組,確定帳戶的待核實地址資訊;第二確定模組,根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍,其中,該第二確定模組,根據預設的網格大小,將地圖劃分為若干網格,將該地圖上的各網格,作為預先劃分的地理範圍;匹配模組,將該待核實地址資訊與該常駐範圍進行匹 配;以及識別模組,根據該待核實地址資訊與該常駐範圍的匹配結果,確定該待核實地址資訊是否是虛假地址資訊,其中,該第二確定模組,採用下述方法訓練該分類模型:確定若干已知真實地址資訊的帳戶,作為訓練樣本,針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在各網格中的次數,根據該訓練樣本在各網格中出現的次數,確定該訓練樣本在各網格中對應的特徵值,根據各訓練樣本在各網格中對應的特徵值,以及各訓練樣本已知真實地址資訊,訓練該分類模型,且其中,該第二確定模組,根據該帳戶在預設時間段內上報的各地理位置資訊,確定該帳戶在各網格中對應的特徵值,將該帳戶在各網格中對應的特徵值輸入該訓練完成的分類模型中,確定該帳戶的常駐範圍。
  10. 如申請專利範圍第9項所述的裝置,其中,該地理位置資訊包括:經度、緯度。
  11. 如申請專利範圍第10項所述的裝置,其中,該地理位置資訊還包括:定位精度,該第二確定模組,根據預設的定位精度閾值,從該帳戶在預設時間段內上報的各地理位置資訊中,確定定位精度不小於該預設的定位精度閾值的地理位置資訊,根據定位精度不小於該預設的定位精度閾 值的地理位置資訊,以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐範圍。
  12. 如申請專利範圍第9項所述的裝置,其中,該識別模組,根據該待核實地址資訊對應的經度以及緯度,確定該待核實地址資訊的座標,判斷該待核實地址資訊的座標是否落入該常駐範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊。
  13. 如申請專利範圍第9項所述的裝置,其中,該待核實地址資訊包括:待核實居住地址資訊以及待核實工作地址資訊,該第二確定模組,根據該帳戶在預設時間段內上報的各地理位置資訊以及訓練完成的分類模型,在預先劃分的地理範圍中,確定該帳戶常駐居住範圍以及常駐工作範圍。
  14. 如申請專利範圍第13項所述的裝置,其中,該第二確定模組,訓練該分類模型,確定已知真實居住地址資訊以及已知真實工作地址資訊的若干帳戶,作為訓練樣本,針對每個訓練樣本,根據該訓練樣本上報的若干地理位置資訊,確定該訓練樣本出現在每個網格中的次數以及時間,根據該訓練樣本在每個網格中出現的次數和時間,確定該訓練樣本在各網格中對應的特徵值,根據各訓練樣本在各 網格中對應的特徵值、各訓練樣本已知真實居住地址資訊以及各訓練樣本已知真實工作地址資訊,訓練該分類模型,以使得該分類模型用於確定常駐居住範圍以及常駐工作範圍。
  15. 如申請專利範圍第14項所述的裝置,其中,該訓練樣本在任一網格中對應的特徵值包括:該訓練樣本在該網格內出現次數占總出現次數的比例、該訓練樣本在該網格內出現天數占總出現天數的比例、該訓練樣本在該網格內工作日出現天數占總出現天數的比例、該訓練樣本在該網格內節假日出現天數占總出現天數的比例、該訓練樣本在該網格內工作日白天出現天數占總出現天數的比例、該訓練樣本在該網格內工作日夜間出現天數占總出現天數的比例、該訓練樣本在該網格內節假日白天出現天數占總出現天數的比例、該訓練樣本在該網格內節假日夜間出現天數占總出現天數的比例中的至少一種。
  16. 如申請專利範圍第13項所述的裝置,其中,該識別模組,當該待核實地址資訊為待核實居住地址資訊時,根據該待核實居住地址資訊對應的經度以及緯度,確定該待核實居住地址資訊的座標;判斷該待核實居住地址資訊的座標是否落入該常駐居住範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊, 當該待核實地址資訊為待核實工作地址資訊時,根據該待核實工作地址資訊對應的經度以及緯度,確定該待核實工作地址資訊的座標;以及判斷該待核實工作地址資訊的座標是否落入該常駐工作範圍內,若是,則確定該待核實地址資訊不是虛假地址資訊,若否,則確定該待核實地址資訊是虛假地址資訊。
TW106132406A 2016-12-14 2017-09-21 虛假地址資訊識別的方法及裝置 TWI699652B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201611153869.5 2016-12-14
??201611153869.5 2016-12-14
CN201611153869.5A CN107066478B (zh) 2016-12-14 2016-12-14 一种虚假地址信息识别的方法及装置

Publications (2)

Publication Number Publication Date
TW201822032A TW201822032A (zh) 2018-06-16
TWI699652B true TWI699652B (zh) 2020-07-21

Family

ID=59619172

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106132406A TWI699652B (zh) 2016-12-14 2017-09-21 虛假地址資訊識別的方法及裝置

Country Status (7)

Country Link
US (1) US10733217B2 (zh)
EP (1) EP3557447A4 (zh)
JP (1) JP6756921B2 (zh)
KR (1) KR102208892B1 (zh)
CN (2) CN107066478B (zh)
TW (1) TWI699652B (zh)
WO (1) WO2018107993A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066478B (zh) 2016-12-14 2020-06-09 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置
CN110069626B (zh) * 2017-11-09 2023-08-04 菜鸟智能物流控股有限公司 一种目标地址的识别方法、分类模型的训练方法以及设备
CN110392122B (zh) * 2018-04-16 2021-12-07 腾讯大地通途(北京)科技有限公司 地址类型的确定方法和装置、存储介质、电子装置
US10721242B1 (en) * 2018-04-27 2020-07-21 Facebook, Inc. Verifying a correlation between a name and a contact point in a messaging system
US10462080B1 (en) 2018-04-27 2019-10-29 Whatsapp Inc. Verifying users of an electronic messaging system
CN108416672A (zh) * 2018-05-11 2018-08-17 试金石信用服务有限公司 金融风险评估方法、系统、服务器及存储介质
CN109359186B (zh) * 2018-10-25 2020-12-08 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109636568A (zh) * 2018-10-25 2019-04-16 深圳壹账通智能科技有限公司 电话号码的风险检测方法、装置、设备及存储介质
CN109919357B (zh) * 2019-01-30 2021-01-22 创新先进技术有限公司 一种数据确定方法、装置、设备及介质
CN111667127B (zh) * 2019-03-05 2023-04-18 杭州海康威视系统技术有限公司 一种智能监管方法、装置及电子设备
CN109978075B (zh) * 2019-04-04 2021-09-28 江苏满运软件科技有限公司 车辆虚假位置信息识别方法、装置、电子设备、存储介质
CN110599200B (zh) * 2019-09-10 2022-11-01 携程计算机技术(上海)有限公司 Ota酒店的虚假地址的检测方法、系统、介质及设备
CN110807068B (zh) * 2019-10-08 2022-09-23 北京百度网讯科技有限公司 换设备用户的识别方法、装置、计算机设备和存储介质
CN110807685B (zh) * 2019-10-22 2021-09-07 上海钧正网络科技有限公司 信息处理方法、装置、终端及可读存储介质
CN110708333B (zh) * 2019-10-22 2022-04-01 深圳市卡牛科技有限公司 一种位置验证方法以及相关设备
CN113034157B (zh) * 2019-12-24 2023-12-26 中国移动通信集团浙江有限公司 集团成员识别方法、装置及计算设备
CN111310462A (zh) * 2020-02-07 2020-06-19 北京三快在线科技有限公司 用户属性的确定方法、装置、设备及存储介质
CN111400442B (zh) * 2020-02-28 2024-06-04 深圳前海微众银行股份有限公司 常驻地址分析方法、装置、设备及可读存储介质
US11803748B2 (en) * 2020-05-29 2023-10-31 Sap Se Global address parser
CN113076752A (zh) * 2021-03-26 2021-07-06 中国联合网络通信集团有限公司 识别地址的方法和装置
CN113609290A (zh) * 2021-07-28 2021-11-05 北京沃东天骏信息技术有限公司 一种地址识别方法及装置、存储介质
CN113722617A (zh) * 2021-09-30 2021-11-30 京东城市(北京)数字科技有限公司 企业实际办公地址的识别方法、装置及电子设备
CN114066606B (zh) * 2021-11-17 2024-07-19 四川新网银行股份有限公司 一种基于文本转义为gps距离的资料虚假识别系统及方法
CN115022014B (zh) * 2022-05-30 2023-07-14 平安银行股份有限公司 登录风险识别方法、装置、设备及存储介质
CN115333954B (zh) * 2022-08-10 2024-03-15 河南龙翼信息技术有限公司 虚假地址云端分析系统
CN115374713B (zh) * 2022-10-25 2022-12-27 成都新希望金融信息有限公司 一种gps真伪识别模型的训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463668A (zh) * 2014-10-24 2015-03-25 南京邦科威信息科技有限公司 一种在线信用审核方法及装置
CN105787104A (zh) * 2016-03-21 2016-07-20 百度在线网络技术(北京)有限公司 用户属性信息的获取方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040139049A1 (en) * 1996-08-22 2004-07-15 Wgrs Licensing Company, Llc Unified geographic database and method of creating, maintaining and using the same
US6122624A (en) * 1998-05-28 2000-09-19 Automated Transaction Corp. System and method for enhanced fraud detection in automated electronic purchases
US6728767B1 (en) * 2000-08-18 2004-04-27 Cisco Technology, Inc. Remote identification of client and DNS proxy IP addresses
GB2402841B (en) * 2003-06-10 2005-05-11 Whereonearth Ltd A method of providing location based information to a mobile terminal within a communications network
US7454192B1 (en) * 2005-02-04 2008-11-18 Sprint Communications Company, L.P. Postal address validation using mobile telephone location information
US20080102819A1 (en) * 2006-10-30 2008-05-01 Henrik Bengtsson System and method for verifying contact data
US8220034B2 (en) 2007-12-17 2012-07-10 International Business Machines Corporation User authentication based on authentication credentials and location information
US8863258B2 (en) 2011-08-24 2014-10-14 International Business Machines Corporation Security for future log-on location
US9465800B2 (en) * 2013-10-01 2016-10-11 Trunomi Ltd. Systems and methods for sharing verified identity documents
CN103825942B (zh) * 2014-02-24 2018-07-10 可牛网络技术(北京)有限公司 自动查询应用程序app行为报告的方法、装置及服务器
US20150310434A1 (en) 2014-04-29 2015-10-29 Dennis Takchi Cheung Systems and methods for implementing authentication based on location history
KR101667644B1 (ko) * 2014-10-10 2016-10-19 나이스평가정보 주식회사 고객정보 진위여부검증 지원시스템
CN104361023B (zh) * 2014-10-22 2018-01-30 浙江中烟工业有限责任公司 一种情境感知的移动终端烟草信息推送方法
US20160132930A1 (en) * 2014-11-10 2016-05-12 Brian Handly Mobile Device Proximity Determination
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
SG11201706149XA (en) * 2015-01-27 2017-08-30 Beijing Didi Infinity Tech And Dev Co Ltd Methods And Systems For Providing Information For An On-Demand Service
CN104765873B (zh) * 2015-04-24 2019-03-26 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
US20170017921A1 (en) * 2015-07-16 2017-01-19 Bandwidth.Com, Inc. Location information validation techniques
CN105260795B (zh) * 2015-10-13 2019-05-03 广西师范学院 一种基于条件随机场的重点人员位置时空预测方法
CN105447129B (zh) * 2015-11-18 2020-09-25 腾讯科技(深圳)有限公司 个性化内容获取方法、用户属性挖掘方法、系统和装置
CN106027544B (zh) * 2016-06-24 2019-12-06 深圳壹账通智能科技有限公司 地址信息的校验方法、云服务器及手持终端
CN107066478B (zh) * 2016-12-14 2020-06-09 阿里巴巴集团控股有限公司 一种虚假地址信息识别的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463668A (zh) * 2014-10-24 2015-03-25 南京邦科威信息科技有限公司 一种在线信用审核方法及装置
CN105787104A (zh) * 2016-03-21 2016-07-20 百度在线网络技术(北京)有限公司 用户属性信息的获取方法和装置

Also Published As

Publication number Publication date
TW201822032A (zh) 2018-06-16
US10733217B2 (en) 2020-08-04
CN107066478B (zh) 2020-06-09
JP2020502673A (ja) 2020-01-23
WO2018107993A1 (zh) 2018-06-21
KR20190094230A (ko) 2019-08-12
EP3557447A1 (en) 2019-10-23
CN111858937A (zh) 2020-10-30
KR102208892B1 (ko) 2021-01-29
CN111858937B (zh) 2024-04-30
EP3557447A4 (en) 2019-11-20
JP6756921B2 (ja) 2020-09-16
CN107066478A (zh) 2017-08-18
US20190294620A1 (en) 2019-09-26

Similar Documents

Publication Publication Date Title
TWI699652B (zh) 虛假地址資訊識別的方法及裝置
TWI698770B (zh) 資源轉移監測方法、裝置、監測設備及儲存媒體
WO2019154162A1 (zh) 一种风控规则生成方法和装置
TWI698795B (zh) 資訊展示方法及裝置
TWI769190B (zh) 風險管控方法及裝置
TW201939404A (zh) 資訊推薦的方法、裝置及設備
CN108416616A (zh) 投诉举报类别的排序方法和装置
TWI718379B (zh) 針對使用共享物品的使用者評估方法、裝置及設備
CN110781971B (zh) 一种商户类型识别方法、装置、设备和可读介质
CN113344567B (zh) 一种聚合码的支付页面的访问方法、装置、设备及介质
US11954190B2 (en) Method and apparatus for security verification based on biometric feature
US20200357078A1 (en) Method, apparatus, system, and electronic device for credit tax refundment
CN110738562B (zh) 一种风险提醒信息的生成方法、装置及设备
CN110020780A (zh) 信息输出的方法、装置和电子设备
CN115564450A (zh) 一种风控方法、装置、存储介质及设备
CN111967769B (zh) 一种风险识别方法、装置、设备及介质
CN109598511B (zh) 一种账户风险识别方法、装置及设备
CN110728516A (zh) 一种风控模型的更新方法、装置及设备
CN111291247A (zh) 一种数据服务提供方法、装置及设备
US20230334370A1 (en) Model gradient determining methods, apparatuses, devices, and media based on federated learning
CN117272257A (zh) 一种职业身份认证方法、装置及设备
CN116070921A (zh) 一种业务策略生成方法、装置及设备
CN118313836A (zh) 资源账户处理方法及装置
CN116401541A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN115730233A (zh) 一种数据处理方法、装置、可读存储介质以及电子设备