TWI743773B - 基於隱私資料保護的異常採集行為識別方法和裝置 - Google Patents

基於隱私資料保護的異常採集行為識別方法和裝置 Download PDF

Info

Publication number
TWI743773B
TWI743773B TW109115226A TW109115226A TWI743773B TW I743773 B TWI743773 B TW I743773B TW 109115226 A TW109115226 A TW 109115226A TW 109115226 A TW109115226 A TW 109115226A TW I743773 B TWI743773 B TW I743773B
Authority
TW
Taiwan
Prior art keywords
lightweight applications
lightweight
applications
pages
data
Prior art date
Application number
TW109115226A
Other languages
English (en)
Other versions
TW202121215A (zh
Inventor
徐文浩
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Publication of TW202121215A publication Critical patent/TW202121215A/zh
Application granted granted Critical
Publication of TWI743773B publication Critical patent/TWI743773B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Abstract

本說明書實施例公開了一種基於隱私資料保護的異常採集行為識別以及場景分類模型的訓練方法、裝置及電子設備,該方法包括:獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。

Description

基於隱私資料保護的異常採集行為識別方法和裝置
本說明書關於電腦軟體技術領域,尤其關於一種基於隱私資料保護的異常採集行為識別方法、裝置及電子設備。
隨著移動互聯網技術的快速發展,應用程式的應用越來越廣泛,小程式等輕量應用由於其能夠被嵌入到第三方應用程式中,且無需下載安裝,隨時可用,也受到越來越廣泛的應用。然而,現有的小程式在被打開時,往往會採集用戶的隱私資料,且有些小程式還存在過度採集用戶隱私資料的情況。 目前,對於這種情況,往往需要運營人員在接到用戶對某一小程式的舉報的前提下,或者透過系統發現了存在異常採集行為的小程式之後,透過運營人員人工判別這些小程式是否存在過度採集用戶隱私資料的情況。因此,亟需一種針對小程式等輕量應用的異常採集行為的判別方法,以應對現有技術的上述問題。
本說明書實施例的目的是提供一種基於隱私資料保護的異常採集行為識別以及場景分類模型的訓練方法、裝置及電子設備,以避免小程式等輕量應用對用戶的隱私資料的過度採集情況。 為解決上述技術問題,本說明書實施例是這樣實現的: 第一態樣,提出了一種基於隱私資料保護的異常採集行為識別方法,包括: 獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 第二態樣,提出了一種場景分類模型的訓練方法,包括: 獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。 第三態樣,提出了一種基於隱私資料保護的異常採集行為識別裝置,包括: 獲取單元,獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 預測單元,將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 確定單元,基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 第四態樣,提出了一種場景分類模型的訓練單元,包括: 資料獲取單元,獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 特徵提取單元,從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 模型訓練單元,基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。 第五態樣,提出了一種電子設備,該電子設備包括: 處理器;以及 被安排成儲存電腦可執行指令的記憶體,所述可執行指令在被執行時使所述處理器執行以下操作: 獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 第六態樣,提出了一種電腦可讀儲存媒體,所述電腦可讀儲存媒體儲存一個或多個程式,所述一個或多個程式當被包括多個應用程式的電子設備執行時,使得所述電子設備執行以下操作: 獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 第七態樣,提出了一種電子設備,包括: 處理器;以及 被安排成儲存電腦可執行指令的記憶體,所述可執行指令在被執行時使所述處理器執行以下操作: 獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。 第八態樣,提出了一種電腦可讀儲存媒體,所述電腦可讀儲存媒體儲存一個或多個程式,所述一個或多個程式當被包括多個應用程式的電子設備執行時,使得所述電子設備執行以下操作: 獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。 由以上本說明書實施例提供的技術方案可見,本說明書實施例方案至少具備如下一種技術效果: 本說明書提供的一種或多個實施例,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。將小程式等輕量應用的異常採集行為的識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。 本說明書提供的一種或多個實施例,能夠獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤,再從這多個輕量應用的頁面內容資料和用戶行為資料中,並能夠基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。這樣再使用訓練得到的場景分類模型對小程式等輕量應用的使用場景進行識別,一方面能夠提高對小程式使用場景的識別效率,另一方面也節省了不必要的人力資源。
為使本說明書的目的、技術方案和優點更加清楚,下面將結合本說明書具體實施例及相應的附圖對本說明書中的技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。 以下結合附圖,詳細說明本說明書各實施例提供的技術方案。 為避免小程式等輕量應用對用戶的隱私資料的過度採集情況,本說明書一個或多個實施例提供一種基於隱私資料保護的異常採集行為識別方法,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。 這樣便將小程式等輕量應用的基於隱私資料保護的異常採集行為識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。 應理解,本說明書實施例提供的基於隱私資料保護的異常採集行為識別方法的執行主體,可以但不限於伺服器、電腦等能夠被配置為執行本說明書實施例提供的該方法用戶終端中的至少一種,或者,該方法的執行主體,還可以是能夠執行該方法的用戶端本身。 為便於描述,下文以該方法的執行主體為能夠執行該方法的伺服器為例,對該方法的實施方式進行介紹。可以理解,該方法的執行主體為伺服器只是一種示例性的說明,並不應理解為對該方法的限定。 圖1是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別方法的實施流程示意圖。圖1的方法可包括: S110,獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單; 其中,目標輕量應用具體可以包括快應用、小程式、H5應用等即用戶無需安裝即可使用的羽量級應用程式。 其中,目標輕量應用的頁面內容資料包括目標輕量應用的頁面中的文字資訊、實體類型以及對應的實體數量,該實體類型可以是頁面中的各種物體,比如貓、狗、房子、車等實體。目標輕量應用中的用戶行為資料包括用戶在目標輕量應用的頁面中的點擊、滑動、支付、轉發、輸入等行為資料、以及用戶所在的城市、用戶的學歷、年齡、職業等特徵資料。目標輕量應用申請採集的隱私資料清單具體可以是目標輕量應用在被用戶使用時,實際採集的用戶的隱私資料清單,比如可以包括用戶的身份證號、用戶的手機號碼、用戶的性別、用戶的頭像、暱稱等隱私資料。 S120,將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別; 應理解,小程式等輕量應用在用戶打開使用時,往往會採集用戶的隱私資料,比如在聊天應用中打開購物類小程式時,則會提示用戶將為其提供採集用戶在該聊天應用中的頭像、暱稱、聯繫方式等隱私資料的許可權。通常情況下,用戶在打開小程式時,不會在意其打開的小程式是否會過度採集用戶的隱私資料,這就導致很多小程式可能存在過度採集用戶隱私資料的意圖,從而惡意利用或販賣用戶的隱私資料達到額外獲利的目的。 在這種情況下,為了避免用戶的隱私資料被過度採集和利用,本說明書一個或多個實施例,可預先基於多個輕量應用的頁面內容資料、用戶行為資料和這些輕量應用的使用場景標籤,訓練得到場景分類模型,透過場景分類模型預測目標輕量應用的使用場景類別,並基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。 S130,基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。 其中,輕量應用的使用場景類別可包括購物類使用場景、購買火車票的使用場景、共用單車類使用場景、學習工具類的使用場景,等等,通常不同使用場景類別的輕量應用需要採集的用戶隱私資料也會不同。比如購物類的輕量應用通常需要採集用戶的購物帳號、聯繫方式等隱私資料;購買火車票類的輕量應用則需要採集用戶的身份證號、購票帳號、聯繫方式等隱私資料;共用單車類輕量應用需要採集用戶的登錄帳號、聯繫方式等隱私資料;學習工具類的輕量應用可能只需要採集用戶的登錄帳號等隱私資料。 也就是說,依據不同使用場景類別的輕量應用實際申請採集的隱私資料清單、以及對應於不同使用場景類別的輕量應用可採集的隱私資料清單,便可以判斷出輕量應用是否存在過度採集用戶隱私資料的情況。 可選地,基於目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單,確定目標輕量應用是否存在異常採集行為,包括: 若目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單一致,則確定目標輕量應用不存在異常採集行為; 若目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單不一致,則確定目標輕量應用存在異常採集行為。 可選地,為了避免目標輕量應用過度採集用戶的隱私資料,在確定目標輕量應用存在異常採集行為之後,該方法還包括: 攔截目標輕量應用的隱私資料發送請求。 以目標輕量應用為購物類輕量應用為例,這類輕量應用在被用戶打開並使用時,通常只需要採集用戶的購物帳號、聯繫方式、收貨位址等隱私資料資訊,顯然,在用戶進行購物時,通常情況下是不需要出示用戶本人的身份資訊的,比如身份證號碼。若該購物應用又額外採集了用戶的身份證號碼這一隱私資料,則可以在基於目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單,確定目標輕量應用存在異常採集行為之後,攔截目標輕量應用針對其額外採集的隱私資料發送請求,或者攔截目標輕量應用的所有隱私資料的發送請求。 本說明書提供的一種或多個實施例,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。將小程式等輕量應用的異常採集行為的識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。 圖2是本說明書的一個實施例提供的一種場景分類模型的訓練方法的實施流程示意圖,包括: S210,獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤; 其中,多個輕量應用的頁面內容資料包括這多個輕量應用的頁面中的文字資訊、實體類型以及對應的實體數量,該實體類型可以是頁面中的各種物體,比如貓、狗、房子、車等實體。多個輕量應用中的用戶行為資料包括多個用戶在這多個輕量應用的頁面中的點擊、滑動、支付、轉發、輸入等行為資料、以及這多個用戶所在的城市、用戶的學歷、年齡、職業等特徵資料。 多個輕量應用的使用場景標籤為場景分類模型訓練之前,透過人工或者機器打標的方式,對這多個輕量應用的使用場景標記對應的使用場景標籤,比如購物類、購票類、學習工具類等等使用場景標籤。 S220,從多個輕量應用的頁面內容資料和用戶行為資料中,提取多個輕量應用的使用場景特徵; 應理解,輕量應用的頁面內容資料中通常會包括文字類資料和圖像類資料,為便於從文字類資料和圖像類資料提取出對應的特徵資料,本說明書一個或多個實施例可將圖像類資料轉換為文字類資料,再將所有的文字類資料進行拼接得到一個文字欄位。具體地,從多個輕量應用的頁面內容資料和用戶行為資料中,提取多個輕量應用的使用場景特徵,包括: 從多個輕量應用的頁面內容資料中,分別獲取多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量; 分別將多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量進行拼接,得到多個輕量應用對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到; 從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵。 可選地,從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵,包括: 分別對多個輕量應用對應的多個文字欄位進行資料預處理; 分別將資料預處理操作後的多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量; 從多個詞向量和所述多個輕量應用對應的用戶行為資料中,提取多個輕量應用的使用場景特徵; 其中,資料預處理操作包括剔除停用詞操作。 由於合併得到的多個文字欄位中通常會存在一些沒有實際意義的詞和符合,比如“的”、“即使”、“以便”這種連接詞,這些詞對場景分類過程沒有過多的價值和意義,這類詞還會增加分類的計算量,因此,本說明書一個或多個實施例,在將多個應用對應的多個文字欄位,轉換為對應的多個詞向量之前,還可以對這多個文字欄位進行剔除停用詞等資料預處理操作。 其中,分別將資料預處理操作後的多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量,具體可以使用語料訓練得到的詞向量字典,或者開源版本的詞向量字典,將資料預處理操作後的多個文字欄位換換為對應的多個詞向量。該詞向量字典中包括多個詞與詞向量之間的映射關係,一個詞向量對應於一組特徵向量。 其中,用戶行為資料對應的行為特徵資料可透過統計分析的方式得到。從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵,具體可以將多個文字欄位對應的多個詞向量和用戶行為資料對應的行為特徵資料進行合併,得到多個輕量應用的使用場景特徵。 可選地,為了避免遺漏輕量應用的頁面中的特徵,本說明書一個或多個實施例可基於多個輕量應用的頁面中的實體類型的名稱和對應的數量,將各個實體類型的名稱重複對應的數量的次數,再與輕量應用的頁面中的文字資訊進行拼接,得到各輕量應用的文字欄位。具體地,分別將多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量進行拼接,得到多個輕量應用對應的多個文字欄位,包括: 基於多個輕量應用的頁面中的實體類型的名稱和對應的數量,分別獲取與多個輕量應用的頁面中的實體類型相對應的文字欄位,一個輕量應用的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱; 基於分別將多個輕量應用的頁面中的多個文字資訊、以及與多個輕量應用的頁面中的實體類型相對應的文字欄位進行拼接,得到多個輕量應用對應的多個文字欄位。 S230,基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用的使用場景類別。 可選地,基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,包括: 透過多分類模型基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。 其中,多分類模型具體可以包括xgboost模型,該xgboost模型具體是一種梯度提升樹模型的開源實現,能夠用於分類和回歸任務。 下面以輕量應用為小程式為例,並結合圖3所示的場景分類模型和場景分類模型的應用方法流程示意圖,對本說明書實施例提供的場景分類模型的訓練方法和基於隱私資料保護的異常採集行為識別方法進行詳細介紹,包括: S301,獲取多個小程式的頁面內容資料,該頁面內容資料包括小程式頁面中顯示的文字資訊和圖像類資料,其中圖像類資料中包括小程式頁面中顯示的實體類型和對應的數量; S302,獲取多個小程式的用戶行為資料,該用戶行為資料包括用戶對小程式頁面的點擊、滑動、跳轉、輸入、付款等行為資料; S303,分別將這多個小程式的頁面中的多個文字資訊、以及多個小程式的頁面中的實體類型和數量進行拼接,得到多個小程式對應的多個文字欄位,並對這多個文字欄位進行剔除停用詞操作,以剔除這多個文字欄位中的冗餘資訊,再基於預先設置的詞向量字典將這多個文字欄位轉換為對應的多個詞向量; 其中,一個文字欄位中由對應的小程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到,詞向量字典中包括多個文字欄位與詞向量之間的對應關係,一個詞向量對應於一組特徵向量。 S304,基於多個小程式的用戶行為資料,構造對應的多個行為特徵資料; 具體可以基於多個小程式的用戶行為資料,統計分析得到用戶的平均操作頻次、操作時間段等特徵資料,以及用戶所在的城市、用戶的年齡、學歷職業等特徵資料。 S305,對這多個小程式的使用場景資料進行人工打標,得到這多個小程式的使用場景標籤,該使用場景標籤用於表徵小程式的使用場景類別相關的資訊; S306,透過xgboost多分類模型基於多個小程式對應的多個詞向量和行為特徵資料,訓練得到場景分類模型; S307,將目標小程式的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標小程式的使用場景類別; S308,確定目標小程式的使用場景類別對應的隱私資料獲取清單; S309,確定目標小程式申請採集的隱私資料清單; S310,將目標小程式的使用場景類別對應的隱私資料獲取清單與其申請採集的隱私資料清單進行對比,判斷出目標小程式是否存在異常採集行為; S311,若目標小程式的使用場景類別對應的隱私資料獲取清單與其申請採集的隱私資料清單不一致,則確定目標小程式存在異常採集行為,並攔截目標小程式的隱私資料發送請求。 以目標小程式為購物類的小程式為例,該目標小程式的使用場景類別對應的隱私資料清單包括用戶的手機號這一敏感資訊,而若該目標小程式申請採集的隱私資料清單還包括身份證號等敏感資訊時,則可以確定該目標小程式存在異常採集行為。在這種情況下,當目標小程式發送用戶的隱私資料時,則可以攔截該目標小程式的隱私資料發送請求,從而避免其對用戶的隱私資料的過度採集。 本說明書提供的一種或多個實施例,能夠獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤,再從這多個輕量應用的頁面內容資料和用戶行為資料中,並能夠基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。這樣再使用訓練得到的場景分類模型對小程式等輕量應用的使用場景進行識別,一方面能夠提高對小程式使用場景的識別效率,另一方面也節省了不必要的人力資源。 圖4是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別裝置400的結構示意圖。請參考圖4,在一種軟體實施方式中,基於隱私資料保護的異常採集行為識別裝置400可包括: 獲取單元401,獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 預測單元402,將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 確定單元403,基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 可選地,在一種實施方式中,所述確定單元403,用於: 若所述目標輕量應用申請採集的隱私資料清單和所述目標隱私資料獲取清單一致,則確定所述目標輕量應用不存在異常採集行為; 若所述目標輕量應用申請採集的隱私資料清單和所述目標隱私資料獲取清單不一致,則確定所述目標輕量應用存在異常採集行為。 可選地,在一種實施方式中,在所述確定單元403確定所述目標輕量應用存在異常採集行為之後,所述裝置還包括: 攔截單元404,攔截所述目標輕量應用的隱私資料發送請求。 基於隱私資料保護的異常採集行為識別裝置400能夠實現圖1的方法實施例的方法,具體可參考圖1所示實施例的基於隱私資料保護的異常採集行為識別方法,不再贅述。 圖5是本說明書的一個實施例提供的一種場景分類模型的訓練裝置500的結構示意圖。請參考圖5,在一種軟體實施方式中,場景分類模型的訓練裝置500可包括: 資料獲取單元501,獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 特徵提取單元502,從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 模型訓練單元503,基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。 可選地,在一種實施方式中,所述特徵提取單元502,用於: 從所述多個輕量應用的頁面內容資料中,分別獲取所述多個輕量應用的頁面中的多個文字資訊、以及所述多個輕量應用的頁面中的實體類型和數量; 分別將所述多個輕量應用的頁面中的多個文字資訊、以及所述多個輕量應用的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到; 從所述多個輕量應用對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用的使用場景特徵。 可選地,在一種實施方式中,所述特徵提取單元502,用於: 分別對所述多個輕量應用對應的多個文字欄位進行資料預處理; 分別將所述資料預處理操作後的所述多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量; 從所述多個詞向量和所述多個輕量應用對應的用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 其中,所述資料預處理操作包括剔除停用詞操作。 可選地,在一種實施方式中,所述特徵提取單元502,用於: 基於所述多個輕量應用的頁面中的實體類型的名稱和對應的數量,分別獲取與所述多個輕量應用的頁面中的實體類型相對應的文字欄位,一個輕量應用的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱; 基於分別將所述多個輕量應用的頁面中的多個文字資訊、以及與所述多個輕量應用的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用對應的多個文字欄位。 可選地,在一種實施方式中,所述模型訓練單元503,用於: 透過多分類模型基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。 場景分類模型的訓練裝置500能夠實現圖2~圖3的方法實施例的方法,具體可參考圖2~圖3所示實施例的場景分類模型的訓練方法,不再贅述。 圖6是本說明書的一個實施例電子設備的結構示意圖。請參考圖6,在硬體層面,該電子設備包括處理器,可選地還包括內部匯流排、網路介面、記憶體。其中,記憶體可能包含記憶體,例如高速隨機存取記憶體(Random-Access Memory,RAM),也可能還包括非易失性記憶體(non-volatile memory),例如至少1個磁碟記憶體等。當然,該電子設備還可能包括其他業務所需要的硬體。 處理器、網路介面和記憶體可以透過內部匯流排相互連接,該內部匯流排可以是ISA(Industry Standard Architecture,工業標準架構)匯流排、PCI(Peripheral Component Interconnect,外設部件互連標準)匯流排或EISA(Extended Industry Standard Architecture,延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示,圖6中僅用一個雙向箭頭表示,但並不表示僅有一根匯流排或一種類型的匯流排。 記憶體,用於存放程式。具體地,程式可以包括程式碼,所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體,並向處理器提供指令和資料。 處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成基於隱私資料保護的異常採集行為識別裝置。處理器,執行記憶體所存放的程式,並具體用於執行以下操作: 獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 上述如本說明書圖1~圖3所示實施例揭示的基於隱私資料保護的異常採集行為識別裝置執行的方法可以應用於處理器中,或者由處理器實現。處理器可能是一種積體電路晶片,具有信號的處理能力。在實現過程中,上述方法的各步驟可以透過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,CPU)、網路處理器(Network Processor,NP)等;還可以是數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立閘或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本說明書實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體,處理器讀取記憶體中的資訊,結合其硬體完成上述方法的步驟。 該電子設備還可執行圖1的方法,並實現基於隱私資料保護的異常採集行為識別裝置在圖1所示實施例的功能,本說明書實施例在此不再贅述。 本說明書實施例還提出了一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一個或多個程式,該一個或多個程式包括指令,該指令當被包括多個應用程式的可攜式電子設備執行時,能夠使該可攜式電子設備執行圖1所示實施例的方法,並具體用於執行以下操作: 獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單; 將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別; 基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。 當然,除了軟體實現方式之外,本說明書的電子設備並不排除其他實現方式,比如邏輯器件抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。 圖7是本說明書的一個實施例電子設備的結構示意圖。請參考圖7,在硬體層面,該電子設備包括處理器,可選地還包括內部匯流排、網路介面、記憶體。其中,記憶體可能包含記憶體,例如高速隨機存取記憶體(Random-Access Memory,RAM),也可能還包括非易失性記憶體(non-volatile memory),例如至少1個磁碟記憶體等。當然,該電子設備還可能包括其他業務所需要的硬體。 處理器、網路介面和記憶體可以透過內部匯流排相互連接,該內部匯流排可以是ISA(Industry Standard Architecture,工業標準架構)匯流排、PCI(Peripheral Component Interconnect,外設部件互連標準)匯流排或EISA(Extended Industry Standard Architecture,延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示,圖7中僅用一個雙向箭頭表示,但並不表示僅有一根匯流排或一種類型的匯流排。 記憶體,用於存放程式。具體地,程式可以包括程式碼,所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體,並向處理器提供指令和資料。 處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成場景分類模型的訓練裝置。處理器,執行記憶體所存放的程式,並具體用於執行以下操作: 獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。 上述如本說明書圖2和圖3所示實施例揭示的場景分類模型的訓練裝置執行的方法可以應用於處理器中,或者由處理器實現。處理器可能是一種積體電路晶片,具有信號的處理能力。在實現過程中,上述方法的各步驟可以透過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,CPU)、網路處理器(Network Processor,NP)等;還可以是數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立閘或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本說明書實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體,處理器讀取記憶體中的資訊,結合其硬體完成上述方法的步驟。 該電子設備還可執行圖2和圖3的方法,並實現場景分類模型的訓練裝置在圖2和圖3所示實施例的功能,本說明書實施例在此不再贅述。 本說明書實施例還提出了一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一個或多個程式,該一個或多個程式包括指令,該指令當被包括多個應用程式的可攜式電子設備執行時,能夠使該可攜式電子設備執行圖2所示實施例的方法,並具體用於執行以下操作: 獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤; 從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵; 基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。 當然,除了軟體實現方式之外,本說明書的電子設備並不排除其他實現方式,比如邏輯器件抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。 總之,以上所述僅為本說明書的較佳實施例而已,並非用於限定本說明書的保護範圍。凡在本說明書的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本說明書的保護範圍之內。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、行動電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。 電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
S110:方法步驟 S120:方法步驟 S130:方法步驟 S210:方法步驟 S220:方法步驟 S230:方法步驟 S301:方法步驟 S302:方法步驟 S303:方法步驟 S304:方法步驟 S305:方法步驟 S306:方法步驟 S307:方法步驟 S308:方法步驟 S309:方法步驟 S310:方法步驟 S311:方法步驟 400:異常採集行為識別裝置 401:獲取單元 402:預測單元 403:確定單元 500:場景分類模型的訓練裝置 501:資料獲取單元 502:特徵提取單元 503:模型訓練單元
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。 [圖1]是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別方法的實施流程示意圖。 [圖2]是本說明書的一個實施例提供的一種場景分類模型的訓練方法的實施流程示意圖。 [圖3]是本說明書的一個實施例提供的場景分類模型的訓練方法應用在一種實際場景中的流程示意圖。 [圖4]是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別裝置的結構示意圖。 [圖5]是本說明書的一個實施例提供的一種場景分類模型的訓練裝置的結構示意圖。 [圖6]是本說明書的一個實施例提供的一種電子設備的結構示意圖。 [圖7]是本說明書的一個實施例提供的另一種電子設備的結構示意圖。

Claims (6)

  1. 一種場景分類模型的訓練方法,包括:獲取多個輕量應用程式的頁面內容資料、用戶行為資料以及所述多個輕量應用程式的使用場景標籤;從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用程式的使用場景類別,其中,從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵,包括:從所述多個輕量應用程式的頁面內容資料中,分別獲取所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量;分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;從所述多個輕量應用程式對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;以及 其中,分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,包括:基於所述多個輕量應用程式的頁面中的實體類型的名稱和對應的數量,分別獲取與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位,一個輕量應用程式的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;基於分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用程式對應的多個文字欄位。
  2. 如請求項1所述的方法,從所述多個輕量應用程式對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵,包括:分別對所述多個輕量應用程式對應的多個文字欄位進行資料預處理;分別將該資料預處理操作後的所述多個輕量應用程式對應的多個文字欄位,轉換為對應的多個詞向量;從所述多個詞向量和所述多個輕量應用程式對應的用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;其中,該資料預處理操作包括剔除停用詞操作。
  3. 如請求項1所述的方法,基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,包括:透過多分類模型基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。
  4. 一種場景分類模型的訓練裝置,包括:資料獲取單元,獲取多個輕量應用程式的頁面內容資料、用戶行為資料以及所述多個輕量應用程式的使用場景標籤;特徵提取單元,從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;模型訓練單元,基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用程式的使用場景類別,其中,從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵,包括:從所述多個輕量應用程式的頁面內容資料中,分別獲取所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量;分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,其 中,一個文字欄位中由對應的輕量應用程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;從所述多個輕量應用程式對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;以及其中,分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,包括:基於所述多個輕量應用程式的頁面中的實體類型的名稱和對應的數量,分別獲取與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位,一個輕量應用程式的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;基於分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用程式對應的多個文字欄位。
  5. 一種電子設備,包括:處理器;以及被安排成儲存電腦可執行指令的記憶體,該可執行指令在被執行時使該處理器執行以下操作:獲取多個輕量應用程式的頁面內容資料、用戶行為資料以及所述多個輕量應用程式的使用場景標籤; 從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用程式的使用場景類別,其中,從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵,包括:從所述多個輕量應用程式的頁面內容資料中,分別獲取所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量;分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;從所述多個輕量應用程式對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;以及其中,分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,包括:基於所述多個輕量應用程式的頁面中的實體類型的名 稱和對應的數量,分別獲取與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位,一個輕量應用程式的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;基於分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用程式對應的多個文字欄位。
  6. 一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一個或多個程式,所述一個或多個程式當被包括多個應用程式的電子設備執行時,使得該電子設備執行以下操作:獲取多個輕量應用程式的頁面內容資料、用戶行為資料以及所述多個輕量應用程式的使用場景標籤;從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;基於所述多個輕量應用程式的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用程式的使用場景類別,其中,從所述多個輕量應用程式的頁面內容資料和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵,包括:從所述多個輕量應用程式的頁面內容資料中,分別獲取所述多個輕量應用程式的頁面中的多個文字資訊、以及 所述多個輕量應用程式的頁面中的實體類型和數量;分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;從所述多個輕量應用程式對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用程式的使用場景特徵;以及其中,分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及所述多個輕量應用程式的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用程式對應的多個文字欄位,包括:基於所述多個輕量應用程式的頁面中的實體類型的名稱和對應的數量,分別獲取與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位,一個輕量應用程式的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;基於分別將所述多個輕量應用程式的頁面中的多個文字資訊、以及與所述多個輕量應用程式的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用程式對應的多個文字欄位。
TW109115226A 2019-11-22 2020-05-07 基於隱私資料保護的異常採集行為識別方法和裝置 TWI743773B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911158814.7A CN110826006B (zh) 2019-11-22 2019-11-22 基于隐私数据保护的异常采集行为识别方法和装置
CN201911158814.7 2019-11-22

Publications (2)

Publication Number Publication Date
TW202121215A TW202121215A (zh) 2021-06-01
TWI743773B true TWI743773B (zh) 2021-10-21

Family

ID=69558415

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115226A TWI743773B (zh) 2019-11-22 2020-05-07 基於隱私資料保護的異常採集行為識別方法和裝置

Country Status (3)

Country Link
CN (1) CN110826006B (zh)
TW (1) TWI743773B (zh)
WO (1) WO2021098327A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826006B (zh) * 2019-11-22 2021-03-19 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN111400705B (zh) * 2020-03-04 2023-03-14 支付宝(杭州)信息技术有限公司 一种应用程序的检测方法、装置及设备
CN112491815A (zh) * 2020-11-11 2021-03-12 恒安嘉新(北京)科技股份公司 信息监测方法、装置、设备及介质
CN115842656A (zh) * 2021-01-07 2023-03-24 支付宝(杭州)信息技术有限公司 一种基于隐私数据调用的管控方法及装置
CN112835902A (zh) * 2021-02-01 2021-05-25 上海上讯信息技术股份有限公司 一种数据资产识别及使用的方法及设备
CN115186260A (zh) * 2021-03-26 2022-10-14 支付宝(杭州)信息技术有限公司 小程序风险检测方法和装置
CN113434847B (zh) * 2021-06-25 2023-10-27 深圳赛安特技术服务有限公司 应用程序的隐私模块处理方法、装置、电子设备及介质
CN113297609A (zh) * 2021-07-27 2021-08-24 支付宝(杭州)信息技术有限公司 针对小程序进行隐私采集行为监控的方法及装置
CN113792341B (zh) * 2021-09-15 2023-10-13 百度在线网络技术(北京)有限公司 应用程序的隐私合规自动化检测方法、装置、设备及介质
CN114793269A (zh) * 2022-03-25 2022-07-26 岚图汽车科技有限公司 摄像头的控制方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443746A (zh) * 2006-05-18 2009-05-27 李尚奎 用于保护客户端及服务器的方法
CN109766488A (zh) * 2019-01-16 2019-05-17 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN110087099A (zh) * 2019-03-11 2019-08-02 北京大学 一种保护隐私的监控方法和系统
US20190325150A1 (en) * 2018-01-16 2019-10-24 International Business Machines Corporation Dynamic cybersecurity protection mechanism for data storage devices
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297256A1 (en) * 2012-05-04 2013-11-07 Jun Yang Method and System for Predictive and Conditional Fault Detection
KR101539841B1 (ko) * 2013-05-30 2015-07-28 제주대학교 산학협력단 스마트그리드 전력 네트워크에서 정책기반 정보보호 서비스 방법 및 시스템
CN104966031B (zh) * 2015-07-01 2018-02-27 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN105550584A (zh) * 2015-12-31 2016-05-04 北京工业大学 一种Android平台下基于RBAC的恶意程序拦截及处置方法
CN107958154A (zh) * 2016-10-17 2018-04-24 中国科学院深圳先进技术研究院 一种恶意软件检测装置及方法
CN110475014A (zh) * 2018-05-11 2019-11-19 北京三星通信技术研究有限公司 用户场景的识别方法及终端设备
CN109344042B (zh) * 2018-08-22 2022-02-18 北京中测安华科技有限公司 异常操作行为的识别方法、装置、设备及介质
CN109829300A (zh) * 2019-01-02 2019-05-31 广州大学 App动态深度恶意行为检测装置、方法及系统
CN109495727B (zh) * 2019-01-04 2021-12-24 京东方科技集团股份有限公司 智能监控方法及装置、系统、可读存储介质
CN109960753B (zh) * 2019-02-13 2023-07-25 平安科技(深圳)有限公司 上网设备用户的检测方法、装置、存储介质及服务器
CN109933503A (zh) * 2019-02-13 2019-06-25 平安科技(深圳)有限公司 用户操作风险系数确定方法、装置及存储介质、服务器
CN110213236B (zh) * 2019-05-05 2022-09-27 深圳市腾讯计算机系统有限公司 确定业务安全风险的方法、电子设备及计算机存储介质
CN110428091B (zh) * 2019-07-10 2022-12-27 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110826006B (zh) * 2019-11-22 2021-03-19 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101443746A (zh) * 2006-05-18 2009-05-27 李尚奎 用于保护客户端及服务器的方法
US20190325150A1 (en) * 2018-01-16 2019-10-24 International Business Machines Corporation Dynamic cybersecurity protection mechanism for data storage devices
CN109766488A (zh) * 2019-01-16 2019-05-17 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN110087099A (zh) * 2019-03-11 2019-08-02 北京大学 一种保护隐私的监控方法和系统
CN110457694A (zh) * 2019-07-29 2019-11-15 腾讯科技(深圳)有限公司 消息提醒方法及装置、场景类型识别提醒方法及装置

Also Published As

Publication number Publication date
CN110826006A (zh) 2020-02-21
WO2021098327A1 (zh) 2021-05-27
CN110826006B (zh) 2021-03-19
TW202121215A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
TWI743773B (zh) 基於隱私資料保護的異常採集行為識別方法和裝置
CN110874440B (zh) 一种信息推送及其模型训练的方法、装置及电子设备
US8977554B1 (en) Assisted shopping server
WO2021103909A1 (zh) 风险预测和风险预测模型的训练方法、装置及电子设备
WO2019169978A1 (zh) 资源推荐方法及装置
WO2019169964A1 (zh) 一种资源和营销推荐方法、装置及电子设备
CN110569502A (zh) 一种违禁广告语的识别方法、装置、计算机设备及存储介质
CN111768258A (zh) 识别异常订单的方法、装置、电子设备和介质
TW202032466A (zh) 用戶年齡預測方法、裝置及設備
US9460163B1 (en) Configurable extractions in social media
CN111131419A (zh) 基于书籍页面的信息推送方法及服务器
US9400780B2 (en) Perspective data management for common features of multiple items
CN112184143B (zh) 一种合规审核规则中的模型训练方法、装置和设备
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
CN111598122B (zh) 数据校验方法、装置、电子设备和存储介质
CN109345081A (zh) 一种数据采集方法、装置及电子设备
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN111782946A (zh) 书友推荐方法、计算设备及计算机存储介质
CN110058992B (zh) 一种文案模板效果反馈方法、装置及电子设备
US11222143B2 (en) Certified information verification services
US20200186668A1 (en) Method and device for recommending watermark for electronic terminal
CN110138707B (zh) 数据交互的方法、客户端、应用和电子设备
US10831795B2 (en) Method and system for providing target information using application list
WO2022057425A1 (en) Identifying siem event types
CN111008752A (zh) 一种专利的动态估值方法及装置