TW202001736A - 分類模型的訓練方法、店鋪分類的方法及裝置 - Google Patents
分類模型的訓練方法、店鋪分類的方法及裝置 Download PDFInfo
- Publication number
- TW202001736A TW202001736A TW108107393A TW108107393A TW202001736A TW 202001736 A TW202001736 A TW 202001736A TW 108107393 A TW108107393 A TW 108107393A TW 108107393 A TW108107393 A TW 108107393A TW 202001736 A TW202001736 A TW 202001736A
- Authority
- TW
- Taiwan
- Prior art keywords
- store
- feature
- information
- review
- semantic
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本說明書實施例提供一種分類模型的訓練方法、店鋪分類的方法和裝置,根據本說明書的實施例,在訓練分類模型時,所選擇的店鋪樣本對應的店鋪資訊包括評論資訊,透過店鋪資訊擷取店鋪樣本的特徵包括至少基於評論資訊的時間相關屬性而獲取的第一特徵,以及基於評論資訊中包含的與店鋪真實性相關的語義描述而確定的第二特徵。在利用訓練的分類模型對店鋪分類時,所擷取的待分類店鋪的特徵同樣包括上述第一特徵和第二特徵。如此,可以充分利用網際網路資料,提高店鋪分類的有效性。
Description
本說明書一個或多個實施例涉及電腦技術領域,尤其涉及透過電腦分類模型的訓練方法、店鋪分類的方法和裝置。
隨著電腦和網際網路技術的發展,人們生活中接觸的網路平臺或應用程式越來越多,例如交友應用程式、購物應用程式、訂餐應用程式、地圖應用程式等等。其中,用戶在使用一些可以推薦店鋪的應用程式(如訂餐應用程式、地圖應用程式等)時,這些應用程式對店鋪的營業狀態(如是否停業)的描述十分重要。例如,如果用戶想吃麻辣燙,按照地圖搜索附近有一家麻辣燙的店鋪,按照地圖走過去卻發現店鋪已停業,將會給用戶造成不好的體驗。
因此,需要充分利用網際網路資料,透過擷取有效的訓練特徵,訓練準確度較高的分類模型,確定出哪些是停業店鋪,從而提高店鋪分類的有效性。
本說明書一個或多個實施例描述了一種方法和裝置,可以充分利用網際網路資料,透過擷取有效的訓練特徵,訓練準確度較高的分類模型,在店鋪分類時,準確確定出哪些是停業店鋪,從而提高店鋪分類的有效性。
根據第一態樣,提供了一種分類模型的訓練方法,所述分類模型用於判斷店鋪當前是否為真實存在的店鋪,包括:選擇預定數量的店鋪樣本,所述店鋪樣本對應有店鋪資訊和分類標籤,所述分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,所述店鋪資訊包括評論資訊;基於所述店鋪資訊擷取所述店鋪樣本的特徵,其中,所述特徵至少包括第一特徵和第二特徵,所述第一特徵至少基於所述評論資訊的時間相關屬性而獲取,所述第二特徵基於所述評論資訊中包含的與店鋪真實性相關的語義描述而確定;基於各個店鋪樣本的所述特徵和所述分類標籤訓練所述分類模型。
在一個實施例中,選擇預定數量的店鋪樣本包括:選擇預定期限內具有以下至少一項行為的店鋪作為正樣本:銷售代金券、團購活動、促銷活動、訂座服務、問答互動、廣告投放、接收到顧客在用戶端的簽到,其中,所述正樣本對應有真實存在店鋪標籤。
在一個實施例中,選擇預定數量的店鋪樣本包括:選擇滿足以下條件的店鋪作為負樣本:在電子地圖上被標註為永久停業,其中,所述負樣本對應有非真實存在店鋪標籤。
在一個可能的實施例中,所述第一特徵包括以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。
根據一種可能的設計,所述第二特徵透過以下方法擷取:獲取與第一店鋪樣本對應的所述第一評論資訊;利用預先訓練的語義模型確定所述第一評論資訊中各條評論資料分別對應的語義標籤,其中,所述語義標籤包括具有停業語義或不具有停業語義;按照各個語義標籤確定所述第一店鋪樣本的第二特徵。
進一步地,在一種實現中,所述按照各個語義標籤確定所述第一店鋪樣本的第二特徵包括:在各個語義標籤中包含具有停業語義的標籤的情況下,確定所述第一店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
在一個實施例中,所述語義模型包括,透過標註的評論資料集訓練的監督模型。
在一個可能的實施例中,利用預先訓練的語義模型確定所述第一評論資訊中各條評論資料分別對應的語義標籤包括:針對所述第一評論資訊中的第一評論資料,透過無監督詞向量模型將所述第一評論資料中的各個詞分別表示成各個詞向量;基於所述各個詞向量,確定所述第一評論資料對應的第一評論向量;將所述第一評論向量輸入所述語義模型,以獲取所述語義模型的輸出結果;按照所述輸出結果為所述第一評論資料添加語義標籤。
在一種實施方式中,所述特徵還包括以下至少一個特徵:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵。
根據一個可能的實施例,所述店鋪樣本還包括測試樣本,以及,所述方法還包括:檢測所述分類模型針對各個測試樣本的各個輸出結果的準確性,以根據各個輸出結果的準確性獲得對所述分類模型的檢測結果;根據所述檢測結果調整所述分類模型,直至所述檢測結果滿足預設條件。
根據第二態樣,提供一種店鋪分類的方法,利用第一態樣任一方法訓練的分類模型,判斷店鋪當前是否為真實存在的店鋪,所述方法包括:獲取待分類店鋪的店鋪資訊,其中,所述店鋪資訊包括評論資訊;基於所述店鋪資訊擷取所述待分類店鋪的特徵,其中,所述特徵至少包括第一特徵和第二特徵,所述第一特徵至少基於所述評論資訊的時間相關屬性而獲取,所述第二特徵基於所述評論資訊中包含的與店鋪真實性相關的語義描述而確定;將所述待分類店鋪的所述特徵輸入所述分類模型,以獲取所述分類模型的輸出結果;根據所述輸出結果確定所述待分類店鋪當前是否為真實存在的店鋪。
根據第三態樣,提供一種分類模型的訓練裝置,所述分類模型用於判斷店鋪當前是否為真實存在的店鋪,所述裝置包括:選擇單元,配置為選擇預定數量的店鋪樣本,所述店鋪樣本對應有店鋪資訊和分類標籤,所述分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,所述店鋪資訊包括評論資訊;擷取單元,配置為基於所述店鋪資訊擷取所述店鋪樣本的特徵,其中,所述特徵至少包括第一特徵和第二特徵,所述第一特徵至少基於所述評論資訊的時間相關屬性而獲取,所述第二特徵基於所述評論資訊中包含的與店鋪真實性相關的語義描述而確定;訓練單元,配置為基於各個店鋪樣本的所述特徵和所述分類標籤訓練所述分類模型。
根據第四態樣,提供一種店鋪分類的裝置,利用第三態樣的訓練裝置訓練的分類模型,判斷店鋪當前是否為真實存在的店鋪,所述裝置包括:獲取單元,配置為獲取待分類店鋪的對應有店鋪資訊,其中,所述店鋪資訊包括評論資訊;擷取單元,配置為基於所述店鋪資訊擷取所述待分類店鋪的特徵,其中,所述特徵至少包括第一特徵和第二特徵,所述第一特徵至少基於所述評論資訊的時間相關屬性而獲取,所述第二特徵基於所述評論資訊中包含的與店鋪真實性相關的語義描述而確定;分類單元,配置為將所述待分類店鋪的所述特徵輸入所述分類模型,以獲取所述分類模型的輸出結果;確定單元,配置為根據所述輸出結果確定所述待分類店鋪當前是否為真實存在的店鋪。
根據第五態樣,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一態樣或第二態樣的方法。
根據第六態樣,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行程式碼,所述處理器執行所述可執行程式碼時,實現第一態樣或第二態樣的方法。
透過本說明書實施例提供的方法和裝置,在訓練分類模型時,所選擇的店鋪樣本對應的店鋪資訊包括評論資訊,透過店鋪資訊擷取店鋪樣本的特徵包括至少基於評論資訊的時間相關屬性而獲取的第一特徵,以及基於評論資訊中包含的與店鋪真實性相關的語義描述而確定的第二特徵,如此,可以充分利用網際網路資料,擷取有效的訓練特徵,訓練準確度較高的分類模型。在利用訓練的分類模型對店鋪分類時,所擷取的待分類店鋪的特徵同樣包括上述第一特徵和第二特徵,如此,可以充分利用網際網路資料,提高店鋪分類的準確度,進而提高店鋪分類的有效性。
下面結合圖式,對本說明書提供的方案進行描述。
圖1為本說明書披露的一個實施例的實施場景示意圖。如圖所示,用戶可以透過用戶端應用程式,例如地圖應用程式、購物應用程式、訂餐應用程式等等,查看店鋪資訊。這裡的用戶端應用程式可以運行在具有資料處理能力的各種終端設備上,例如智慧手機、平板電腦、臺式電腦、智慧手錶等等。用戶端應用程式上展示的店鋪資訊透過伺服器提供。伺服器可以是具有一定資料處理能力的處理設備,也可以是處理設備集群。計算平臺訓練出分類模型,伺服器利用該分類模型對店鋪進行分類,確定店鋪是否為真實存在的店鋪,並透過用戶端應用程式展示給用戶。可以理解,這裡的真實存在,是指店鋪為真實店鋪,而且沒有永久停業、破產等狀況,其不包括短暫(如兩天)停止營業的情況。
值得說明的是,計算平臺可以設置在伺服器中,也可以是獨立於伺服器的處理設備,本發明對此不作限定。計算平臺訓練出的分類模型可以被伺服器重複利用。伺服器透過分類模型對店鋪進行分類的結果也可以重複利用。
計算平臺可以首先選擇預定數量的店鋪樣本、對店鋪樣本進行特徵擷取,然後根據擷取的特徵和已知的分類結果,訓練分類模型。其中,所選擇的店鋪樣本對應的店鋪資訊可以包括評論資訊,從而在擷取特徵時可以利用評論資訊,至少基於評論資訊的時間相關屬性而獲取到第一特徵,以及基於評論資訊中包含的與店鋪真實性相關的語義描述而確定第二特徵。如此,可以充分利用網際網路資料,擷取有效的訓練特徵,訓練準確度較高的分類模型。
伺服器利用計算平臺訓練的分類模型,可以針對待分類店鋪進行分類。伺服器可以先獲取待分類店鋪的對應店鋪資訊,其中,店鋪資訊包括評論資訊,然後,基於店鋪資訊擷取待分類店鋪的特徵,以輸入透過計算平臺訓練的上述訓練模型,獲取分類模型的輸出結果,並根據輸出結果確定待分類店鋪當前是否為真實存在的店鋪。相應地,伺服器對待分類店鋪擷取的特徵也包括上述從評論資訊中擷取的第一特徵和第二特徵。如此,可以充分利用網際網路資料,擷取有效的特徵,提高店鋪分類的準確度,從而使店鋪分類結果更有效。
當用戶透過用戶端應用程式,例如地圖應用程式、購物應用程式、訂餐應用程式等等,查看店鋪資訊時,伺服器向用戶端發送的店鋪資訊可以只包括未停業店鋪的店鋪資訊,也可以包括所有店鋪的店鋪資訊。當伺服器向用戶端發送的店鋪資訊包括所有店鋪的店鋪資訊時,店鋪資訊中還可以包括店鋪是否停業的資訊。
值得說明的是,圖1只示出了本說明書披露的一個實施例的一個具體實施場景,但並不以此限定本說明書實施例的實施場景範圍,例如,在另一個實施場景中,可以不包括圖1中的用戶端,等等。
下面描述上述場景的具體執行過程。
圖2示出根據一個實施例的分類模型的訓練方法流程圖。該方法的執行主體可以是具有一定計算、資料處理能力的系統、設備、裝置、平臺或伺服器,例如圖1所示的計算平臺。該方法涉及的分類模型可以用於判斷店鋪當前是否為真實存在的店鋪。
如圖2所示,該方法包括以下步驟:步驟21,選擇預定數量的店鋪樣本,店鋪樣本對應有店鋪資訊和分類標籤,分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,店鋪資訊包括評論資訊;步驟22,基於店鋪資訊擷取店鋪樣本的特徵,其中,上述特徵至少包括第一特徵和第二特徵,第一特徵至少基於上述評論資訊的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定;步驟23,基於各個店鋪樣本的特徵和分類標籤訓練分類模型。
首先,在步驟21,選擇預定數量的店鋪樣本,店鋪樣本對應有店鋪資訊和分類標籤。這裡,分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤。可以理解,用戶評論往往是用戶透過對店鋪的直觀、真實體驗形成的感受,真實存在店鋪和非真實存在店鋪,他們的評論資訊差距可能非常明顯,例如,非真實店鋪可能沒有評論或者評論較少。因此,評論資訊對於店鋪的分類的判斷可能具有較大影響。如此,店鋪樣本對應的店鋪資訊至少可以包括評論資訊。其中,評論資訊可以包括評論內容、評論時間、評論數量等等。
在一個實施例中,可以透過網路爬蟲(如python等)從預定網站(例如××點評等)爬取店鋪資訊。例如,可以爬取該預定網站中的使用者註冊資訊,或者內容發佈資訊。然後,可以透過使用者註冊資訊中的註冊使用者類型(如店鋪或消費者)、內容發佈資訊中所發佈內容的類型(如出售或求購等)等,來獲取店鋪資訊。如所發佈內容的類型為出售資訊,則發佈資訊的使用者可能是店鋪方,可以從中獲取店鋪名、店鋪位置、評論資訊等。實踐中,還可以根據店鋪名、店鋪位置等資訊在電子地圖上進行搜索,以確定店鋪的分類標籤,例如在電子地圖上搜索不到的店鋪為非真實存在的店鋪等。
在另一個實施例中,也可以透過離線人工收集店鋪樣本,例如透過人工對網站或地圖中的店鋪門址一一實地核查,確定其分類標籤,同時,還可以透過電話、搜尋引擎、行政管理部門登記資訊等等中的至少一項,獲取相應店鋪的店鋪資訊。其中,店鋪資訊中的評論資訊例如可以透過電話、搜尋引擎中的“問答”等來獲取。
在更多實施例中,還可以透過包含更多態樣的獲取管道獲取已知分類標籤的店鋪樣本,在此不在一一贅述。
可以理解,對於所獲取的店鋪樣本,需要對其初步篩選,從中選擇出預定數量的店鋪樣本。店鋪樣本可以包括正樣本和負樣本。其中,正樣本可以對應有真實存在店鋪標籤,負樣本可以對應有非真實存在店鋪標籤。
在可能的實施例中,可以選擇預定期限(如一個月)內具有以下至少一項行為的店鋪作為正樣本:銷售代金券、團購活動、促銷活動(如打折等)、訂座服務、問答互動、廣告投放、接收到顧客在用戶端的簽到,等等。實踐中,店鋪運營中可能採用一些銷售手段,例如銷售代金券、組織團購活動、組織促銷活動等,一些店鋪(如酒店、飯店等)可以提供訂座服務,還有一些店鋪會在相關網站(如旅遊攻略網站等)對消費者或潛在消費者進行一些問答互動,還有一些店鋪會和一些網站合作,投放廣告以增加瀏覽量或搜索排名等。另外有一些店鋪可以透過應用程式(如某美食點評網站)用戶端接收顧客在店鋪的簽到,如果顧客點擊用戶端店鋪頁面中的簽到,在簽到位置和店鋪位置偏差在設定距離範圍(如80米)內的情況下,簽到成功。一般地,提供簽到的店鋪可能是真實存在店鋪,當顧客到店消費時,進行簽到。因此,可以將當前或預定期限內具有上述行為之一的店鋪確定為正樣本,並給這些作為正樣本的店鋪樣本分配真實存在店鋪標籤。
在可能的實施例中,可以選擇滿足以下條件的店鋪作為負樣本:在電子地圖上被標註為永久停業。在一些地圖應用程式中,當店鋪永久停業,則會在地圖中將店鋪刪除,或標註為永久停業。因此,可以利用店鋪名稱和店鋪位置進行搜索,針對電子地圖類應用程式標記為永久停業的店鋪,透過電子地圖確認店鋪位置無誤後,作為負樣本,並給這些作為負樣本的店鋪樣本分配非真實存在店鋪標籤。
在獲取店鋪樣本的同時,還可以獲取店鋪樣本對應的店鋪資訊。店鋪資訊除了前述評論資訊外,例如還可以包括店鋪名、店鋪位址等。在一些實施例中,店鋪資訊還可以包括但不限於以下至少一項:店鋪基本資訊,如電話、營業時間、是否提供無線網路連接(如wifi連接等);店鋪品牌名,如××包子鋪等;網站或行政監管部門給定的店鋪標籤,如海外美食精選、當地旅遊局推薦等等;店鋪分類,如美食、購物、酒店等。
可以理解,非真實存在的店鋪是已經永久停業的店鋪,其數量往往小於真實存在的店鋪。根據一個可能的設計,可以對所獲取的具有真實存在店鋪標籤的店鋪樣本進行下採樣,使具有真實存在店鋪標籤的店鋪樣本和具有非真實存在店鋪標籤的店鋪樣本數量大致相等,例如都是45000個。
接著,在步驟22,基於上述店鋪資訊擷取店鋪樣本的特徵。在本實施例中,上述特徵至少包括第一特徵和第二特徵,第一特徵至少基於評論資訊中的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定。值得說明的是,“第一特徵”、“第二特徵”中的“第一”、“第二”僅用於區分兩個不同的特徵,而不表示順序限定。
其中,評論資訊的時間相關屬性例如可以包括但不限於以下至少一項:評論發表時間(如2018年5月1日等)、評論距當前時間的時長(如10小時、20天等)、預定時間段內(如2天)的評論數(如100條)等等。可以理解,一個真實存在的店鋪,可能會不斷有新的消費者消費並進行評論,因此,最新評論時間往往較晚,評論距當前時間的時長較小,同時,預定時間段內評論數增多的可能性較大;而非真實存在的店鋪,因為不再有新的消費者,所以評論時間較早,評論距當前時間的時長較大,預定時間段內評論增多的可能性較小。
相應地,第一特徵可以包括但不限於以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。這裡,最新評論時間可以是距當前時間最近一次評論的時間,如某個店鋪樣本的評論資訊中,在2015年3月2日20時的一條評論後,沒有其他評論,則該店鋪樣本的最新評論時間為2015年3月2日20時。最新評論距離當前時間的時長可以是當前時間和最新評論時間之間的時間差,如30天等。預定時間段內的評論數增量,即每間隔預定時間段,評論總數的變化量。舉例而言,假設預定時間段是3個月,按照評論時間,從當前時間每隔3個月統計一個評論總數,並計算評論數增量,如最近3個月的評論總數為1000,則最近3個月的評論增量為1000。如此,可以充分利用店鋪樣本在網際網路的評論資訊的與時間相關屬性資料。
評論資訊中包含的與店鋪真實性相關的語義描述,可以是包含店鋪停業或者營業狀況良好的語義的描述。例如“該店已經關門大吉不存在了”,可能是店鋪已經永久停業的語義的描述。而對於同樣的評論語句,發佈時間等資訊的不同,也可能是表達不同的意思,例如,對於一個飯店,一條評論“大老遠跑過來,已經停業了”,發佈在晚上12點表達的可能是飯店打烊的意思,而發佈在中午12點表達的可能是飯店停業的意思。而對於一個店鋪來說,極少量(如1條)包含表達店鋪停業的語義的評論就有可能表示這個店鋪已經永久停業。因此,可以在特徵中包含可以體現評論資訊中是否具有店鋪永久停業語義描述的第二特徵。
第二特徵可以用文字表示,例如:具有店鋪永久停業語義描述或包含與店鋪真實性相關的語義描述,不具有店鋪永久停業語義描述或不包含與店鋪真實性相關的語義描述,等等。第二特徵還可以用數值表示,例如在具有店鋪永久停業語義描述的情況下第二特徵為1,不具有店鋪永久停業語義描述的情況下第二特徵為0,等等。
如圖3所示,根據一個可能的設計,第二特徵可以透過以下方法擷取:步驟31,獲取與第一店鋪樣本對應的第一評論資訊;步驟32,利用預先訓練的語義模型確定第一評論資訊中各條評論資料分別對應的的語義標籤,其中,語義標籤包括具有停業語義或不具有停業語義;步驟33,按照各個語義標籤確定第一店鋪樣本的第二特徵。值得說明的是,這裡所稱的“第一店鋪樣本”、“第一評論資訊”中的 “第一”,表示“某個”、“其中一個”、“任意一個”,以及店鋪樣本和評論資訊的對應關係,而不表示順序,或者對店鋪樣本之間的區分。
對任意一個店鋪樣本,在步驟31中,可以先獲取該店鋪樣本的評論資訊。一個店鋪樣本的評論資訊,可以對應一條或多條評論資料,每條評論資料可以包括一條評論的評論內容、評論時間,還可以包括例如發佈評論的使用者ID之類的資料。
接著,在步驟32中利用預先訓練的語義模型確定評論資訊中各條評論資料分別對應的語義標籤。可以理解,每條評論資料可以對應一個語義標籤。可以將各條評論資料分別輸入預先訓練的語義模型,根據語義模型的輸出確定某條評論資料的語義標籤。其中,語義模型可以透過預先標註的評論集進行訓練。
作為一個示例,可以從多個店鋪樣本的評論資料中選出一些評論加入評論集,尤其針對包含“關門”、“停業”等等之類評論語句的評論資料優先挑選,透過人工識別、標註確定這些評論資料的語義標籤作為已知語義標籤,訓練出一個監督模型,例如邏輯迴歸LR(logistics regression)模型。模型訓練是已知輸入(如評論語句)和輸出(如已知語義標籤),確定模型參數的過程,在此不再贅述。其中,評論資料的語義標籤可以包括具有停業語義或不具有停業語義。
語義模型的輸出可以直接是語義標籤中的一個,也可以是數值,例如1,0等等。其中,語義模型的輸出是兩個可能的數值(如1、0等)中的一個,其中每一個數值對應一個語義標籤,如1對應具有停業語義標籤。語義模型的輸出也可以是多個可能的數值(如0-1之間的任意小數等)中的一個,可以設定閾值,用以判斷所輸出的數值更偏向哪種語義標籤,如大於0.6偏向具有停業語義標籤。
根據一種實施方式,針對評論資訊中的每一條評論資料,可以先透過無監督詞向量模型(如word2vec模型)將該評論資料中的各個詞分別表示成各個詞向量;基於各個詞向量,確定該評論資料對應的評論向量;將所確定的評論向量輸入語義模型,以獲取語義模型的輸出結果;按照輸出結果為該評論資料添加語義標籤。其中,基於各個詞向量,確定該評論資料對應的評論向量,例如可以是對各個詞向量的不同維度求平均,或者對不同維度求加權平均,等等。
舉例而言,對於評論資料“該店已經關門大吉不存在了”,可以先對其進行切詞、過濾虛詞等,得到詞彙“該店”、“關門大吉”、“不存在”,假設詞向量模型有3個維度a、b、c,將各個詞彙表示成詞向量分別為:“該店”﹦,“關門大吉”=,“不存在”=。在一個實現中,基於各個詞向量確定的該評論資料對應的評論向量可以為:。在另一個實現中,還可以將各個詞彙的出現次數作為權重,對各個詞向量的不同緯度求加權平均得到評論向量為:。其中,各個參數前面的1為相應詞彙出現的次數,分母中為各個詞彙出現的次數和,在該示例中各個詞彙出現的次數都是1次,在實際中還可以是其他值。
進一步地,可以將評論向量輸入語義模型,從而獲取語義模型的輸出結果。可以理解,評論向量還可以表示為(,,),其中每項作為一個特徵輸入語義模型。然後,可以按照語義模型的輸出結果為該評論資料添加語義標籤。例如,語義模型的輸出是1,為該評論資料添加“具有停業語義”的語義標籤等。
如此,可以對一個店鋪樣本的評論資訊中每條評論資料都添加一個語義標籤。
步驟33,按照店鋪樣本對應的各個語義標籤確定相應店鋪樣本的第二特徵。可以將第二特徵確定為,具有店鋪永久停業語義描述或包含與店鋪真實性相關的語義描述,不具有店鋪永久停業語義描述或不包含與店鋪真實性相關的語義描述,數值1、0等等。
進一步地,在一個實施例中,在第一店鋪樣本對應的各個語義標籤中,任意一個語義標籤為具有停業語義的標籤的情況下,確定店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
對於一些特殊情況,例如使用者發洩情緒,發佈評論為“這店早該關門了”,也可能會被添加具有停業語義的標籤。因此,在另一個實施例中,還可以設定一個個數閾值,當具有停業語義的標籤的評論資料條數超過該個數閾值(如10條等)時,才確定店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
如此,可以充分利用網際網路中店鋪樣本的評論資訊中與店鋪真實性相關的語義描述資料。
在一個實施例中,店鋪樣本的特徵除了第一特徵和第二特徵外,還可以包括評論數量特徵,例如評論總條數,好評條數、中評條數、差評條數的比值、評論中的圖片數量等。可以理解,對於差評比重較大的店鋪,為非真實存在的店鋪的可能性較大;對於評論總條數較多,或者評論中的圖片數量較多的店鋪,為真實存在的店鋪的可能性較大。由此,評論數量特徵可以作為影響對店鋪進行當前是否為真實存在的店鋪分類的一個因素。
在一個實施例中,店鋪樣本的特徵還可以包括基本資訊完備度特徵。基本資訊例如電話、營業時間、是否提供無線網路連接(如wifi等)、服務設施等等。基本資訊越完備的店鋪,為真實存在的店鋪的可能性越大。可選地,基本資訊完備度可以與基本資訊項數成正比。由此,基本資訊完備度特徵可以作為影響對店鋪進行當前是否為真實存在的店鋪分類的一個因素。
在一個實施例中,店鋪樣本的特徵還可以包括預定標識特徵。預定標識例如可以是品牌店鋪、連鎖店鋪、網站或行政管理機構給出的較佳標籤(如當地旅遊局推薦標籤)等等。可以理解,品牌店鋪或連鎖店鋪往往是指知名度、市場認可度較高的店鋪,這些店鋪是真實存在店鋪的可能性較大。網站或行政管理機構給出較佳標籤的店鋪往往是通過審核、檢測的店鋪,這些店鋪是真實存在店鋪的可能性也較大。由此,預定標識特徵可以作為影響對店鋪進行當前是否為真實存在的店鋪分類的一個因素。
在一個實施例中,店鋪樣本的特徵還可以包括店鋪經營類別特徵。店鋪經營類別例如可以是美食、酒店、服裝,等等。在一些網站中,對於美食店鋪,評論較多,如果僅透過評論數量進行分類,準確度較低,因此,還可以將不同經營類別的店鋪區別對待,對評論數較少的店鋪經營類別的店鋪,給予較大權重。
在一個實施例中,店鋪樣本的特徵還可以包括消費者評分特徵。消費者評分可以是分值,也可以是評星等。值得說明的是,如果店鋪樣本從同一個網站獲取,消費者評分具有同一的標準,則可以將消費者的評分直接作為消費者評分特徵。如果店鋪樣本不是從同一個網站獲取,評分標準也可能不同,則可以將消費者評分與滿分的比例作為消費者評分特徵。消費者評分高低會影響店鋪的客流量,如果客流量很低,則成為非真實存在的店鋪的可能性較大,由此,消費者評分特徵可以作為影響對店鋪進行當前是否為真實存在的店鋪分類的一個因素。
在更多的實施例中,店鋪樣本的特徵還可以包括更多的特徵,在此不再一一例舉。
步驟23,基於各個店鋪樣本的特徵和分類標籤訓練上述分類模型。可以理解,模型訓練的過程就是已知輸入特徵和分類結果,確定模型參數的過程。在本說明書中,輸入特徵就是店鋪樣本的特徵,其中特徵包括多個輸入特徵,分類結果根據店鋪樣本的分類標籤確定,例如輸出結果包括0、1,0表示真實存在店鋪標籤,1表示非真實存在店鋪標籤,等等。一個店鋪樣本對應一組已知輸入特徵和分類結果。
如圖4所示,在訓練分類模型過程中,在輸入層42輸入的已知輸入特徵是各個店鋪樣本的特徵,輸出層43的輸出結果可以與相應店鋪樣本的分類標籤相比較。根據比較結果調整中間層44的各個參數,以及,輸入層42的特徵與中間層44之間、中間層44與輸出層43之間各個箭頭連線代表的權重參數。
在圖4中,輸入層42輸入的已知輸入特徵,包括第一特徵421和第二特徵422,第一特徵421和第二特徵422分別透過店鋪資訊41中的評論資訊411相關資料獲取。
在一個可能的設計中,可以將店鋪樣本分為訓練樣本和測試樣本。在分類模型的訓練過程中,依次將各個訓練樣本的特徵作為輸入,根據分類模型的輸出結果與分類標籤的對比調整分類模型的各個分類參數使分類模型的輸出結果與當前輸入的訓練樣本的分類標籤更一致,以訓練分類模型。接著,將各個測試樣本的特徵輸入透過訓練樣本訓練過的分類模型,用測試樣本對應的分類標籤檢測分類模型的各個輸出結果的準確性,以獲得對分類模型的檢測結果。例如,如果分類標籤和分類模型的輸出結果一致,則確定分類模型的輸出結果正確。由此,可以獲得分類模型對測試樣本整體的檢測結果,如準確度等。
在所得到的檢測結果不滿足預定條件的情況下,可以進一步根據檢測結果調整分類模型。例如調整分類模型的網格結構、調換分類模型等等。例如當分類模型是梯度提升決策樹GBDT模型時,可以調節樹的數目、每棵樹的深度、學習率等。調整好分類模型後,重新用訓練樣本訓練分類模型,並用測試樣本獲得對分類模型的檢測結果。直至測試樣本對檢測結果滿足預設條件。
其中,這裡的預設條件可以是對分類模型的檢測結果設定的條件。例如當分類模型是梯度提升決策樹GBDT模型時,檢測結果可以包括曲離線面積AUC、精度、召回率、F1分數等等的值。例如預設條件是精度和召回率都大於0.7等等。在根據本說明書實施例的一次實驗中,可以達到AUC=0.868,精度=0.767,召回率=0.803,F1為0.784。
回顧以上過程,所選擇的店鋪樣本對應的店鋪資訊中包括有評論資訊,由此,根據店鋪資訊擷取的特徵中可以至少包括:基於評論資訊的時間相關屬性而獲取的第一特徵,基於評論資訊中包含的與店鋪真實性相關的語義描述而確定的第二特徵。如此,基於包含第一特徵和第二特徵的特徵訓練分類模型,可以充分利用網際網路資料,訓練準確度較高的分類模型,從而提高店鋪分類的有效性。
根據另一態樣的實施例,還提供一種店鋪分類的方法。用於透過分類模型判斷店鋪當前是否為真實存在的店鋪。該方法適用於具有一定資料處理能力的電子設備,例如圖1中的伺服器。
如圖5所示,該店鋪分類的方法以實施例的流程包括:步驟51,獲取待分類店鋪的店鋪資訊,其中,店鋪資訊包括評論資訊;步驟52,基於店鋪資訊擷取待分類店鋪的特徵,其中,該特徵至少包括第一特徵和第二特徵,第一特徵至少基於評論資訊的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定;步驟53,將待分類店鋪的特徵輸入分類模型,以獲取分類模型的輸出結果;步驟54,根據輸出結果確定待分類店鋪當前是否為真實存在的店鋪。
首先,在步驟51中,獲取待分類店鋪的店鋪資訊。其中,店鋪資訊中至少包括有評論資訊,例如評論內容、評論時間、評論數量等等。店鋪資訊還可以包括但不限於以下至少一項:店鋪基本資訊、店鋪品牌名、網站或行政監管部門給定的店鋪標籤、店鋪分類等。可以透過網路爬蟲(如python)等從預定網站(例如××點評等)爬取店鋪資訊。
接著,透過步驟52,基於店鋪資訊擷取待分類店鋪的特徵。這裡的特徵和分類模型的輸入特徵相對應。其中,該特徵至少包括第一特徵和第二特徵,第一特徵至少基於評論資訊的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定。值得說明的是,“第一特徵”、“第二特徵”中的“第一”、“第二”僅用於區分兩個不同的特徵,而不表示順序限定。
其中,評論資訊的與時間相關屬性例如可以包括但不限於以下至少一項:評論發表時間、評論距當前時間的時長、預定時間段內的評論數等等。相應地,第一特徵可以包括但不限於以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。如此,可以充分利用店鋪樣本在網際網路的評論資訊的與時間相關屬性資料。
評論資訊中包含的與店鋪真實性相關的語義描述,可以是包含店鋪停業或者營業狀況良好的語義的描述。對於一個店鋪來說,極少量(如1條)包含表達店鋪永久停業的語義的評論就有可能表示這個店鋪已經永久停業。因此,可以透過評論資訊中是否具有店鋪永久停業語義描述的第二特徵,來為店鋪分類。第二特徵可以用文字表示,也可以用數值表示。
根據一個可能的設計,第二特徵可以透過以下方法擷取:獲取待分類店鋪的評論資訊;利用預先訓練的語義模型確定評論資訊中各條評論資料分別對應的語義標籤,其中,語義標籤包括具有停業語義或不具有停業語義;按照待分類店鋪對應的各個語義標籤確定待分類店鋪的第二特徵。
容易理解,一個待分類店鋪的評論資訊,可以對應一條或多條評論資料,每條評論資料可以包括一條評論的評論內容、評論時間,還可以包括例如發佈評論的使用者ID之類的資料。可以將各條評論資料分別輸入預先訓練的語義模型,根據語義模型的輸出確定每條評論資料的語義標籤。然後,根據這些語義標籤確定待分類店鋪的第二特徵。根據一種實施方式,針對評論資訊中的每一條評論資料,可以先透過無監督詞向量模型(如word2vec模型)將該評論資料中的各個詞分別表示成各個詞向量;基於各個詞向量,確定該評論資料對應的評論向量;將所確定的評論向量輸入語義模型,以獲取語義模型的輸出結果;按照輸出結果為該評論資料添加語義標籤。
在一個實施例中,在待分類店鋪對應的各個語義標籤中,任意一個語義標籤為具有停業語義的標籤的情況下,確定待分類店鋪的第二特徵為,包含店鋪為非真實存在店鋪的語義。在另一個實施例中,還可以設定一個個數閾值,當具有停業語義的標籤的評論資料條數超過該個數閾值時,才確定店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
如此,可以充分利用網際網路中店鋪樣本的評論資訊中與店鋪真實性相關的語義描述資料。
在一些可能的設計中,待分類店鋪的特徵除了第一特徵和第二特徵,還可以包括但不限於以下至少一項:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵等等。
步驟53,將待分類店鋪的特徵輸入分類模型,以獲取分類模型的輸出結果。其中,分類模型的輸出結果可以是數值、也可以是分類標籤。當分類模型的輸出結果是分類標籤時,分類標籤可以包括真實存在店鋪標籤和非真實存在店鋪標籤。
如圖4所示,從店鋪資訊41中擷取到的待分類店鋪的特徵輸入到輸入層42,其中,特徵包括了透過評論資訊411擷取的第一特徵421和第二特徵422。經過中間層44後,從輸出層43得到輸出結果。
步驟54,根據輸出結果確定待分類店鋪當前是否為真實存在的店鋪。當輸出結果是分類標籤時,直接按照分類標籤確定待分類店鋪是否為真實存在店鋪,具有真實存在店鋪標籤的待分類店鋪為真實存在店鋪,否則為非真實存在店鋪。當輸出結果是數值時,如果數值是二選一,例如只有1和0兩種情況,則根據相應數值對應到待分類店鋪是否為真實存在的店鋪的分類標籤。如果是多個可能是數值,例如0-1之間的任意數值時,可以根據數值偏向哪一端確定待分類店鋪是否為真實存在的店鋪的分類標籤。至於數值偏向哪一端,可以根據設定閾值確定,例如設定偏向1的閾值為0.6,則大於0.6的數值都是偏向1的數值,可以對應非真實存在的店鋪的分類標籤。
值得說明的是,由於圖5示出的方法實施例中,為店鋪分類的方法是透過圖2的實施例訓練的分類模型進行的,因此,圖2所示的實施例中,關於店鋪樣本的相關描述,也適應於圖5所示實施例中提到的對待分類店鋪的相應內容,在此不再贅述。
根據另一態樣的實施例,還提供一種分類模型的訓練裝置。圖6示出根據一個實施例的用於分類模型的訓練裝置的示意性方塊圖。如圖6所示,用於分類模型的訓練的裝置600包括:選擇單元61,配置為選擇預定數量的店鋪樣本,店鋪樣本對應有店鋪資訊和分類標籤,分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,店鋪資訊包括評論資訊;擷取單元62,配置為基於店鋪資訊擷取店鋪樣本的特徵,其中,上述特徵至少包括第一特徵和第二特徵,第一特徵至少基於評論資訊的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定;訓練單元63,配置為基於各個店鋪樣本的特徵和分類標籤訓練分類模型。
可以理解,店鋪樣本可以包括正樣本和負樣本,其中正樣本對應有真實存在店鋪標籤,負樣本對應有非真實存在店鋪標籤。進一步地,在一個實施例中,選擇單元61可以配置為:選擇預定期限內具有以下至少一項行為的店鋪作為正樣本:銷售代金券、團購活動、促銷活動、訂座服務、問答互動、廣告投放、接收顧客在用戶端的簽到。在另一個實施例中,選擇單元61還可以配置為:選擇滿足以下條件的店鋪作為負樣本:在電子地圖上被標註為永久停業。
根據一態樣的實施例,第一特徵可以包括以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。
根據另一態樣的實施例,擷取第二特徵時,擷取單元62還可以包括:評論資訊獲取模組,配置為獲取第一店鋪樣本的第一評論資訊;語義標籤確定模組,配置為利用預先訓練的語義模型確定第一評論資訊中各條評論資料分別對應的語義標籤,其中,語義標籤包括具有停業語義或不具有停業語義;第二特徵確定模組,配置為按照各個語義標籤確定第一店鋪樣本的第二特徵。值得說明的是,“第一特徵”、“第二特徵”中的“第一”、“第二”僅用於區分兩個不同的特徵,而不表示順序限定。
進一步地,第二特徵確定模組進一步還可以配置為:在第一店鋪樣本對應的各個語義標籤中包含具有停業語義的標籤的情況下,確定第一店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。這裡所稱的“第一店鋪樣本”、“第一評論資訊”中的“第一”,表示“某個”、“其中一個”、“任意一個”,以及店鋪樣本和評論資訊的對應關係,而不表示順序,或者對店鋪樣本之間的區分。
語義標籤確定模組進一步還可以配置為:針對第一評論資訊中的第一評論資料,透過無監督詞向量模型將第一評論資料中的各個詞分別表示成各個詞向量;基於各個詞向量,確定第一評論資料對應的第一評論向量;將第一評論向量輸入語義模型,以獲取語義模型的輸出結果;按照輸出結果為第一評論資料添加語義標籤。
在可能的實施方式中,上述特徵還可以包括但不限於以下至少一個特徵:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵。
根據一個可能的設計,店鋪樣本包括訓練樣本和測試樣本,以及,訓練單元63可以包括:訓練模組,配置為將各個訓練樣本的特徵作為輸入,根據所述分類模型的輸出結果與所述分類標籤的對比,調整分類模型的各個分類參數,以訓練分類模型;測試模組,配置為將各個測試樣本的特徵輸入透過所述訓練樣本訓練過的所述分類模型,用測試樣本對應的分類標籤檢測分類模型的各個輸出結果的準確性,以獲得對分類模型的檢測結果;調整模組,配置為在檢測結果不滿足預設條件的情況下,根據所述檢測結果調整分類模型。例如調整分類模型的網格結構、調換分類模型等等。其中,這裡的預設條件可以是對分類模型的評價參數條件。例如當分類模型是梯度提升決策樹GBDT模型時,模型評價參數可以包括曲離線面積AUC、精度、召回率、F1分數等等。
透過以上裝置,可以充分利用網際網路資料,訓練準確度較高的分類模型,從而提高店鋪分類的有效性。
值得說明的是,圖6所示的裝置600與圖2所示的方法相對應,因此,針對圖2中的相關描述同樣適用於裝置600,在此不再贅述。
根據再一態樣的實施例,還提供一種店鋪分類的裝置。圖7示出根據一個實施例的用於店鋪分類裝置的示意性方塊圖。如圖7所示,用於店鋪分類的裝置700包括:獲取單元71,配置為獲取待分類店鋪的店鋪資訊,其中,店鋪資訊包括評論資訊;擷取單元72,配置為基於店鋪資訊擷取待分類店鋪的特徵,其中,特徵至少包括第一特徵和第二特徵,第一特徵至少基於評論資訊的時間相關屬性而獲取,第二特徵基於評論資訊中包含的與店鋪真實性相關的語義描述而確定;分類單元73,配置為將待分類店鋪的特徵輸入所述模型,以獲取分類模型的輸出結果;確定單元74,配置為根據輸出結果確定待分類店鋪當前是否為真實存在的店鋪。
在一個可能的設計中,第一特徵可以包括以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。
根據一個實施方式,第二特徵可以透過以下方法擷取:獲取第一店鋪樣本的第一評論資訊;利用預先訓練的語義模型確定第一所述評論資訊中各條評論資料分別對應的語義標籤,其中,語義標籤包括具有停業語義或不具有停業語義;按照各個語義標籤確定第一店鋪樣本的第二特徵。進一步地,在一個實施例中,在第一店鋪樣本對應的各個語義標籤中包含具有停業語義的標籤的情況下,確定第一店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
在一個可能的實施例中,利用預先訓練的語義模型確定評論資訊中各條評論資料的語義標籤包括:針對第一評論資訊中的第一評論資料,透過無監督詞向量模型將第一評論資料中的各個詞分別表示成各個詞向量;基於各個詞向量,確定第一評論資料對應的第一評論向量;將第一評論向量輸入語義模型,以獲取所義模型的輸出結果;按照輸出結果為第一評論資料添加語義標籤。
在一個實施例中,上述特徵還可以包括以下至少一個特徵:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵。
透過以上裝置,可以充分利用網際網路資料,擷取有效的分類特徵,從而提高店鋪分類的有效性。
值得說明的是,圖7所示的裝置700與圖5所示的方法相對應,因此,針對圖5中的相關描述同樣適用於裝置700,在此不再贅述。
根據另一態樣的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2或圖5所描述的方法。
根據再一態樣的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行程式碼,所述處理器執行所述可執行程式碼時,實現結合圖2或圖5所述的方法。
本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或程式碼進行傳輸。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
41‧‧‧店鋪資訊
42‧‧‧輸入層
43‧‧‧輸出層
44‧‧‧中間層
61‧‧‧選擇單元
62‧‧‧擷取單元
63‧‧‧訓練單元
71‧‧‧獲取單元
72‧‧‧擷取單元
73‧‧‧分類單元
74‧‧‧確定單元
411‧‧‧評論資訊
421‧‧‧第一特徵
422‧‧‧第二特徵
600‧‧‧裝置
700‧‧‧裝置
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。
圖1示出本說明書披露的一個實施例的實施場景示意圖;
圖2示出根據一個實施例的分類模型的訓練方法的流程圖;
圖3示出第二特徵擷取的一個具體例子;
圖4示出模型訓練過程的一個具體例子;
圖5示出根據一個實施例的店鋪分類方法的流程圖;
圖6示出根據一個實施例的分類模型的訓練裝置的示意性方塊圖;
圖7示出根據一個實施例的店鋪分類裝置的示意性方塊圖。
41‧‧‧店鋪資訊
42‧‧‧輸入層
43‧‧‧輸出層
44‧‧‧中間層
411‧‧‧評論資訊
421‧‧‧第一特徵
422‧‧‧第二特徵
Claims (23)
- 一種分類模型的訓練方法,該分類模型用於判斷店鋪當前是否為真實存在的店鋪,該方法包括: 選擇預定數量的店鋪樣本,該店鋪樣本對應有店鋪資訊和分類標籤,該分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,該店鋪資訊包括評論資訊; 基於該店鋪資訊擷取該店鋪樣本的特徵,其中,該特徵至少包括第一特徵和第二特徵,該第一特徵至少基於該評論資訊的時間相關屬性而獲取,該第二特徵基於該評論資訊中包含的與店鋪真實性相關的語義描述而確定; 基於各個店鋪樣本的該特徵和該分類標籤訓練該分類模型。
- 根據申請專利範圍第1項所述的方法,其中,選擇預定數量的店鋪樣本包括: 選擇預定期限內具有以下至少一項行為的店鋪作為正樣本:銷售代金券、團購活動、促銷活動、訂座服務、問答互動、廣告投放、接收到顧客在用戶端的簽到,其中,該正樣本對應有真實存在店鋪標籤。
- 根據申請專利範圍第1項所述的方法,其中,選擇預定數量的店鋪樣本包括: 選擇滿足以下條件的店鋪作為負樣本:在電子地圖上被標註為永久停業,其中,該負樣本對應有非真實存在店鋪標籤。
- 根據申請專利範圍第1項所述的方法,其中,該第一特徵包括以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。
- 根據申請專利範圍第1項所述的方法,其中,該第二特徵透過以下方法擷取: 獲取與第一店鋪樣本相對應的第一評論資訊; 利用預先訓練的語義模型確定該第一評論資訊中各條評論資料分別對應的語義標籤,其中,該語義標籤包括具有停業語義或不具有停業語義; 按照各個語義標籤確定該第一店鋪樣本的第二特徵。
- 根據申請專利範圍第5項所述的方法,其中,該按照該各個語義標籤確定該第一店鋪樣本的第二特徵包括: 在各個語義標籤中包含具有停業語義的標籤的情況下,確定該第一店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
- 根據申請專利範圍第5項所述的方法,其中,該語義模型包括,透過標註的評論資料集訓練的監督模型。
- 根據申請專利範圍第5項所述的方法,其中,利用預先訓練的語義模型確定該第一評論資訊中各條評論資料分別對應的語義標籤包括: 針對該第一評論資訊中的第一評論資料,透過無監督詞向量模型將該第一評論資料中的各個詞分別表示成各個詞向量; 基於該各個詞向量,確定該第一評論資料對應的第一評論向量; 將該第一評論向量輸入該語義模型,以獲取該語義模型的輸出結果; 按照該輸出結果為該第一評論資料添加語義標籤。
- 根據申請專利範圍第1項所述的方法,其中,該特徵還包括以下至少一個特徵:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵。
- 根據申請專利範圍第1項所述的方法,其中,該店鋪樣本還包括測試樣本,以及 該方法還包括: 檢測該分類模型針對各個測試樣本的各個輸出結果的準確性,以根據各個輸出結果的準確性獲得對該分類模型的檢測結果; 根據該檢測結果調整該分類模型,直至該檢測結果滿足預設條件。
- 一種店鋪分類的方法,利用申請專利範圍第1至10項中任一項的方法訓練的分類模型判斷店鋪當前是否為真實存在的店鋪,該方法包括: 獲取待分類店鋪的店鋪資訊,其中,該店鋪資訊包括評論資訊; 基於該店鋪資訊擷取該待分類店鋪的特徵,其中,該特徵至少包括第一特徵和第二特徵,該第一特徵至少基於該評論資訊的時間相關屬性而獲取,該第二特徵基於該評論資訊中包含的與店鋪真實性相關的語義描述而確定; 將該待分類店鋪的該特徵輸入該分類模型,以獲取該分類模型的輸出結果; 根據該輸出結果確定該待分類店鋪當前是否為真實存在的店鋪。
- 一種分類模型的訓練裝置,該分類模型用於判斷店鋪當前是否為真實存在的店鋪,該裝置包括: 選擇單元,配置為選擇預定數量的店鋪樣本,該店鋪樣本對應有店鋪資訊和分類標籤,該分類標籤包括真實存在店鋪標籤和非真實存在店鋪標籤,該店鋪資訊包括評論資訊; 擷取單元,配置為基於該店鋪資訊擷取該店鋪樣本的特徵,其中,該特徵至少包括第一特徵和第二特徵,該第一特徵至少基於該評論資訊的時間相關屬性而獲取,該第二特徵基於該評論資訊中包含的與店鋪真實性相關的語義描述而確定; 訓練單元,配置為基於各個店鋪樣本的該特徵和該分類標籤訓練該分類模型。
- 根據申請專利範圍第12項所述的裝置,其中,該選擇單元配置為: 選擇預定期限內具有以下至少一項行為的店鋪作為正樣本:銷售代金券、團購活動、促銷活動、訂座服務、問答互動、廣告投放、接收到顧客在用戶端的簽到,其中,該正樣本對應有真實存在店鋪標籤。
- 根據申請專利範圍第12項所述的裝置,其中,該選擇單元還配置為: 選擇滿足以下條件的店鋪作為負樣本:在電子地圖上被標註為永久停業,其中,該負樣本對應有非真實存在店鋪標籤。
- 根據申請專利範圍第12項所述的裝置,其中,該第一特徵包括以下中的一項或多項:最新評論的時間、最新評論距離當前時間的時長、預定時間段內的評論數增量。
- 根據申請專利範圍第12項所述的裝置,其中,擷取該第二特徵時,該擷取單元還包括: 評論資訊獲取模組,配置為獲取與第一店鋪樣本對應的第一評論資訊; 語義標籤確定模組,配置為利用預先訓練的語義模型確定該第一評論資訊中各條評論資料分別對應的語義標籤,其中,該語義標籤包括具有停業語義或不具有停業語義; 第二特徵確定模組,配置為按照各個語義標籤確定該第一店鋪樣本的第二特徵。
- 根據申請專利範圍第16項所述的裝置,其中,該第二特徵確定模組進一步配置為: 在各個語義標籤中包含具有停業語義的標籤的情況下,確定該第一店鋪樣本的第二特徵為,包含店鋪為非真實存在店鋪的語義。
- 根據申請專利範圍第16項所述的裝置,其中,該語義標籤確定模組進一步配置為: 針對該第一評論資訊中的第一評論資料,透過無監督詞向量模型將該第一評論資料中的各個詞分別表示成各個詞向量; 基於該各個詞向量,確定該第一評論資料對應的第一評論向量; 將該第一評論向量輸入該語義模型,以獲取該語義模型的輸出結果; 按照該輸出結果為該第一評論資料添加語義標籤。
- 根據申請專利範圍第12項所述的裝置,其中,該特徵還包括以下至少一個特徵:評論數量特徵、基本資訊完備度特徵、預定標識特徵、店鋪經營類別特徵、消費者評分特徵。
- 根據申請專利範圍第12項所述的裝置,其中,該店鋪樣本還包括測試樣本,以及 該裝置還包括: 測試模組,配置為檢測該分類模型針對各個測試樣本的各個輸出結果的準確性,以根據各個輸出結果的準確性獲得對該分類模型的檢測結果; 調整模組,配置為在該檢測結果不滿足預設條件的情況下,根據該檢測結果調整該分類模型。
- 一種店鋪分類的裝置,利用申請專利範圍第12至20項中任一項的訓練裝置訓練的分類模型,判斷店鋪當前是否為真實存在的店鋪,該裝置包括: 獲取單元,配置為獲取待分類店鋪的店鋪資訊,其中,該店鋪資訊包括評論資訊; 擷取單元,配置為基於該店鋪資訊擷取該待分類店鋪的特徵,其中,該特徵至少包括第一特徵和第二特徵,該第一特徵至少基於該評論資訊的時間相關屬性而獲取,該第二特徵基於該評論資訊中包含的與店鋪真實性相關的語義描述而確定; 分類單元,配置為將該待分類店鋪的該特徵輸入該分類模型,以獲取該分類模型的輸出結果; 確定單元,配置為根據該輸出結果確定該待分類店鋪當前是否為真實存在的店鋪。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,當該電腦程式在電腦中執行時,令電腦執行申請專利範圍第1至10項中任一項所述的方法,或者申請專利範圍第11項所述的方法。
- 一種計算設備,包括記憶體和處理器,其特徵在於,該記憶體中儲存有可執行程式碼,該處理器執行該可執行程式碼時,實現申請專利範圍第1至10項中任一項所述的方法,或者申請專利範圍第11項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810662702.4A CN108985347A (zh) | 2018-06-25 | 2018-06-25 | 分类模型的训练方法、店铺分类的方法及装置 |
CN201810662702.4 | 2018-06-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202001736A true TW202001736A (zh) | 2020-01-01 |
Family
ID=64538738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108107393A TW202001736A (zh) | 2018-06-25 | 2019-03-06 | 分類模型的訓練方法、店鋪分類的方法及裝置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108985347A (zh) |
TW (1) | TW202001736A (zh) |
WO (1) | WO2020001106A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985347A (zh) * | 2018-06-25 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
CN109685555A (zh) * | 2018-12-13 | 2019-04-26 | 拉扎斯网络科技(上海)有限公司 | 商户筛选方法、装置、电子设备及存储介质 |
CN109697637B (zh) * | 2018-12-27 | 2022-08-26 | 拉扎斯网络科技(上海)有限公司 | 对象类别确定方法、装置、电子设备及计算机存储介质 |
CN109840831A (zh) * | 2019-01-29 | 2019-06-04 | 浙江口碑网络技术有限公司 | 页面呈现方法及装置 |
CN109993545A (zh) * | 2019-02-01 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 实体店的验真方法和装置 |
CN110334306A (zh) * | 2019-06-21 | 2019-10-15 | 无线生活(北京)信息技术有限公司 | 标签处理方法及装置 |
CN111008331B (zh) * | 2019-11-29 | 2023-09-15 | 拉扎斯网络科技(上海)有限公司 | 门店端的展示方法、装置、电子设备及存储介质 |
CN111368761B (zh) * | 2020-03-09 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 店铺营业状态识别方法、装置、可读存储介质和设备 |
CN111625721B (zh) * | 2020-05-26 | 2023-12-22 | 汉海信息技术(上海)有限公司 | 内容推荐方法及装置 |
CN114339859B (zh) * | 2020-09-27 | 2023-08-15 | 中国移动通信集团广东有限公司 | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
CN112328899B (zh) * | 2020-11-27 | 2024-04-16 | 京东科技控股股份有限公司 | 信息处理方法、信息处理装置、存储介质与电子设备 |
CN112561530A (zh) * | 2020-12-25 | 2021-03-26 | 民生科技有限责任公司 | 一种基于多模型融合的交易流水处理方法及系统 |
CN113449169B (zh) * | 2021-09-01 | 2021-12-14 | 广州越创智数信息科技有限公司 | 一种基于rpa的舆情数据获取方法及系统 |
CN115131068B (zh) * | 2022-07-08 | 2023-12-26 | 连连(杭州)信息技术有限公司 | 一种店铺分类方法、装置和计算机存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140108111A1 (en) * | 2012-10-12 | 2014-04-17 | Redpixtec. Gmbh | Mobile advertising system |
CN104866542B (zh) * | 2015-05-05 | 2018-07-06 | 腾讯科技(深圳)有限公司 | 一种poi数据验证方法和装置 |
CN105095387A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 基于用户评论信息的poi数据采集方法及装置 |
CN105808679A (zh) * | 2016-03-02 | 2016-07-27 | 陈健强 | 一种基于电子地图的店家营业状态标记实现方法及系统 |
CN107092641A (zh) * | 2017-02-27 | 2017-08-25 | 口碑控股有限公司 | 店铺营业状态的判断方法和装置、店铺搜索的方法和装置 |
CN108197177B (zh) * | 2017-12-21 | 2019-12-17 | 北京三快在线科技有限公司 | 业务对象的监测方法、装置、存储介质和计算机设备 |
CN108985347A (zh) * | 2018-06-25 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 分类模型的训练方法、店铺分类的方法及装置 |
-
2018
- 2018-06-25 CN CN201810662702.4A patent/CN108985347A/zh active Pending
-
2019
- 2019-03-06 TW TW108107393A patent/TW202001736A/zh unknown
- 2019-03-28 WO PCT/CN2019/080022 patent/WO2020001106A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020001106A1 (zh) | 2020-01-02 |
CN108985347A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202001736A (zh) | 分類模型的訓練方法、店鋪分類的方法及裝置 | |
US10255550B1 (en) | Machine learning using multiple input data types | |
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
Shmueli et al. | Data mining for business analytics: concepts, techniques and applications in Python | |
US8818788B1 (en) | System, method and computer program product for identifying words within collection of text applicable to specific sentiment | |
US20180357703A1 (en) | Recommendations Based Upon Explicit User Similarity | |
CN110135901A (zh) | 一种企业用户画像构建方法、系统、介质和电子设备 | |
WO2017190610A1 (zh) | 目标用户定向方法、装置和计算机存储介质 | |
CN112269805B (zh) | 数据处理方法、装置、设备及介质 | |
US9990639B1 (en) | Automatic detection of fraudulent real estate listings | |
CN108416614A (zh) | 虚拟物品的发送方法、装置、电子设备及存储介质 | |
US20150199746A1 (en) | Recommendation machine | |
CN109118316B (zh) | 线上店铺真实性的识别方法和装置 | |
CN109816134B (zh) | 收货地址预测方法、装置以及存储介质 | |
US11270213B2 (en) | Systems and methods for extracting specific data from documents using machine learning | |
CN107633416B (zh) | 一种业务对象的推荐方法、装置和系统 | |
US10290032B2 (en) | Blacklisting based on image feature analysis and collaborative filtering | |
CN110647683B (zh) | 一种信息推荐方法、装置 | |
JP2016526712A (ja) | デジタルレシート経済 | |
CA3202216A1 (en) | Systems and methods for relevance-based document analysis and filtering | |
KR101784559B1 (ko) | 사용자의 소비 패턴/관심사 분석 방법 및 장치 | |
CN115210742A (zh) | 用于防止暴露于违反内容政策的内容的系统和方法 | |
US11487835B2 (en) | Information processing system, information processing method, and program | |
JP6899805B2 (ja) | 特性推定装置、特性推定方法、及び特性推定プログラム等 | |
de Lima et al. | Temporal dynamics of requirements engineering from mobile app reviews |