TW202242755A - 偵測社群媒體廣告文章的方法與其系統 - Google Patents

偵測社群媒體廣告文章的方法與其系統 Download PDF

Info

Publication number
TW202242755A
TW202242755A TW110114451A TW110114451A TW202242755A TW 202242755 A TW202242755 A TW 202242755A TW 110114451 A TW110114451 A TW 110114451A TW 110114451 A TW110114451 A TW 110114451A TW 202242755 A TW202242755 A TW 202242755A
Authority
TW
Taiwan
Prior art keywords
texts
generate
social media
text
messages
Prior art date
Application number
TW110114451A
Other languages
English (en)
Inventor
蔡協哲
林華蒼
陳詳翰
金志丞
金志聿
Original Assignee
大數據股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大數據股份有限公司 filed Critical 大數據股份有限公司
Priority to TW110114451A priority Critical patent/TW202242755A/zh
Publication of TW202242755A publication Critical patent/TW202242755A/zh

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一種偵測社群媒體廣告文章的方法。此方法包括以下步驟:在一社群媒體中擷取一社群貼文與其複數留言;去除這些留言內之人名、網址、貼圖與圖片,以產生複數文本;在這些文本中選取一預設比例之文本進行相似度比對,以產生一相似留言比例值;分析這些文本中屬於空文本的數量,以產生一空白留言比例值;以及依據相似留言比例值與空白留言比例值,判斷社群貼文是否為廣告文。本案並提供一種偵測社群媒體廣告文章之系統。

Description

偵測社群媒體廣告文章的方法與其系統
本案係關於一種偵測社群媒體廣告文章的方法與其系統。
隨著社群媒體日益普及與互聯網的便利性,越來越多的企業開始透過社群媒體進行廣告投放等行銷行為,改變了傳統的行銷方式。
隨著社群媒體行銷的發展,廣告的手法也日新月異。目前有些社群媒體上的廣告手法會先以廣告文章作為社群貼文,再引誘社群媒體使用者留言產生大量留言,以達到吸引人流之廣告效果。
不過,此種行銷方式容易引發社群媒體使用者的反感,對於社群媒體提供者或管理者而言並不樂見此現象。此外,這種廣告文章不具有一定格式,難以透過情緒分析、內文分析等機器學習方式探查出來。
依據本案之一實施例,本案提供一種偵測社群媒體廣告文章的方法。此方法包括以下步驟:在一社群媒體中擷取一社群貼文與其複數留言;去除這些留言內之人名、網址、貼圖與圖片,以產生複數文本;在這些文本中選取一預設比例之文本進行相似度比對,以產生一相似留言比例值;分析這些文本中屬於空文本的數量,以產生一空白留言比例值;以及依據相似留言比例值與空白留言比例值,判斷社群貼文是否為廣告文。
依據本案之一實施例,本案提供一種偵測社群媒體廣告文章之系統。此偵測社群媒體廣告文章之系統,包括一文本擷取單元、一文本處理單元、一相似度比對單元、一空文本分析單元與一廣告文判斷單元。文本擷取單元係在一社群媒體中擷取一社群貼文與其複數留言。文本處理單元係接收這些留言,並去除這些留言內之人名、網址、貼圖與圖片,以產生複數文本。相似度比對單元係對這些文本進行多次取樣與相似度比對以產生一相似留言比例值。空文本分析單元係分析這些文本中屬於空文本的數量以產生一空白留言比例值。廣告文判斷單元係依據相似留言比例值與空白留言比例值,判斷該社群貼文是否為廣告文。
本案所提供的方法與系統,可以有效偵測社群媒體中的廣告文章,以利於社群媒體提供者或管理人採取適當的動作維持社群媒體的秩序。
下面將結合示意圖對本案的具體實施方式進行更詳細的描述。根據下列描述和申請專利範圍,本案的優點和特徵將更清楚。需說明的是,圖式均採用非常簡化的形式且均使用非精準的比例,僅用以方便、明晰地輔助說明本案實施例的目的。
第一圖係本案偵測社群媒體廣告文章之方法一實施例之流程圖。
如第一圖所述,本案所提供之偵測社群媒體廣告文章的方法包括以下步驟。
首先,如步驟S110所述,在一社群媒體中擷取一社群貼文與其複數留言。一實施例中,此步驟110可透過網路爬蟲(web crawler)或是其他網路資料蒐集方式執行。
第二圖係以流程圖顯示步驟S110之一實施例。如圖中所示,首先,如步驟S112所述,掃描一社群媒體之複數社群貼文。隨後,如步驟S114所述,在這些社群貼文中,擷取留言數超過一預設數之社群貼文與其複數留言,以避免留言數量過少而導致判斷失準的情形發生。
在擷取社群貼文及其複數留言後,如步驟S120所述,去除這些留言內之人名、網址、貼圖(stickers)與圖片(pictures),以產生複數文本。一實施例中,此步驟並可將這些留言中的表情圖示(emoji)去除。
舉例來說,「Joanna CAROME.×CSD一起美麗防疫」之留言經過步驟S120處理後會產生「CAROME.×CSD一起美麗防疫」的文本,留言中的人名「Joanna」會被去除。
接下來,如步驟S130所述,對經過步驟S120處理後的文本進行多次取樣與相似度比對,以產生一相似留言比例值。一實施例中,此步驟130係以隨機方式進行取樣,並針對取樣後的文本進行相似度比對。每次取樣會選取二不同文本進行相似度比對。一實施例中,取樣次數是依據留言總數比例計算。舉例來說,取樣的次數可以是留言總數的1/2,以100篇留言為例則是執行50次取樣與相似度比對。
請一併參照第三圖所示,第三圖係以流程圖顯示步驟S130之一實施例。
首先,如步驟S132所述,針對所有文本執行一預處理編碼以產生多個數字串。一實施例中,步驟S132係以SimHash演算法將文本降維編碼為二維數字串以利於進行相似度比對。一般而言,此二維數字串會再轉換為10進制數值以利於儲存。舉例來說,「KO柑笑 CAROME.×CSD一起美麗防疫」的文本經過SimHash演算法編碼後會產生10進制數值「12261391957462610352」。
接下來,如步驟S134所述,對這些文本進行多次隨機取樣,並比對取樣之文本所對應數字串以判斷是否相似。一實施例中,若是二取樣文本之對應數字串的差異值小於一差異閾值,即判斷此二取樣文本所對應的留言相似。一實施例中,前述差異值之可利用漢明距離(Hamming Distance)的比對計算出來。
舉例來說,若是原始的留言為「 Joanna CAROME.×CSD一起美麗防疫」與「洪雅雅 李孟真 CAROME.×CSD一起美麗防疫」。此二留言經過步驟S120之處理後都會產生「CAROME.×CSD一起美麗防疫」的文本。此二文本進行SimHash編碼比對產生的差異值為0,此差異值小於差異閾值,判斷為相似文。一實施例中,步驟S132所產生之數字串為64位數,此差異閾值係設定為10。一般而言,二文本的差異字數在5字內,其SimHash編碼比對產生的差異值會小於10。
執行多次相似度比對後,如步驟S136所述,計算判斷為相似文本的取樣次數與進行相似度比對的全部取樣次數之比例,即可產生一相似留言比例值。由於本案是透過隨機取樣的方式進行相似度比對,可推定這些留言整體而言具有此相似留言比例值。
前述透過SimHash編碼進行相似度比對的方法是將原始的文本內容映射為二進制數字串,再透過比較二進制數字串的差異來表示原始文本內容的差異。不過本案亦不限於此,其他可對文本去重的自然語言處理(NLP)技術亦可適用於本案以進行相似度判斷。
請再回到第一圖,針對步驟S120所產生的文本,除了執行步驟S130之相似度分析,如步驟S140所述,本實施例會一併計算這些文本中屬於空文本的數量,以產生一空白留言比例值。
舉例來說,若是留言內只具有人名與貼圖、或是人名與網址等,經過步驟S120之處理後就會產生一空文本,也就是文本中不具有任何內容。本實施例會計算所有文本中屬於空文本的數量,並將空文本的數量除以所有文本的數量,即可產生空白留言比例值。此步驟計算所有文本中屬於空文本的數量,也就是計算社群貼文下的所有留言中,僅含有標記(tag)好友的留言數量。
接下來,如步驟S150所述,綜合前述步驟S130與S140之計算結果,依據相似留言比例值與空白留言比例值,判斷社群貼文是否為廣告文。一實施例中,步驟S150可以在相似留言比例值大於一第一閾值時或是空白留言比例值大於一第二閾值時,判斷社群貼文為廣告文。一實施例中,前述第一閾值可大於50%,表示所有留言中超過半數為相似留言。一實施例中,前述第二閾值可大於50%,表示所有留言中超過半數為不具有實質內容的空留言。又,若要進一步降低誤判發生的機率,可將第一閾值與第二閾值均提高到70%,在所有留言中大部分都是相似留言或是空留言時,才判定為廣告文。
一實施例中,前述各步驟之操作可利用軟體或演算法予以實現。
第四圖係本案偵測社群媒體廣告文章之方法另一實施例之流程圖。
本實施例與第一圖之實施例的主要差異在於,本實施例在步驟150判斷社群貼文非為廣告文後,進一步執行步驟S262,對這些文本進行一總體差異度分析,以產生一總體差異值。然後,如步驟S264所述,再依據此總體差異值判斷社群貼文是否為廣告文。
一實施例中,步驟S262係透過SimHash演算法比較任二文本的相似度以產生一差異值,並對這些差異值取其平均以產生總體差異值。一實施例中,步驟S262可透過SimHash演算法對所有文本進行編碼以產生對應的數字串,並透過比較任二文本之對應數字串以產生差異值。一實施例中,此差異值可利用漢明距離(Hamming Distance)的比對計算出來。
一實施例中,步驟S264係將此總體差異值與一總體差異閾值進行比較,若是總體差異值大於總體差異閾值,即判斷社群貼文為廣告文。此總體差異閾值會大於步驟S134中,判斷二文本相似與否所設定的差異閾值。舉例來說,此總體差異閾值可設定為20。如此,若是在所有文本中任二文本進行SimHash編碼比對產生之差異值之加總除以取樣次數所得到的平均值小於20,即判斷社群貼文為廣告文。
總體差異度分析可避免相似留言數量多但有加減少許字詞、存在少數正常發言的留言、以及取樣失準的情況。在這些情況下,依據步驟S130產生之相似留言比例值所進行的判斷可能認定社群貼文非為廣告文而產生誤判。
第五圖係本案社群媒體廣告文章偵測系統一實施例之方塊示意圖。
如圖中所示,此社群媒體廣告文章偵測系統100包括一文本擷取單元110、一文本處理單元120、一相似度比對單元130、一空文本分析單元140與一廣告文判斷單元150。
文本擷取單元110係用以在一社群媒體20中擷取一社群貼文T1與其複數留言R1, R2, R3。一實施例中,文本擷取單元110可利用一爬蟲在社群媒體20中擷取社群貼文及其複數留言。
文本處理單元120係接收由文本擷取單元110擷取之複數留言R1, R2, R3,並去除這些留言內之人名、網址、貼圖與圖片,以產生複數文本D1, D2, D3。
相似度比對單元130係針對文本處理單元120產生之複數文本D1, D2, D3進行多次取樣與相似度比對,以產生一相似留言比例值Vs(即對應於第一圖中步驟S130之操作)。
空文本分析單元140係分析文本處理單元120之複數文本D1, D2, D3中屬於空文本的數量,以產生一空白留言比例值Ve(即對應於第一圖中步驟S140之操作)。
廣告文判斷單元150係依據相似度比對單元130產生之相似留言比例值Vs與空文本分析單元140產生之空白留言比例值Ve,判斷社群貼文T1是否為廣告文(即對應於第一圖中步驟S150之操作)。
一實施例中,前述文本擷取單元110、文本處理單元120、相似度比對單元130、空文本分析單元140、廣告文判斷單元150可利用軟體或演算法予以實現。
一實施例中,此社群媒體廣告文章偵測系統10更包括一預處理單元160。此預處理單元160係接收來自文本處理單元120之文本D1, D2, D3將這些文本編碼為數字串以利於後續處理。一實施例中,此預處理單元160可利用SimHash演算法對於文本D1, D2, D3進行編碼以產生對應的數字串。相似度比對單元130則是透過計算這些數字串的差異值判斷取樣文本是否相似。一實施例中,相似度比對單元130並可針對所有文本處理單元120產生的文本D1, D2, D3進行總體差異分析以產生一總體差異值Vd。廣告文判斷單元150則可依據此總體差異值Vd判斷社群貼文T1是否為廣告文(對應於第四圖中步驟S262與步驟S264之操作)。
本案所提供的方法與系統,可以有效偵測社群媒體中的廣告文章,以利於社群媒體提供者或管理人採取適當的動作維持社群媒體的秩序。此外,對於企業主而言,亦可利用本案所提供的方法,準確評估網路行銷的廣告成效,避免大量行銷業者自行產出的留言影響其判斷。
上述僅為本案較佳之實施例而已,並不對本案進行任何限制。本發明可以任何合適形式實施,包含硬體、軟體、韌體或此等硬體、軟體、韌體之任何組合。任何所屬技術領域的技術人員,在不脫離本案的技術手段的範圍內,對本案揭露的技術手段和技術內容做任何形式的等同替換或修改等變動,均屬未脫離本案的技術手段的內容,仍屬於本案的保護範圍之內。
100:社群媒體廣告文章偵測系統 110:文本擷取單元 120:文本處理單元 130:相似度比對單元 140:空文本分析單元 150:廣告文判斷單元 160:預處理單元 20:社群媒體 T1:社群貼文 R1, R2, R3:留言 D1, D2, D3:文本 Vs:相似留言比例值 Ve:空白留言比例值 Vd:總體差異值
第一圖係本案偵測社群媒體廣告文章的方法一實施例之流程圖;以及 第二圖係以流程圖顯示步驟S110之一實施例; 第三圖係以流程圖顯示步驟S130之一實施例; 第四圖係本案偵測社群媒體廣告文章之方法另一實施例之流程圖;以及 第五圖係本案社群媒體廣告文章偵測系統一實施例之方塊示意圖。

Claims (12)

  1. 一種偵測社群媒體廣告文章的方法,包括: 在一社群媒體中擷取一社群貼文與其複數留言; 去除該些留言內之人名、網址、貼圖與圖片,以產生複數文本; 對該些文本進行多次取樣與相似度比對以產生一相似留言比例值; 分析該些文本中屬於空文本的數量以產生一空白留言比例值;以及 依據該相似留言比例值與該空白留言比例值,判斷該社群貼文是否為廣告文。
  2. 如請求項1所述之方法,其中,對該些文本進行多次取樣與相似度比對以產生一相似留言比例值之步驟包括: 對該些文本進行SIMHASH演算法編碼以產生複數數字串; 對該些文本進行多次取樣,並比對取樣之該些文本所對應之該數字串以判斷是否相似;以及 計算判斷為相似的取樣次數與全部取樣次數之比例,以產生該相似留言比例值。
  3. 如請求項1所述之方法,其中,對該些文本進行多次取樣與相似度比對之步驟係以隨機方式進行取樣。
  4. 如請求項1所述之方法,其中,若依據該相似留言比例值與該空白留言比例值判斷該社群貼文非為廣告文,更包括對該些文本進行一總體差異度分析,以產生一總體差異值,且依據該總體差異值判斷該社群貼文是否為廣告文。
  5. 如請求項4所述之方法,其中,該總體差異度分析係透過SIMHASH演算法分析任二該文本之相似度以產生一差異值,並對該些差異值取平均以產生該總體差異值。
  6. 如請求項1所述之方法,其中,在一社群媒體中擷取一社群貼文與其複數留言之步驟包括: 掃描一社群媒體之複數社群貼文;以及 在該些社群貼文中,擷取留言數超過一預設數之該社群貼文與其複數留言。
  7. 一種偵測社群媒體廣告文章之系統,包括: 一文本擷取單元,在一社群媒體中擷取一社群貼文與其複數留言; 一文本處理單元,接收該些留言,並去除該些留言內之人名、網址、貼圖與圖片,以產生複數文本; 一相似度比對單元,對該些文本進行多次取樣與相似度比對以產生一相似留言比例值; 一空文本分析單元,分析該些文本中屬於空文本的數量以產生一空白留言比例值;以及 一廣告文判斷單元,依據該相似留言比例值與該空白留言比例值,判斷該社群貼文是否為廣告文。
  8. 如請求項7所述之系統,更包括一預處理單元,接收來自該文本處理單元之該些文本,並對該些文本進行編碼以產生複數數字串,其中,該相似度比對單元係依據該些數字串進行相似度比對以產生該相似留言比例值。
  9. 如請求項7所述之系統,其中,該相似度比對單元係以隨機方式對該些文本進行取樣。
  10. 如請求項7所述之系統,其中,該相似度比對單元並對該些文本進行一總體差異度分析,以產生一總體差異值,該廣告文判斷單元係於依據該相似留言比例值與該空白留言比例值判斷該社群貼文非為廣告文時,依據該總體差異值判斷該社群貼文是否為廣告文。
  11. 如請求項10所述之方法,其中,該總體差異度分析係透過SIMHASH演算法分析任二該文本之相似度以產生一差異值,並對該些差異值取平均以產生該總體差異值。
  12. 如請求項7所述之系統,其中,該文本擷取單元係在該社群媒體中擷取留言數超過一預設數之該社群貼文與該社群貼文之該些留言。
TW110114451A 2021-04-22 2021-04-22 偵測社群媒體廣告文章的方法與其系統 TW202242755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110114451A TW202242755A (zh) 2021-04-22 2021-04-22 偵測社群媒體廣告文章的方法與其系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110114451A TW202242755A (zh) 2021-04-22 2021-04-22 偵測社群媒體廣告文章的方法與其系統

Publications (1)

Publication Number Publication Date
TW202242755A true TW202242755A (zh) 2022-11-01

Family

ID=85793312

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110114451A TW202242755A (zh) 2021-04-22 2021-04-22 偵測社群媒體廣告文章的方法與其系統

Country Status (1)

Country Link
TW (1) TW202242755A (zh)

Similar Documents

Publication Publication Date Title
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
US20200342314A1 (en) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN108228915B (zh) 一种基于深度学习的视频检索方法
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN110019812B (zh) 一种用户自生产内容检测方法和系统
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN113055386B (zh) 一种攻击组织的识别分析方法和装置
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN112487422B (zh) 一种恶意文档检测方法、装置、电子设备及存储介质
CN106529492A (zh) 面向网络查询基于多图融合视频主题分类与描述方法
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
US20160283582A1 (en) Device and method for detecting similar text, and application
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN111047428B (zh) 基于少量欺诈样本的银行高风险欺诈客户识别方法
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
CN114022923A (zh) 智能采编系统
CN117611335A (zh) 金融风险识别方法、装置、电子设备和存储介质
JP2017091376A (ja) 広告システム及び広告配信方法
CN112966103A (zh) 一种基于多任务学习的混合注意力机制文本标题匹配方法
CN111859925A (zh) 一种基于概率情感词典的情感分析系统及方法
CN111601314A (zh) 预训练模型加短信地址双重判定不良短信的方法和装置
TW202242755A (zh) 偵測社群媒體廣告文章的方法與其系統
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统
Srinivas et al. Forged File Detection and Steganographic content Identification (FFDASCI) using Deep Learning Techniques.
Singgalen Toxicity Analysis and Sentiment Classification of Wonderland Indonesia by Alffy Rev using Support Vector Machine