TW201409261A

TW201409261A - 發掘可疑帳號之分身群組的方法與系統

Info

Publication number: TW201409261A
Application number: TW101130272A
Authority: TW
Inventors: Min-Hsin Shen; Ching-Hsien Li; Chung-Jen Chiu
Original assignee: Ind Tech Res Inst
Priority date: 2012-08-21
Filing date: 2012-08-21
Publication date: 2014-03-01
Also published as: US20140058723A1; TWI465950B; CN103631834A; CN103631834B; US9684649B2

Abstract

在一實施例中，一種發掘可疑帳號之分身群組的方法根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格，並且比較此第一組帳號的多個語言模型的相似度，以將此第一組帳號分群；以及針對在一第二時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將此多重變異詞彙更新至一第二組帳號的多個語言模型，進而彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群。

Description

發掘可疑帳號之分身群組的方法與系統

本揭露係關於一種發掘可疑帳號之分身群組(account group)的方法與系統。

社群網路(social network)的普及引發了許多網路犯罪(network crime)的行為，例如在網路上利用多重分身(multiple accounts)來散佈色情(pornography)訊息或是進行網路詐欺(network deception)等行為。網民為了規避追緝，會更改帳號及上網發文、或是逐漸改變所使用的關鍵詞用語。這些網路犯罪的行為會在各式的社群網路上留下蛛絲馬跡(traces)。

現有的追緝技術，例如警用網路偵搜系統，在進行案件的通聯分析前，先釐清帳號分身群組的特性；在犯罪資訊的系統領域(system domain)裡，根據兩個詞之詞彙特徵的同義詞(common synonym)來辨識帳號之間的互動關連。例如，可擷取兩個詞之間最長的共同子字串，來計算此子字串的長度與此兩詞中較長詞的長度的比例，以確認比例是否大於一第一門檻值。再計算此兩詞的編輯距離(edit-distance)是否大於一第二門檻值。當上述兩條件成立時，確定此兩詞屬於同義詞。

第一圖所示是一種決定語句的主題(theme)的內文處理系統，主要包含一主題向量處理器(theme vector processor)110來決定輸入語句112的主題。其技術是先分析輸入語句112中每一詞彙的詞性，再利用知識庫(Ontology)分析此語句，包括找出每一詞彙的語意以組成語意主題向量、以及比對此語句的語意主題向量和訓練語料120中的語意主題向量，來決定此語句的主題及類別。

有一種監聽與分析犯罪相關資訊的技術是利用事件識別碼(event identifier)或詞彙搜尋(word search)的方法來標記警方關注的犯罪相關資訊區段，以提醒調查員監聽此區段的原始語音資料。此事件識別碼例如是警方關注事件的書簽(bookmark)，包含此關注事件的關鍵詞彙或是特定人物的語音資料等。

有一種將資料集合(dataset)結構化的技術是根據使用者提供的個人資料來分群，再利用一連串事先定義的問題題庫，找出疑似包含詐欺行為之通聯紀錄的群組。其中，作為分群依據之使用者的結構化的屬性資料可包括如姓名、電話號碼、或地址等。有一種網路犯罪偵防技術是利用使用者上網時，其上網裝置的來源辨識碼，同步在犯罪偵防網站中與使用者上網裝置的電話號碼及授權碼進行比對，以確認使用者的真實身份。

有一種尋找犯罪者之多重身分的技術是利用個人的基本特徵資料如姓名、性別、身高、體重等，來比對多重分身，再根據個人在犯罪資料庫中的角色和之間的連結關係，來比對犯罪者的多重分身。有一種偵測犯罪群體的技術是從文件中透過人名辨識及關連法則分析，找出頻繁且共同出現的人名群(共犯)。

揭示尋找或偵測多重身分的技術還有針對著作者身分的辨識(authorship identification)、線上書寫辨識(online Writeprint identification)、著作者身分屬性的辨識(authorship attribution identification)等文獻。其中，有一種針對著作者身分的辨識技術是利用個人書寫文字中的Ngram特徵來比對多重分身；有一種針對著作者身分屬性的辨識技術是透過可變長度的Ngram特徵來比對多重分身。有一種針對著作者身分屬性的辨識技術是透過以局部的統計圖(local histogram)調整N-gram特徵權重來比對多重分身。

在時下以及未來的網路上，一個良好的可疑的帳號群組的發掘技術須具有變異詞擴充的語言模型調適功能，來分析帳號發文內容的語言風格的相似程度，進而找出語言風格同質性高的可疑帳號分身群組。並且，找出帳號分身之後，此技術也能結合通聯分析技術，檢視帳號之間的互動關連。此類可疑的帳號群組的發掘技術是一個待被深入探索的議題。

本揭露實施例可提供一種發掘可疑帳號之分身群組的方法與系統。

所揭露的一實施例是關於一種發掘可疑帳號之分身群組的方法。此方法包含：在至少一硬體處理器的控制下，根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型(language model)來描述此帳號的語言風格，並且比較此第一組帳號的多個語言模型的相似度，以將此第一組帳號分群；以及針對在一第二時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將此多重變異詞彙更新至一第二組帳號的多個語言模型，進而彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群。

所揭露的另一實施例是關於一種發掘可疑帳號之分身群組的系統。此系統包含：一語言模型訓練裝置(language model training device)、一帳號分群裝置(account clustering device)、一變異詞辨識器(changed word identification device)、以及一漸進式帳號分群裝置(incremental account clustering device)。此語言模型訓練裝置根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格。此帳號分群裝置根據此第一組帳號所屬的一第一組語言模型的相似度，將此第一組帳號分群。此變異詞辨識器針對在一第二時間區間內，新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將此多重變異詞彙更新至一第二組帳號所屬的一第二組語言模型。此漸進式帳號分群裝置彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他優點詳述於後。

本揭露實施例在資訊傳播及溝通媒介，如網路社群中，將可疑的帳號群組發掘出來。本揭露實施例提出一種具有變異詞擴充的語言模型調適技術，能夠分析這些描述帳號之發文內容的語言風格的相似程度。此技術根據在一時間區間內一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格，以將此組帳號分群，並且在另一時間區間內，針對新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，以判斷這些變異詞彙的特徵及其重要程度，再更新此另一時間區間內另一組帳號的每一帳號的語言模型，進一步更新帳號之分身群組的結果。

承上述，第二圖是根據本揭露一實施例，說明一種發掘可疑帳號之分身群組的方法。參考第二圖，此方法可在至少一硬體處理器的控制下，根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格(步驟210)，並且比較此第一組帳號的多個語言模型的相似度，以將此第一組帳號分群(步驟220)。此方法針對在一第二時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙(步驟230)，並且將此多重變異詞彙更新至一第二組帳號的多個語言模型，進而彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群(步驟240)。

對於每一更新的時間區間，此方法可重覆執行前述步驟230至步驟240，以持續發掘可疑帳號之分身群組。也就是說，此方法可針對在每一更新時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將此多重變異詞彙更新至一個不同組帳號的多個語言模型，進而將此不同組帳號與其前一組帳號彙整後，重新分群，以持續發掘可疑帳號之分身群組。

承上述，在步驟220中，此方法對於此第一組帳號的每一帳號，可計算及比較此第一組帳號所對應的此多個語言模型的相似度，並根據此相似度的比較結果來將此第一組帳號分群。在步驟230中，此方法可在此第一時間區間內，從一或多個監控網站中下載多筆新增資料，從其中的新增資料來挖掘至少一監控詞組的多重變異詞彙。對於每一更新時間區間，此方法可將多重變異詞彙更新於既有的語言模型中，並且，針對此不同組帳號中與其前一組帳號不同的每一新帳號，重新建立此新帳號的一語言模型來描述其發文內容。然後，重新計算及比較此不同組帳號的多個語言模型的相似度，並根據重新比較的相似度結果，彙整此不同組帳號與其前一組帳號，並將一組彙整後的帳號重新分群。

上述步驟的一應用情境與細節說明如下。可先從一或多個網站來接收一監控網站列表及一指定時間，並取得一監控詞組，此監控詞組包含了複數個詞彙(phrase)。監控詞組的範例如一組有關色情援交之關鍵詞，例如是做援、兼差、援助、援交、兼職等。再根據此監控詞組及此指定時間，從監控網站中下載此指定時間區間內的所有帳號及每一帳號對應的發文內容。根據一監控詞組，從監控網站中下載的一組帳號(例如包括有帳號A與帳號B)及每一帳號各自對應的發文內容的範例如第三圖所示。

有了每一帳號對應的發文內容後，根據其發文內容來建立此發文內容對應的一語言模型，此語言模型可描述此帳號的語言風格。每一帳號對應的發文內容例如可先經過內文正規化處理後，再透過斷詞處理、以及語言風格特徵擷取後，即可訓練出一語言模型。內文正規化處理是指針對一發文內容，將其統一資源定位符(Universal Resource Locator，URL)、電話、即時通(Windows Live Messenger，MSN)、電子郵件(Email)等進行正規化處理。將一發文內容進行正規化的範例如下。正規化前的發文內容：...哥哥安安我是小薇 34 d / 6 k 援交請洽 0910220021...。正規化後的發文內容：...哥哥安安我是小薇 34d//6 k 援交請洽 0910220021(TEL)...。

一發文內容的斷詞處理例如可使用一詞庫長詞優先斷詞方法。此斷詞方法是指利用一詞庫長詞優先法斷詞器，將啟始資料所屬發文、以及候選儲存庫中的發文分別斷詞。例如，將上述正規化前的發文內容進行斷詞後的發文內容如下。哥哥□安安□我□是□小薇□34□d□/□6□k□援交□請洽□0910220021...。

詞庫長詞優先法斷詞方法的範例簡述如下。先將輸入的句子從左至右取出n個字元，n為一預定的長度，並設定一起始索引(start index)的值為1、以及一結束索引(end index)的值為n。然後將取出的n個字元進行詞庫索引搜尋，其搜尋深度為n；當在詞庫索引中找到配對時，則傳回(return)此n個字元，並設定此起始索引的值為1+n，結束索引的值為1+n+n；當無法找到配對時，則索引回到上一層，直到可以找到配對為止。找到時則設定此起始索引的值為1+k，結束索引的值為1+k+n，其中k表示索引深度為k時，找到配對的詞彙。依此，重覆執行前述步驟，直到此起始索引的值為-1，也就是輸入的句子的都已經處理過了，此時即結束處理。

語言風格特徵擷取是指針對起始資料中每一帳號所屬文章，透過特徵擷取如n-gram特徵擷取，擷取出所屬語言風格；將進行斷詞後的一發文內容透過n-gram特徵擷取的範例如下。帳號A的發文內容：...安□我□叫□雪□兒□清純□水□水□學生□妹□初次□兼職□！□...則帳號A的發文內容透過n-gram特徵擷取，n=5，所擷取的n-gram如下：安□我□叫、□我□叫□、我□叫□雪、□叫□雪□、叫□雪□兒、…。

然後利用所擷取的n-gram，訓練一語言模型。此語言模型的範例可以下列公式來表示。

其中，w _i表示句子中第i個詞彙，m表示句子中詞彙個數，count()表示詞彙序列在語料中出現的次數，而n表示根據w _i的前n個詞彙來統計其ngram機率。

訓練出每一帳號的語言模型後，可根據各帳號的語言模型相似度將帳號分群，說明如下。首先，計算各帳號所屬之語言模型的相似度；然後，透過一分群演算法，如K-means分群演算法，將相似特徵(相似度高)的帳號群集成一群；當一群集的相似度超過一門檻值時，判定此群裡所包含的帳號為同一帳號的分身。一語言模型之相似度的計算方式說明如下。將此語言模型中每一元件(element)所對應的機率值轉換成向量，再對兩向量之間求取相似度，如正弦相似度(cosine similarity)。以下以一範例來說明。

Doc1(cat：0.3,dog：0.4,tiger：0.01)表示帳號Doc1的語言模型中，元件cat對應的機率值為0.3、元件dog對應的機率值為0.4，元件tiger對應的機率值為0.01。Doc2(cat：0.28,dog：0.31,tiger：0.21)表示帳號Doc2中，元件cat對應的機率值為0.28、元件dog對應的機率值為0.31，元件tiger對應的機率值為0.21。將帳號Doc1轉換成以{cat,dog,tiger}表達的向量[0.3,0.4,0.01]，將帳號doc2，轉換成以{cat,dog,tiger}表達的向量[0.28,0.31,0.21]。所以，帳號doc1和doc2可以透過如正弦函式(cosine)來衡量其相似度similarity，其計算式如下。

一組帳號之各帳號的語言模型相似度被算出後，透過一種分群法，如漸進式分群(incremental clustering)的K-means分群演算法來將一組帳號分群。利用K-means的分群結果的例子如{0001、0002、0005}及{0011、0013、A0022}。此分群結果的例子表示帳號0001、帳號0002、以及帳號0005是同一真實帳號的分身群組，即{0001、0002、0005}；而帳號0011、帳號0013、以及帳號A0022 是同一真實帳號的分身群組，即{0011、0013、A0022}。帳號分身群組的發文範例如第四圖所示。

針對在第一時間區間內新增的多筆資料，根據本揭露一實施例，此方法挖掘出至少一監控詞組的多重變異詞彙，並且可透過此至少一監控詞組中每一監控詞的前後特徵視窗，從中擷取一或多個特徵，來判斷此新增的多筆資料中一或多個新詞彙是否屬於此監控詞的變異詞彙。擷取出的一或多個特徵例如是關鍵詞彙序列模式(keyword pattern)、或是詞性序列模式(POS pattern)、或是概念序列模式(concept pattern)、或是詞彙字串相似度等、或是前述特徵之其中一或兩種以上特徵。

根據本揭露一實施例，此變異詞彙的判斷還可包括如建立一目標項目表(target item table)、建立一詞彙配對表(pair table)、取出特徵視窗、針對特徵視窗取出關鍵詞彙序列模式、針對特徵視窗取出詞性序列模式、針對特徵視窗取出概念序列模式、針對對應詞彙計算其距離、整合所有距離等。

建立一目標項目表是指從一發文內容經斷詞處理後的結果來產生一目標項目表。根據一實施例，可先將發文內容經斷詞處理後的處理結果中的每一詞彙與此至少一監控詞組進行比對，找出含有其中至少一個監控詞彙的發文，再將此監控詞彙與此發文儲存到一目標項目表。以一範例說明如下。以監控詞組為{援交}為例，一則發文內容經斷詞處理後的結果為：哥哥安安我是小薇 34 d/6 k 援交請洽 0910220021...。則，經過逐一比對，發現上述發文內容中的「援交」為符合詞彙。所以監控「援交」和上述發文內容被存到目標項目表中。

建立一詞彙配對表是指對更新時間區間內多筆新增資料的每筆發文經斷詞處理後的結果，將其中每一詞彙分別與此目標項目表中的每一詞彙配對，產生一詞彙配對表(Pair Table)。範例說明如下。一目標項目表中包含「援交」，一則發文內容經斷詞處理後的結果為：你好我是可愛的呢呢學生兼職吃魚快到 http：//www.wretch.cc/blog/a1984nini 留言給我。則，建立的詞彙配對表為：(援交，你好)、(援交，呢呢)…(援交，吃魚)。其中，此詞彙配對表中的每一配對(pair)之左邊的詞彙是原有的監控詞彙，稱為目標詞彙(target item)，而右邊的詞彙即為候選變異詞彙(candidate item)。所以，候選變異詞為：你好、呢呢、吃魚。換句話說，詞彙配對表中每一配對包含一第一詞彙與一第二詞彙，第一詞彙是至少一監控詞組中的一監控詞彙，而第二詞彙是一候選變異詞彙。

取出特徵視窗是指針對詞彙配對表中每一配對中的兩個相對應詞彙，即目標詞彙與候選變異詞彙，分別取其所屬發文中的部分詞彙，分別存成一目標視窗(target window)T及一候選視窗(candidate window)C。例如，以該詞彙為中心，前後n個詞彙形成特徵視窗(feature window)，分別存成視窗T及視窗C，其中n為一正整數。以配對(援交，吃魚)為例，說明如下。

取出目標詞彙「援交」所屬發文P1：哥哥安安我是小薇 34 d/6 k 援交請洽 0910220021...。然後以「援交」為中心點，取發文P1前後例如n=10個詞彙，形成目標視窗T：哥哥安安我是小薇 34d / 6k 援交請洽 091022002。取出候選變異詞彙所屬發文P2：你好我是可愛的呢呢學生兼職吃魚快到 http：//www.wretch.cc/blog/a1984nini 留言給我。然後以「援交」為中心點，取發文P2前後例如n=10個詞彙，形成候選視窗C：你好我是可愛的呢呢學生兼職吃魚快到 http：//www.wretch.cc/blog/a1984nini 留言給我。

針對詞彙配對表中每一配對中的兩個相對應詞彙取出其特徵視窗後，可針對目標視窗T及候選視窗C分別取出其關鍵詞彙序列模式、詞性序列模式、以及概念序列模式。進行關鍵詞彙序列模式的擷取可根據此兩特徵視窗中每一詞彙的屬性，從特徵視窗中取出一或多個關鍵詞彙；例如，可根據每一詞彙的詞彙權重及是否為一停止詞(stop word)，濾除權重過高或過低的詞彙，或是濾除停止詞的詞彙。第五圖是根據本揭露一實施例，分別從一目標視窗T及一候選視窗C取出其關鍵詞彙序列模式的範例。在第五圖的範例中，目標視窗T的關鍵詞彙序列模式是從目標視窗T中，根據每一詞彙的詞彙權重及是否為一停止詞(stop word)，濾除詞彙「哥哥」、詞彙「我」、以及詞彙「是」。候選視窗C的關鍵詞彙序列模式是從候選視窗C中，根據每一詞彙的詞彙權重及是否為一停止詞(stop word)，濾除詞彙「我」、詞彙「是」、詞彙「給」、以及詞彙「我」。

進行詞性序列模式的擷取可根據目標視窗T及候選視窗C中每一詞彙，進行詞性標記與詞性過濾，並保留名詞與動詞兩類詞性的詞性序列。常見的詞性標記法如隱藏式馬可夫模型演算法(Hidden Markov Model，HMM)，此處不再描述；詞性過濾可利用如正規表達式(regular expression)進行過濾，僅保留名詞與動詞兩類詞性的詞彙。範例說明如下。目標視窗T的發文：哥哥安安我是小薇 34 d/6 k 援交請洽 0910220021。則擷取出的詞性序列模式：n n n cc nn cd fw sym cd fw v v cd，其中n,nn表示名詞(noun)，cc表示對等連接詞(coordinating conjunction)，cd表示基數(cardinal number)，fw表示外來的詞彙(foreign word)，v表示動詞(verb)，sym則表示符號(symbol)。

擷取概念序列模式的方法可採用機率式上下文無關剖析(probabilistic context free grammar)，來建立概念序列模型，並利用此模型來標記輸入句子的概念。第六圖是根據本揭露一實施例，採用機率式上下文無關之概念文法剖析的範例。在第六圖之文法樹600的範例中，文法樹600可有多種概念欄位(field)，例如問候(Greeting)、名稱(Name)、個人資訊(Personal Information)、聯絡(Contact)等；並且可利用文法樹600的模型來標記輸入句子的概念。

在第六圖的範例中，利用文法樹600的多種概念欄位來剖析目標視窗T的發文：哥哥安安我是小薇 34 d/6 k 援交請洽 0910220021，如標號610所示。依此，「安安」標記為問候概念、「小薇」標記為名稱概念、「34 d/6 k」標記為個人資訊概念、「0910220021」標記為聯絡概念，並且個人資訊概念「34 d/6 k」中，「34」與「6」是數字(number)概念「d」、「/」、及「k」是符號(symbol)概念。所以，針對目標視窗T，所擷取的概念序列模式就是：問候、名稱、個人資訊、聯絡。類似地，利用文法樹600的多種概念欄位來剖析候選視窗C的發文：你好我是可愛的呢呢學生兼職吃魚快到 http：//www.wretch.cc/blog/a1984nini 留言給我，所擷取的概念序列模式就是：問候、名稱、個人資訊、聯絡。

根據本揭露實施例，針對詞彙配對表中每一配對中的兩個相對應詞彙，也可以計算此兩詞彙之間的詞彙距離(Lexicon Distance)。例如，可利用下列Jaccard距離(Distance)公式來計算兩詞彙A與B之間的相似距離。

本揭露實施例也可以整合詞彙距離(Lexicon Distance)和前述三種特徵(模式)距離，並根據詞彙相似距離的計算公式來計算兩詞彙之間的相似度。以下列公式來說明。

Dist(w _i,w _j)=w _lex×Dist _lex(wi,wj)+w _concept×Dist _concept(WindowT _wi,WindowC _wj)+w _pos×Dist _pos(WindowT _wi,WindowC _wj)+w _keyword×Dist _keyword(WindowT _wi,WindowC _wj)where w _lex+w _concept+w _pos+w _word=1此公式中，Dist(wi,wj)代表兩詞彙wi與wj之間的距離，Dist_lex(wi,wj)代表兩詞彙wi與wj之間的相似距離，Dist_concept(wi,wj)代表概念序列模式之目標視窗T中詞彙wi與候選視窗C中詞彙wj之間的距離，Dist_pos(wi,wj)代表詞性序列模式之目標視窗T中詞彙wi與候選視窗C中詞彙wj之間的距離，Dist_keyword(wi,wj)代表關鍵詞彙序列模式之目標視窗T中詞彙wi與候選視窗C中詞彙wj之間的距離，並且w_lex、w_concept、w_pos、以及w_keyword分別為詞彙權重、概念權重、詞性權重、以及關鍵詞彙權重。也就是說，本揭露實施例可採用一線性方程式來整合詞彙距離和三種特徵的距離，並根據整合的距離來計算兩詞彙之間的相似度。

利用上述所得的變異詞彙與預定的至少一監視詞組可能並非同義詞，而是具有不同程度的相似度。所以，在步驟240之變異詞彙更新至語言模型的動作中，本揭露實施例可包括計算變異詞的權重，可包括轉換原始的詞彙權重來得到變異詞的權重、以及利用變異詞的權重去重新計算監控詞組與變異詞在的語言模型。當原始的詞彙權重為已知時，可根據前述公式來計算兩詞彙之間的相似度。換句話說，當原始的詞彙權重為已知時，可透過轉換原始的詞彙權重來得到變異詞的權重。常用的此類轉換例如是雙彎曲函式(Sigmoid function)，即

第七圖是根據本揭露一實施例，透過雙彎曲函式轉換，來計算變異詞之權重的範例。在第七圖的範例中，標號711~714分別代表四個不同參數的雙彎曲函式，橫軸上的任一數值代表原始的監控詞彙與變異詞之間的相似度，縱軸上的任一數值代表變異詞的權重。當本揭露一實施例採用雙彎曲函式712轉換，來計算變異詞之權重時，若一原始的監控詞彙(例如援交)與一變異詞(例如吃魚)之間的相似度是0.62，則透過雙彎曲函式712轉換，可得到此變異詞的權重為0.812，如雙彎曲函式712g上的點(0.62,0.812)所在位置其縱軸上的值。

得到變異詞的權重後，可利用變異詞的權重去重新計算變異詞在的語言模型。根據本揭露一實施例，重新計算變異詞在的語言模型可將相同含意的變異詞詞彙機率加總後，再乘上該變異詞的權重，其公式如下：

以變異詞「吃魚」相對於原始的監控詞彙「援交」的權重等於0.812為例，則根據上式，變異詞「吃魚」在的語言模型可計算如下：

承上述，本揭露實施例可透過轉換至少一監控詞組中每一詞彙的權重，而得到其多重變異詞彙中每一變異詞彙的權重，以將此多重變異詞彙更新至或重建於第i+1組帳號的多個語言模型。

如之前所述，本揭露實施例可將多重變異詞彙更新於既有的語言模型中，並且，針對第k組帳號中與第k-1組帳號不同的每一新帳號，重新建立此新帳號的一語言模型。每一帳號的語言模型建立後，可計算各帳號所屬之語言模型的相似度；再透過一分群演算法，如漸進式分群演算法，將相似特徵(相似度高)的帳號群集成一群；當一群集的相似度超過一門檻值時，判定此群裡所包含的帳號為同一帳號的分身。當一新帳號的語言模型相似度低於一門檻值而無法歸類到任一群組時，則為新的群組。也就是說，本揭露實施例可透過一漸進式分群演算法，根據新的語言模型重新進行帳號分群，找出新的帳號分身群組。

例如，帳號1、帳號2、以及帳號5為同一帳號之分身群組A；帳號11、帳號13、以及帳號22為同一帳號之分身群組B；一新帳號77和A群組相似度高於一門檻值，所以新帳號77屬於群組A。一新帳號33因為和A群組相似度低於門檻值，並且和B群組相似度也低於門檻值，所以無法歸屬於任一群組，因此產生新的群組。

第八圖是根據本揭露一實施例，說明漸進式分群演算法的流程。參考第八圖，在步驟810中，從一組帳號中取出第一筆帳號資料x1，並設定群組數目m等於1且x1為群組C1的一中心帳號。在步驟820中，從尚未分群的帳號中取出任一未分群的帳號xi，計算xi與目前所有群組(C1…Cm)之中心帳號的相似度。在步驟830中，當xi與群組Cwin之中心帳號的相似度大於等於一門檻值時，2≦win≦m，則將xi歸類為群組Cwin，並重新計算Cwin群組的中心帳號；返回步驟820，直到沒有未分群的帳號為止。在步驟840中，當xi與群組Cwin之中心帳號的相似度小於此門檻值時，則設定群組數目m=m+1，以及xi為一新群組Cm的中心帳號；返回步驟820，直到沒有未分群的帳號為止。

承上述，第九圖是根據本揭露一實施例，說明一種發掘可疑帳號之分身群組的系統。參考第九圖，一發掘可疑帳號之分身群組的系統900可包含一語言模型訓練裝置910、一帳號分群裝置920、一變異詞辨識器930、以及一漸進式帳號分群裝置940。語言模型訓練裝置910根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格。帳號分群裝置920根據此第一組帳號所屬的一第一組語言模型的相似度，將此第一組帳號分群。變異詞辨識器930針對在一第二時間區間內，新增的多筆資料932，挖掘出至少一監控詞組的多重變異詞彙，並且將此多重變異詞彙更新至一第二組帳號所屬的的一第二組語言模型。漸進式帳號分群裝置940針對此第二組帳號，根據第二組語言模型的相似度，彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群。

根據本揭露實施例，系統900還可包括一詞彙配對表，此詞彙配對表中每一配對包含至少一監控詞組中的一監控詞彙，以及此監控詞彙的一候選變異詞彙。變異詞辨識器930會在每一更新時間區間內，將此多重變異詞彙更新於既有的語言模型中，並且對每一新帳號，重新建立此新帳號的一語言模型來描述此新帳號的發文內容。變異詞辨識器930也會透過至少一監控詞組中每一監控詞的前後特徵視窗，從中擷取一或多個特徵，來判斷新增的多筆資料中新進的一或多個詞彙是否屬於此監控詞的變異詞彙。變異詞辨識器930也會針對詞彙配對表中每一配對中的監控詞彙與候選變異詞，分別取其所屬發文中的部分詞彙，並分別存成一目標視窗及一候選視窗。變異詞辨識器930可從目標視窗與候選視窗擷取出前述的一或多個特徵。

綜上所述，本揭露實施例提供一種能夠自動尋找可疑帳號之分身群組的方法與系統。其技術是一種具有變異詞擴充的語言模型調適技術，能夠分析帳號發文內容的語言風格的相似程度，進而找出語言風格同質性高的可疑帳號的分身群組。找出帳號分身後，此技術可結合現有的通聯分析技術，來檢視這些帳號間的互動關連。

以上所述者僅為本揭露實施例，當不能依此限定本揭露實施之範圍。即大凡本發明申請專利範圍所作之均等變化與修飾，皆應仍屬本發明專利涵蓋之範圍。

110‧‧‧主題向量處理器

112‧‧‧輸入語句

120‧‧‧訓練語料

210‧‧‧根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立此帳號的一語言模型來描述此帳號的語言風格

220‧‧‧比較此第一組帳號的多個語言模型的相似度，以將此第一組帳號分群

230‧‧‧針對在一第二時間區間內，新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙

240‧‧‧將此多重變異詞彙更新至一第二組帳號的多個語言模型，進而彙整此第一組帳號與此第二組帳號，並且將一組彙整後的帳號重新分群

600‧‧‧文法樹

610‧‧‧目標視窗T的發文

711~714‧‧‧四個雙彎曲函式

810‧‧‧從一組帳號中取出第一筆帳號資料x1，並設定群組數目m等於1且x1為群組C1的一中心帳號

820‧‧‧從尚未分群的帳號中取出任一未分群的帳號xi，計算xi與目前所有群組(C1…Cm)之中心帳號的相似度

830‧‧‧當xi與群組Cwin之中心帳號的相似度大於等於一門檻值時，2≦win≦m，則將xi歸類為群組Cwin，並重新計算Cwin群組的中心帳號

840‧‧‧當xi與群組Cwin之中心帳號的相似度小於此門檻值時，則設定群組數目m=m+1，以及xi為一新群組Cm的中心帳號

900‧‧‧發掘可疑帳號之分身群組的系統

910‧‧‧語言模型訓練裝置

920‧‧‧帳號分群裝置

930‧‧‧變異詞辨識器

940‧‧‧漸進式帳號分群裝置

932‧‧‧新增的多筆資料

第一圖是一種決定語句的主題的內文處理系統。

第二圖是根據本揭露一實施例，說明一種發掘可疑帳號之分身群組的方法。

第三圖是根據本揭露一實施例，從監控網站中下載的一組帳號及每一帳號各自對應的發文內容的範例。

第四圖是根據本揭露一實施例之帳號分身群組的發文範例。

第五圖是根據本揭露一實施例，分別從一目標視窗及一候選視窗取出其關鍵詞彙序列模式的範例。

第六圖是根據本揭露一實施例，採用機率式上下文無關之概念文法剖析的範例。

第七圖是根據本揭露一實施例，透過雙彎曲函式的轉換，來計算變異詞之權重的範例。

第八圖是根據本揭露一實施例，說明漸進式分群演算法的流程。

第九圖是根據本揭露一實施例，說明一種發掘可疑帳號之分身群組的系統。

Claims

一種發掘可疑帳號之分身群組的方法，包含：在至少一硬體處理器的控制下，；根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立該帳號的一語言模型來描述該帳號的語言風格，並且比較該第一組帳號的多個語言模型的相似度，以將該第一組帳號分群；以及針對在一第二時間區間內，新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將該多重變異詞彙更新至一第二組帳號的多個語言模型，進而彙整該第一組帳號與該第二組帳號，並且將一組彙整後的帳號重新分群。
如申請專利範圍第1項所述之方法，該方法還包括：針對在多個更新時間區間的每一更新時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，並且將該多重變異詞彙更新至或重建於一不同組帳號的多個語言模型，進而將該不同組帳號與其前一組帳號彙整後，重新分群，以持續發掘可疑帳號之分身群組。
如申請專利範圍第2項所述之方法，該方法還包括：針對在該每一更新時間區間內，將該多重變異詞彙更新於既有的語言模型中，並且對該每一更新時間區間中與與其前一組帳號不同的每一新帳號，重新建立該新帳號的一語言模型來描述其發文內容。
如申請專利範圍第1項所述之方法，該方法還包括：對於該第一組帳號的每一帳號，計算及比較該第一組帳號所對應的該多個語言模型的相似度，並根據該相似度的比較結果來將該第一組帳號分群。
如申請專利範圍第4項所述之方法，該方法還包括：重新計算及比較該第二組帳號的多個語言模型的相似度，並根據重新比較的相似度結果，彙整該第一組帳號與該第二組帳號，並將該組彙整後的帳號重新分群。
如申請專利範圍第1項所述之方法，其中挖掘出該至少一監控詞組的多重變異詞彙係透過該至少一監控詞組中每一監控詞的前後特徵視窗，擷取一或多個特徵，來判斷該新增的多筆資料中一或多個新詞彙是否屬於該監控詞的變異詞彙。
如申請專利範圍第6項所述之方法，其中該一或多個特徵是一關鍵詞彙序列模式、一詞性序列模式、一概念序列模式、以及一詞彙字串相似度，之前述特徵的其中一或兩種以上的特徵。
如申請專利範圍第1項所述之方法，其中建立該帳號的該語言模型還包括：將該帳號對應的發文內容透過斷詞處理、以及語言風格特徵擷取，來訓練出該語言模型。
如申請專利範圍第1項所述之方法，該方法還包括：建立一詞彙配對表，該詞彙配對表中每一配對包含一第一詞彙與一第二詞彙，該第一詞彙是該至少一監控詞組中的一監控詞彙，而該第二詞彙是一候選變異詞彙。
如申請專利範圍第9項所述之方法，該方法還包括：建立該配對的一目標視窗與一候選視窗，並分別從該目標視窗與該候選視窗擷取一或多個特徵；以及整合該第一詞彙與該第二詞彙之間的一詞彙距離和該一或多個不同特徵的距離，並根據該整合的距離來計算該第一詞彙與該第二詞彙之間的相似度。
如申請專利範圍第1項所述之方法，該方法還包括：透過轉換該至少一監控詞組中每一詞彙的一第一權重，得到該多重變異詞彙中每一變異詞彙的一第二權重，以將該多重變異詞彙更新至該第二組帳號的該多個語言模型。
如申請專利範圍第1項所述之方法，該方法還包括：透過一漸進式分群演算法，根據該第二組帳號的多個語言模型將該組彙整後的帳號重新分群，找出一或多個新的帳號分身群組。
一種發掘可疑帳號之分身群組的系統，包含：一語言模型訓練裝置，根據在一第一時間區間內，一第一組帳號的每一帳號之發文內容，建立該帳號的一語言模型來描述該帳號的語言風格；一帳號分群裝置，根據建立的該第一組帳號的一第一組語言模型的相似度，來將該第一組帳號分群；一變異詞辨識器，針對在一第二時間區間內新增的多筆資料，挖掘出至少一監控詞組的多重變異詞彙，該多重變異詞彙被更新至一第二組帳號所屬的一第二組語言模型；以及一漸進式帳號分群裝置，根據該第二組語言模型的相似度，彙整該第一組帳號與該第二組帳號，並將一組彙整後的帳號重新分群。
如申請專利範圍第13項所述之系統，其中在多個更新時間區間的每一更新時間區間內，該變異詞辨識器將該多重變異詞彙更新於既有的語言模型中，並且對該每一更新時間區間中與與其前一組帳號不同的每一新帳號，重新建立該新帳號的一語言模型來描述其發文內容。
如申請專利範圍第13項所述之系統，其中該變異詞辨識器透過該至少一監控詞組中每一監控詞的前後特徵視窗，從中擷取一或多個特徵，來判斷新增的該多筆資料中一或多個新詞彙是否屬於該監控詞的變異詞彙。
如申請專利範圍第15項所述之系統，其中該一或多個特徵是一關鍵詞彙序列模式、一詞性序列模式、一概念序列模式、以及一詞彙字串相似度，之前述特徵的其中一或兩種以上的特徵。
如申請專利範圍第13項所述之系統，該系統還包括：一詞彙配對表，該詞彙配對表中每一配對包含該至少一監控詞組中的一監控詞彙，以及該監控詞彙的一候選變異詞彙。
如申請專利範圍第17項所述之系統，其中該變異詞辨識器針對該詞彙配對表中每一配對中的該監控詞彙與該候選變異詞，分別取其所屬發文中的部分詞彙並分別存成一目標視窗及一候選視窗。
如申請專利範圍第18項所述之系統，其中該變異詞辨識器從該目標視窗與該候選視窗擷取一或多個特徵。