TW201443812A - 社群媒體影響性評估(二) - Google Patents
社群媒體影響性評估(二) Download PDFInfo
- Publication number
- TW201443812A TW201443812A TW103100091A TW103100091A TW201443812A TW 201443812 A TW201443812 A TW 201443812A TW 103100091 A TW103100091 A TW 103100091A TW 103100091 A TW103100091 A TW 103100091A TW 201443812 A TW201443812 A TW 201443812A
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- users
- subject
- score
- push
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 88
- 238000012545 processing Methods 0.000 claims description 37
- 238000005259 measurement Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 40
- 230000006870 function Effects 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 22
- 230000008451 emotion Effects 0.000 description 20
- 238000000605 extraction Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 15
- 239000000463 material Substances 0.000 description 14
- 230000000699 topical effect Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000005315 distribution function Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 239000003638 chemical reducing agent Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
揭露用於識別社群網路平臺中的有影響力使用者之系統。該系統可針對複數個使用者中之每一者來計算分數。該種分數可是基於主題式的,而導致更準確識別出有影響力使用者。該樣基於主題式的分數可在主題方面指示出使用者的權威性及/或影響性。可基於權威性結合其他因素,例如,使用者的權力性,來計算影響性。可直接地從推記錄來簡單地計算全部或部分的權威性分數,而不需要,例如,產生再推圖。其結果,可運用允許計算量被分配遍布於多個平行處理器的MapReduce基元或其他建構元,來計算分數。可基於作為社會趨勢分析、行銷或其他功能的一部分之影響,來使用該種分數選擇使用者。
Description
本發明係關於社群媒體影響性的評估。
社群媒體允許使用者連結志同道合的人或連結提供使用者感興趣的資訊和意見的人。例如,推特(TWITTER)是社群媒體平臺,允許使用者對其他使用者發送簡短訊息,叫做「推」(tweet)。使用者推許多的主題,例如,一些人物及一些關於企業、產品或政治的主題。從任何發送者來的推被電子式地分配以選擇其他使用者,該種選擇係基於彼等其他使用者的偏好,彼等其他使用者可說是在「關注」著發送者。
有時,使用者之關注者從那使用者對其他使用者傳遞資訊。可像從那使用者的訊息之重傳一樣來傳遞資訊。重傳有時被說是「再推」(retweet)。不過,可在新訊息中傳遞資訊,新訊息可和原訊息是相關的,因為它可提到發起訊息的使用者。
人們已認識到,社群媒體的一些使用者對於其他人是更值得感興趣,且相較於其他人可有更多關注者。因此,使用者的「關注者計數」(follower count),代表著使用者所有
的關注者數目,是一種有時候被追蹤的量測值。關注者計數也已被稱為是使用者的「影響力」(influence)。為了支持識別出具有大量「關注者計數」的使用者,社群網路平臺可維護使用者發送的訊息記錄(log)。該些記錄,有時候被稱為是「推記錄」(tweet log),可提供他人來分析並可識別出具有高關注者計數的使用者。不過,因為大量的推,所以分析該資訊是一直存在著的問題,且因此,大量的資料開始被分析。
針對彼等尋求透過社群媒體分配訊息(可為商業訊息)的人而言,該個關注者計數是重要的。因此,廣告商可集中他們的訊息在社群媒體的具有大量關注者計數的使用者上,以希望使用者將啟動受歡迎的訊息,而最終將會傳達到那使用者的大量的關注者。
利用該資訊,從社群媒體的推,趨勢已被推導出。例如,藉由識別出具有高關注者計數的使用者,且決定出他們的推的主題,關於社群媒體平臺的使用者所感興趣的主題的資訊已被識別出。
故也稱為針對社群媒體的使用者來計算的指示出使用者「權威性」(authority)的量測值。基於相關於透過社群媒體平臺發送訊息的流量統計,使用者的權威性已被計算出。
可針對社群媒體的使用者來計算準確的與易於計算的權威性分數。權威性分數可為主題式的(topic-based),以提供使用者權威性的準確代表。此外,可依據一種需要從推記錄直接地推導相關於使用者的量測值的方法來計算權威性分
數。其結果,計算量(computation)係適合於在可能同時地執行於多個處理器上之多個獨立程序中之實現(implementation)。可利用MapReduce基元來實現計算量。
因此,在一態樣中,本發明可相關於一種決定社群網路的使用者的權威性之方法。可用複數個處理器實現方法,且方法可包含處理推記錄以針對複數個使用者中之每一者來計算至少一個主題量測值。可處理主題量測值以針對至少一部分的複數個使用者來計算指示出使用者權威性的主題權威性分數。可用MapReduce基元來計算主題權威性分數。
在另一個態樣中,本發明可相關於用於決定社群媒體平臺的使用者的權威性的系統。系統可包含被配置以存取至少一部分的推記錄的複數個處理器。處理器可決定在記錄中的推的複數個計數,計數中之每一者指示達到相關於複數個使用者的準則的在記錄中的推的數目。可從複數個計數而針對複數個使用者中之每一者來計算相關於主題的主題式的量測值。針對至少複數個使用者中之一個使用者,可基於針對使用者的主題式的量測值與針對複數個使用者所計算的主題式的量測值的統計來計算主題式的權威性分數。
在又另一個態樣中,本發明可相關於至少一個有形體的、電腦可讀取的媒體,用電腦可執行指令編碼於媒體,而當由至少一個處理器執行指令時,實施一種針對社群媒體平臺的至少一個使用者來計算主題式的權威性分數的方法。方法可包含存取至少一部分的推記錄且決定在記錄中的推的複數個計數。計數中之每一者可指示達到相關於複數個使用
者的一使用者的複數個準則的在記錄中的推的數目。可從複數個計數而針對複數個使用者中之每一者來計算相關於主題的主題式的量測值。針對至少複數個使用者中之一個使用者,可基於針對使用者的主題式的量測值與針對複數個使用者所計算的主題式的量測值的統計來計算主題式的權威性分數。
前述內容係為非限定性(non-limiting)的本發明之概要,本發明由附加的申請專利範圍所定義。
100‧‧‧社群媒體平臺
110A‧‧‧使用者
110B‧‧‧使用者
110C‧‧‧使用者
110D‧‧‧使用者
112A‧‧‧計算裝置
112B‧‧‧計算裝置
112C‧‧‧計算裝置
112D‧‧‧計算裝置
120‧‧‧網路
150‧‧‧伺服器
152‧‧‧資料庫
154‧‧‧計算裝置
156‧‧‧分析者
170‧‧‧訊息
172‧‧‧訊息、再推、再推訊息
174‧‧‧訊息
210‧‧‧記錄
212‧‧‧程序、特徵萃取、特徵萃取程序、特徵萃取處理法
220‧‧‧再推圖資料
222‧‧‧交易資料、權力性迭代、權力性迭代處理法
224‧‧‧權威性識別、權威性識別程序、權威性識別處理法
230‧‧‧影響性組成、影響性組成處理法
240‧‧‧分數、影響性分數
300‧‧‧記錄、推記錄
310A‧‧‧列
310B‧‧‧列
310C‧‧‧列
310D‧‧‧列
322‧‧‧欄位
324‧‧‧欄位
326‧‧‧欄位
328‧‧‧欄位
330‧‧‧欄位
400‧‧‧方法、程序
4101‧‧‧子程序
410N‧‧‧子程序
412‧‧‧迴圈開始
414‧‧‧方塊
416‧‧‧決策方塊
420‧‧‧子程序
4301‧‧‧子程序
430M‧‧‧子程序
510‧‧‧圖形化使用者介面
512‧‧‧輸入欄位
514‧‧‧篩選區域
516‧‧‧軸
518‧‧‧軸
520‧‧‧點
550‧‧‧圖形化使用者介面
556‧‧‧控制區域
558‧‧‧圖標
560‧‧‧軸
562‧‧‧軸
570‧‧‧展示區域
572‧‧‧控制區域
600‧‧‧環境
610‧‧‧電腦
620‧‧‧處理單元
621‧‧‧系統匯流排
630‧‧‧系統記憶體
631‧‧‧唯讀記憶體、ROM
632‧‧‧隨機存取記憶體、RAM
633‧‧‧基本輸入/輸出系統、BIOS
634‧‧‧作業系統
635‧‧‧應用程式
636‧‧‧其他程式模組
637‧‧‧程式資料
640‧‧‧介面
641‧‧‧硬碟機
644‧‧‧作業系統
645‧‧‧應用程式
646‧‧‧其他程式模組
647‧‧‧程式資料
650‧‧‧介面
651‧‧‧磁碟機
652‧‧‧媒體
655‧‧‧光碟機
656‧‧‧光碟
660‧‧‧使用者輸入介面
661‧‧‧指向裝置
662‧‧‧鍵盤
670‧‧‧轉接器
671‧‧‧區域網路、LAN
672‧‧‧數據機
673‧‧‧廣域網路、WAN
680‧‧‧遠端電腦
681‧‧‧裝置
685‧‧‧遠端應用程式
690‧‧‧影像介面
691‧‧‧螢幕
695‧‧‧輸出週邊介面
696‧‧‧印表機
697‧‧‧喇叭
伴隨的圖式並不意圖按比例繪製。在圖式中,藉由相似的標號來代表不同圖所顯示出的每一個相同或接近相同的元件。為清楚起見,並非每一個元件可被標示於每一個圖中。在圖式中:圖1A是一種運作在第一種情況下的社群媒體平臺的概念草圖;圖1B是一種運作在第二種情況下的社群媒體平臺的概念草圖;圖2是一種針對社群媒體平臺的一或更多個使用者計算出影響力分數的方法的示例性實施例的功能方塊圖;圖3是一種依據一些說明性實施例的推記錄的概念草圖;圖4是一種針對社群媒體平臺的一或更多個使用者計算出權威性分數的示例性方法的流程圖;圖5A是一種可針對社群媒體平臺的複數個使用者
中之每一者展示影響性分數的示例性圖形化使用者介面;圖5B是一種可針對社群媒體平臺的一個使用者展示時變的(time varying)影響性分數的示例性圖形化使用者介面;及圖6是一種可用於實施此處所述的一些或全部的計算量的示例性電腦系統的方塊圖。
本案發明人已認識並理解到現有做法來識別出社群媒體平臺的有影響力使用者的缺點,且已發展出替代的量測值將可更準確地識別出有影響力使用者。例如,關注者計數和基於推的後續引用(subsequent reference)數目的「頁面排名」計算量已被使用於評估影響力。儘管在一些情況下是有用的,本案發明人已認識到該些做法會在其他情況下產生錯誤結果。當評估具有許多關注者的名人使用者時,關注者計數,舉例而言,可產生偏移(skewed)結果。相似地,基於頁面排名的量測值在推當前事件而被發送的情況下,可產生不準確結果,其中當前事件還沒有足夠時間來對關於事件的訊息有著有意義的後續引用數目。
此外,本案發明人已認識並理解到影響力可反映一或更多個因素,包括使用者發推的權威性和彼使用者的推的權力性。權力性可相關於使用者的關注者數目及/或從使用者處再推至其他使用者訊息的其他使用者數目。如果是基於特定主題,則使用者的權威性和權力性的指示可更準確。
另外,本案發明人已認識並理解到用於允許簡易地
計算影響力量測值而仍然得到準確結果的技術。該種技術可適合於使用MapReduce技術的計算量,以便為了許多不同計算裝置上的處理而可簡易地分開對大量資料集合的計算量(例如推特記錄)。因此,計算量是可基於事件計數(counting event)或其他簡易的函數,其可分別地針對已收集其資料的多個使用者中之每一者而處理推特記錄項目來被實施。以該種方式,部分的推特記錄可在多個不同的計算裝置上平行式(in parallel)快速地被處理,且該處理的結果而後可被匯集起來而計算整體量測值。此外,為了平行計算,每單位使用者之處理(processing per user)可替代地或附加地被輕易分配到不同的計算裝置。
此處所述的分析技術可被應用於任何合適種類的社群媒體。此處所述的用於分析社群媒體資料的示例性系統使用的是可應用於TWITTER的術語,TWITTER是被廣泛地使用的社群媒體平臺。因為TWITTER平臺是廣為人知的,所以對於本領域中彼等熟習此項技藝者該種術語是可輕易認識的。但是,應當理解的是用於分析社群媒體資料的系統、方法及裝置是可應用於其他社群媒體平臺且聯想到TWITTER平臺的術語之使用不限制本發明的可應用性於TWITTER平臺。
例如,如在此處使用的,「推」可包括透過社群媒體平臺分配的任何訊息。在其他社群媒體平臺中,簡短訊息可被稱為貼文(post)或可被描述為「塗鴉牆留言」(writing on a wall)、或被給予其他名稱。儘管如此,所有的該些通訊形式
可被視為「推」。同樣地,「推記錄」可包括關於訊息的任何資訊集合,不論訊息是使用TWITTER平臺還是其他社群媒體平臺來發送。另外,無論原來訊息所呈現的是什麽格式,針對在社群網路中的其他人而再肯定或反肯定彼訊息的任何動作可被視為「再推」。在像是FACEBOOK的平臺中,舉例而言,稱為「讚」(like)或「遜」(dislike)的動作可以對應於再推。在其他平臺中,對應的再推功能可被稱為「轉發」(forward)或「推薦」(recommend)。
因此,在此處描述的概念可應用於任何社群媒體平臺而無論其名稱為何。使用特定術語以描述訊息被通訊或再通訊的機制不是本發明的限制。例如,此處描述的社群媒體平臺有時候被稱為「微型部落格」(microblog),該些系統的使用者有時候被稱為「生產性消費者」(prosumer)以反映社群媒體平臺的常見用途,即內容的消費者也可產生內容。在此處描述的技術係可應用於支援像微型部落格的任何平臺。
圖1A提供範例和社群媒體平臺100。在該範例中,顯示出使用者110A、110B、110C和110D。每一個使用者分別地作為計算裝置112A、112B、112C和112D而連結到網路120。計算裝置可有任何合適的形式。例如,使用者可透過桌上型電腦、平板電腦、智慧型手機或其他攜帶型計算裝置來存取社群媒體平臺。無論計算裝置的種類如何,每一個計算裝置可已安裝應用程式於其上或不然經配置以存取社群媒體平臺。但是,對本發明而言,使用者存取社群媒體平臺的特定機制不是關鍵的,且可實施存取社群媒體平臺所使用的技
術已為本領域所習知。
網路120可為任何合適的網路。在此處所提供的範例中,透過廣域公共網路,例如網際網路,來連結社群媒體平臺的使用者。
社群媒體平臺可包括伺服器,或其他裝置也連結到網路120以在社群媒體平臺100的使用者之間路由(route)訊息。在該範例中,為此目的而顯示出伺服器150連結到網路120。伺服器150或在社群媒體平臺中的其他合適的元件,可,針對由使用者發送的每個訊息來決定是哪些其他使用者接收彼訊息。然後伺服器150可合適地路由訊息。
例如,使用者110A可發出訊息170。使用者110A可選擇訊息170的內容且訊息170可指示出這是由使用者110A所發出的。
社群媒體平臺100可經配置以路由訊息170至社群媒體平臺的使用者子集。傳達訊息170所至的使用者可取決於使用者之間的關係,使用者之間的關係係作為與社群媒體平臺互動的一部分由彼等使用者所先前定義的。社群媒體平臺可使用不同方式來決定哪些使用者接收傳訊的訊息。在一些社群媒體平臺中,例如,支援使用者之間互動的平臺允許使用者形成網路。在該種情況下,當一個使用者發送訊息,該訊息便可提供給在相同網路中的其他使用者。
在一些社群媒體平臺中,網路可為相互的(mutual),使得使用者發送的任何訊息被路由至在相同社群網路中的所有其他使用者。在其他社群媒體平臺中,傳訊不必是相互的。
在TWITTER中,舉例而言,使用者可有「關注者」。當使用者發送訊息時,訊息可選擇性地提供給發送使用者的關注者。彼等關注者可被說是發送使用者的「朋友」或可被說是「關注」發送使用者。儘管可能,該發送使用者也關注所有他們的關注者的狀況並非是必要條件。
在圖1A的範例中,使用者110D和110C關注使用者110A。因此,使用者110C和110D中之每一者接收訊息170。在該範例中,使用者110B沒有關注使用者110A,且沒有顯示出使用者110B直接地接收訊息170。但是,在圖1B所顯示出的情況下,使用者110B關注使用者110D,且使用者110D再傳送(re-transmit)、或「再推」訊息170為172。因為使用者110B關注使用者110D,所以使用者110B接收訊息170作為再推訊息172。
在一些實施例中,基於其他訊息,再推訊息區別于其他種類的訊息。例如,使用者110C可編寫訊息174。訊息174可提及使用者110A且可能地參考到(或被)訊息170中之內容或使用者110A發送的其他訊息(所影響)。但是,因為訊息174不是再傳送而是新編寫的訊息,在一些實施例中,它將被分類為使用者110A的「提及」(mention)。在彼等實施例中,訊息174可不被分類為再推因為它不是訊息170的直接拷貝。
雖然沒有被明確地顯示於圖1A和1B中,其他種類的訊息可替代地或附加地存在於社群媒體平臺。例如,可存在「對話式推」(conversational tweet)。在對話式推中,使用
者可回覆(reply)推。該種回覆可被發送為禮貌事項或作為回復(reflex),且相較於再推或提及,該種回覆可在原始訊息的內容中指示出不同層次的趣味性。因此,在分析使用者的權威性或影響性中,可不同地對待對話式推及其他種類的推。
伺服器150、或在社群媒體平臺中的其他計算裝置可追蹤在社群媒體平臺中的訊息,其中使用者已同意他們的推的該種使用。在圖1A和1B所顯示出的實施例中,伺服器150維護資料庫152,資料庫中訊息的記載可被維護。該記載、或該種記載的處理過版本可被稱為「推記錄」。可為了一或更多個的目的來分析推記錄,其中使用者同意該目的。
分析可是自動化的且可由伺服器150或其他合適的計算裝置來執行。不過,應當理解的是不必在計算裝置上實施推記錄的分析,計算裝置管理在社群媒體平臺100中的訊息傳輸。在一些實施例中,為了分析,推記錄可被提供給社群媒體平臺100的操作者以外的實體以進行分析。
可以任何合適的方式來實施分析。在一些實施例中,相對於一或更多個主題,分析可基於使用者的權威性及/或影響力來分類使用者。該種分類可基於一或更多個分數,其中根據演算法來計算分數,其中演算法被設計成具有值以反映出使用者顯示出所期望的使用者特徵的程度。從社群網路的使用者行為可推斷出使用者顯示出所期望的特徵的程度,例如權威性或影響力,且演算法可基於指示出在社群網路內的使用者動作的量測值。
分析的結果可作為資訊,其中用任何合適的方式使
用資訊。在一些實施例中,分析可被用於預測關於主題的未來態度。例如,藉由識別出有影響力使用者,且對主題觀察到在他們的訊息的情緒、語氣或內容上的改變,而有可能預測出更大量的使用者數目的未來意見。如果訊息的主題是產品,則預測出未來意見的該種能力用於行銷可是有幫助的。如果訊息的主題是政治議題,則該種能力用於發展政治競選活動可是有幫助的。不過,應當理解的是行銷和政治只是範例,且可做分析的任何合適的用途。
作為另一個範例,分析的結果可導致選擇要聯絡的使用者。例如,相對於主題的權威性使用者可被聯絡或被邀請來對主題寫部落格貼文。替代地或另外,相關於主題的有影響力使用者可被聯絡且被給予職位作為產品的代言人或被要求來做關於主題的產品的背書。可直接地進行該種要求,例如藉由給予所選的使用者工作作為產品的代言人,或間接地,例如藉由給予有影響力使用者免費或折扣來使用產品。
無論分析如何被實施且彼分析的結果如何被使用,分析可替代地或附加地被人工地實施。因此,圖1A和1B顯示出分析者156透過計算裝置154來存取資料庫152。計算裝置154(用以代替或附加於用於使用者特徵(例如權威性和影響力)的計算分數)可提供可呈現出使用者介面於其上的顯示器。使用者介面可提供關於一或更多個使用者的資訊。可被顯示出的使用者介面範例被展示於隨後的圖5A和5B中,如下所討論。
應當理解的是為了說明的目的社群媒體平臺100是
被大幅地簡化於圖1A和1B中。在此處描述的技術是可應用於更加複雜的社群媒體平臺。例如,雖然僅顯示出四個使用者,社群媒體平臺可支援數千、數萬、數百萬或更多個使用者。因此,在此處描述的系統可被擴展到任何數目使用者。作為特定的範例,雖然顯示出實施推記錄的分析於單個計算裝置(在該範例中的伺服器150)上,在此處描述的分析演算法可被分配於跨越多個計算裝置。同樣地,雖然顯示出資料庫152在單個地點,應當理解的是可使用具有多個節點在多個地點的分散式資料庫。
可以任何合適的方式來實施該種大型資料集的計算。但是,由於一些社群媒體平臺的使用者的大型人口(population),一些實施例可採用被稱為「映射-簡化」(map-reduce)的軟體架構。一般而言,映射-簡化架構的使用包括分割(partition)輸入資料集為多個分段(shard),使用分開的「映射」程序(process)來應用使用者定義的演算法於每一個分段,而然後使用一或更多個「簡化」程序來合併(consolidate)由跨越資料集的所有分段的所有映射程序所產生的結果。一般而言,映射-簡化架構使得過程的某些步驟(例如,彼等被映射程序實施的步驟)被平行式實施,從而允許過程被實施於相較於被不同地部署的電腦能處理的資料集而顯著地更大的資料集,且增加在執行期間從部分失效處復原的可能性。在一些實施例中,反映出社群媒體平臺的使用者之間的關係的資料集可被分割為離散分段,一或更多個權力性迭代(power iteration)演算法可藉由映射程序被應用於每一個分段,且一
或更多個簡化程序可合併所產生的結果,以決定在使用者的整體社區內有影響力的使用者。
無論採用特定的教育技術為何,可計算出指示著一或更多個使用者的影響性的值。圖2顯示出分析的範例,分析可被實施以決定針對社群媒體平臺的一或更多個使用者的影響性及其他分數。
圖2顯示出做法,以決定出指示著社群媒體平臺的一或更多個使用者的影響性的值。圖2是處理法(processing)的功能方塊圖,以實現對訊息的記錄之分析技術,例如從(圖1B)資料庫152可得到的訊息的記錄。
在圖2中描繪的處理法可被實施於任何合適的計算(或複數)裝置。在一些實施例中,實施圖2的分析的處理法可被實施於多個計算裝置。利用映射簡化基元(primitive),該些裝置可被程式化,使得部分的分析被平行式實施於多個計算裝置中。
在圖2的範例中,處理法開始於記錄210。記錄210可為關於在社群媒體平臺中通訊的訊息的電腦化(computerized)資訊儲存庫。作為範例,該些訊息可為透過TWITTER社群媒體平臺通訊的推。但是,該些訊息可為在FACEBOOK社群媒體平臺中的貼文,或任何其他合適的訊息種類或種類之組合。
在該範例中,可處理記錄210以產生一或更多個經處理記錄,用於進一步分析。在該範例中,起初處理記錄210
於特徵萃取(feature extraction)程序212中。在特徵萃取程序212中,存取包括在相關的時段(time interval)所發送的訊息的紀錄檔案。相關的時段可取決於待實施分析的本質及/或在記錄檔案中的資料量。例如,在一些實施例中記錄檔案可被產生以涵蓋週期間隔,例如小時或天。針對在該些時段的分析,可處理整體的記錄檔案。在其他實施例中,可實施分析以支持趨勢的識別。在彼等實施例中,可重複地實施分析於與在記錄檔案中所包括的較短間隔相關的訊息資料。例如,記錄檔案可包括在一整天內所發送的訊息的記載,但是可分析資料為24個分開的區塊,每一者代表在一小時內所發送的訊息。很快地,從記錄210所分析的資料量對於本發明不是關鍵。
可實施任何合適的處理法作為程序212的一部分。在一些實施例中,可實施特徵萃取以抑制訊息的重複記錄。其他處理法可從訊息萃取資訊。在一些實施例中,可維護經萃取資訊,而不是訊息的原始內容。
經萃取資訊,舉例而言,可指示訊息的主題。可以任何合適的方式來萃取主題,例如藉由在訊息中指示出與感興趣的主題相關的一或更多個字或其他符號。在一些實施例中,由實施圖2的處理法的分析系統的使用者可預先定義感興趣的主題。在該種情況下,可預先定義與感興趣的主題相關聯的符號。然而在其他情況下,可使用叢集式(clustering)分析或其他做法來識別在記錄210的訊息中所反映的主題。
在一些實施例中,可丟棄未具經識別主題的訊息作
為特徵萃取程序212的一部分。可替代地或附加地使用其他準則來排除訊息於進一步處理之外。
針對未被排除的訊息,可萃取每一個訊息的情緒指示。可藉由解析(parse)每一個訊息的內容成為個別術語或其他符號且計數(count)反映出正面或負面情緒的符號數目來決定情緒。在一些實施例中,表達情緒的術語可為普遍適用的或事先預知的。例如像是「喜歡」、「想要」、「不喜歡」、「可怕」的術語可為已知,以各別地指示出正面或負面情緒,且可程式化於實現圖2的處理法的系統。
無論被認為反映情緒的特定符號如何,在一些實施例中,可從反映出正面情緒的符號數目中減去反映出負面情緒的符號數目。所得到的數目可被表示為頻率次數(frequency)且可被用於訊息的情緒指示符。該種數目可指示關於訊息的主題的正面、負面或中性情緒。
在此處使用的範例中,訊息是相對地簡短的。可藉由假設每一個訊息相關於單個主題來簡化處理法。因此,指示出情緒的經識別術語可全被假設相關於主題。不過,應當理解的是在一些實施例中(例如當較長的訊息被處理時),可實施附加的處理法來識別指示出相關於主題的情緒的符號。
圖3顯示出可利用特徵萃取所推導出的經處理推記錄300。應當理解的是圖3是在特徵萃取程序212之後保留的資訊的概念草圖。不過,可萃取和被保留任何合適的資訊,用於進一步處理。同樣地,可以任何合適的方式來儲存經保留資訊於電腦可讀取儲存媒體上。
在圖3的範例中,用於進一步處理法所保留的每一個獨特訊息被反映為在推記錄300的資料庫中的一列。在該範例中,顯示出列310A、310B、310C和310D。但是,應當理解的是為簡單起見而僅顯示出四列,並且在實際系統中,可保留遠多於四個訊息在特徵萃取程序212之後。
在該個範例中,保留關於每一個訊息的經萃取資訊的五樣種類。儲存資訊的每一樣種類於在推記錄300中的分別欄位。把列310A作為列310A、310B、310C、310D等的代表顯示,而顯示出欄位322、324、326、328、330。
在該個範例中,欄位322包括使用者的識別符,使用者已發送關於何種資料被保留在列中的訊息。欄位324包括訊息種類的指示。例如,可利用風行於TWITTER社群媒體平臺的術語來分類訊息為,例如,原始推、再推、提及或對話式推。
欄位326可包括針對訊息所偵測的主題的指示。可利用關鍵字或其他合適的技術(如上所述)來識別主題。欄位328可包括訊息的情緒的指示。情緒也可如上所述般或利用任何其他合適的技術而被推導出。在該範例中,情緒可為正數、負數或零來代表正面、負面或中性情緒。
可替代地或附加地儲存用於如此處所述的分析的其他資訊於記錄300。在該範例中,欄位330儲存關於其他使用者在訊息中所提及的資訊。不過,應當理解的是可以任何合適的方式來得到該種資訊。
在圖2所顯示的實施例中,可輸出記錄300為交易
(transaction)資料222。該種資料可用於權威性識別程序224。由特徵萃取處理法212可替代地或附加地產生其他資料。
在圖2的範例中,權力性迭代處理法222使用再推圖資料220。
再推圖資料220可透過社群媒體平臺使用者的網路指示出訊息傳播。在圖1A和1B的範例中,例如,從使用者110A向使用者110D在110C發送訊息170。再推訊息170為向使用者110B所發送的訊息172。該再推可被反映於再推圖資料220中,以鏈接(link)使用者110A發送的訊息170與使用者110B接收的再推172。如果經再推訊息172被進一步再推,則附加的再推也可被鏈接回原始訊息170及原始發送人使用者110A。
其他使用者發送或轉發的其他資料同樣地可被反映於再推圖資料220。可藉由特徵萃取處理法212或以任何其他合適的方式來產生再推圖資料220。可藉由處理在記錄210中的訊息來從最舊到最新識別出該些訊息,在原始訊息和再推之間做區分。不過,以任何合適的方式,例如包括利用本領域所習知的處理法,可產生再推圖資料220。
在一些實施例中,由於未來萃取處理法212,所以反映於再推圖資料220的訊息可被限制於一或更多個感興趣的主題。不過,在其他實施例中,再推圖可基於在一段時間內發送的訊息或基於任何其他合適的準則而被選擇。
無論由特徵萃取處理法212所產生的資料的數量和本質如何,可使用資料來計算一或更多個分數,分數可分開
地或組合指示出一或更多個使用者的影響性。在圖2所顯示的範例中,可針對社群媒體平臺的一些或全部使用者使用記錄210的資訊來計算兩個分數。在該範例中,透過權威性識別處理法224計算出權威性分數。透過權力性迭代處理法222計算出權力性分數。該兩個分數然後可被使用來作為影響性組成處理法230的一部分以產生整體影響性分數240。權威性分數和權力性分數之一者或兩者可為主題式的,意味著針對相同使用者可基於相對於不同主題的他們的權力性或權威性來提供不同分數。其結果,影響性分數240也可為主題式的。本案發明人已認識並理解到主題式的影響性分數可更準確地反映出社群媒體平臺使用者的影響性,且針對市場調查、行銷或其他目的可因此提供用於選擇社群媒體平臺的有影響性使用者的更準確機制。
在該範例中,針對使用者的權力性分數是其他使用者數目的指示,由那使用者所發送的訊息歷史上抵達到該等其他使用者。越多次數的再推由使用者所發送的訊息,那使用者的權力性分數可越高。使用者的權威性分數可反映出使用者被視為權威的程度。可從社群媒體平臺其他使用者的一或更多個行為來推斷使用者的權威性,包括使用者的訊息被再推或由彼等其他使用者在訊息中提及到使用者的次數。可使用任何合適的方式來計算該些分數,其範例提供如下。
在計算權威性分數中,可計算複數個量測值。該些量測值可包括主題信號(topical signal)、再推影響性、提及影
響性和網路分數量測值。在一些實施例中,可從推記錄計算出(例如圖2的記錄210)該些量測值中之每一者,該些量測值中之每一者為未處理形式或經處理形式的二者之一,例如由交易資料222所代表的。在所顯示的實施例中,可從在記錄中的項目計數來計算該些量測值的每一者。
計數可包括,舉例而言,下列項目中的一或更多者:相關於主題的使用者發出的推數目;相關於主題的使用者發出的再推數目;由使用者發出的推和再推總數;相關於主題的在其他使用者的再推中的使用者提及數目;相關於主題的在再推中提及使用者的其他使用者數目;相關於主題的在推中由使用者對其他使用者提及數目;相關於主題的在推中由使用者所提及的其他使用者數目;相關於主題的在推中由其他使用者對使用者提及數目;相關於主題的在推中提及使用者的其他使用者數目;使用者的關注者數目;及/或關注使用者的其他使用者的數目。可簡單地計算出該種計數。此外,可彼此獨立地計算出該種計數,以便可以分開的程序來計算每一個計數。其結果,可實施決定計數之處理法於兩個或更多個平行處理器中,且每一個處理器計算出計數之一或更多者。
該些計數然後可被用來計算量測值,其進而可被用於計算權威性分數。計算量測值中之每一者之處理法的範例提供如下。
針對感興趣的特定主題可定義「主題信號」為:TS=OT1/(NT-RT1),其中:
OT1:相對於主題的作者所發送的推數目
RT1:相對於主題的作者所再推的再推數目
NT:作者所發送的推和再推總數,如果作者所發送的所有推是相對於該主題,其將為OT1+RT1,否則將為NT=max(OT1+RT1,MISC-MXSC+1),其中MISC和MXSC分別是最小狀態(minimal status)計數和最大狀態(maximal status)計數,其交待出針對所有主題使用者所發送的推總數。
應當注意到的是「主題信號」針對不同主題可有著不同值,使得針對每一個感興趣的主題可實施一次此處所描述的分析。也應當注意到的是「主題信號」針對分析的不同階段可有著不同定義。例如,在計算Power Score中,如下所述,可定義Topical Signal為TS=(OT1+CT1+RT1)/NT,其中CT1是談話式推數目。不受限於任何特定理論,因為本案發明人理論上認為談話式對於權威性分數計算量有可忽略的連結但被用來過濾出非權威性使用者,所以CT1不用於該計算權威性分數實施例。另外,用來計算權威性分數的主題信號定義更注重於原始推。容易見到的是不管使用者發送多少再推,如果OT1=0則TS=0。針對計算量的不同階段其他量測值可替代地或附加地有著不同定義。定義的網路分數(NS)也可為不同的。如針對計算權威性分數所定義,不對關注者圖或任何其他資料來源具相依性而從推記錄可以直接地計算NS。
不過,應當理解的是權威性分數的一些或全部定義可替代地或附加地被應用於計算的其他階段。例如,如上所提出的RT1和RT3定義可被應用來與下面的計算Power Score
結合。該種做法,舉例而言可導致使用更可實現的概念的更具體的Retweet Impact計算,而沒有相依於再推序列(sequence)或時間標記(timestamp)的計數。但是,該特定定義對於本發明不是關鍵。
依據公式:RI=RT2.log(RT3),可計算出Retweet Impact,其中
RT2:相對於主題的來自其他人再推的作者提及數目
RT3:相對於主題的在再推中提及作者的其他使用者數目
依據公式:MI=M3.log(M4)-M1.log(M2),可計算出Mention Impact,其中
M1:相對於主題的由作者發出的其他人的提及數目
M2:相對於主題的由作者提及的其他人數目
M3:相對於主題的由其他人發出的提及數目
M4:相對於主題的提及作者的其他人的數目
依據公式:NS=log(G1+1)-log(G2+1),可計算出Network Score,其中
G1:相對於主題的在作者後再推的主題積極再推使用者數目。
G2:相對於主題的在作者前再推的主題積極再推使用者數目。
該些量測值,當針對使用者計算時,可被視為使用者的「特徵」。在一些實施例中,可基於在群體內的使用者與其他使用者的特徵相比較而針對使用者來計算出權威性分數,例如在社群網路內的使用者人口或社群媒體平臺的使用者一般人口。在一些實施例中,彼比較係可基於考慮中的使用者人口內的彼使用者排名。
為簡化計算,排名可基於針對群組使用者的累積分布函數(cumulative distribution function)模型來近似。對應於針對使用者的特徵值的累積分布函數值可指示出使用者排名。在一實施例中,其中使用多個特徵來特性化每個使用者,累積分布函數可為多個特徵的多元函數(multivariate function)。不過,進一步簡化可為把多元累積分布函數表示為單變數函數(single variable function)的組合,每一個單變數函數對應於一個特徵。例如,多元累積分布函數可被模型化為多個單變數函數的乘積。
作為特定範例,針對具有相對於主題的如上特徵的使用者,可基於在相關人口內的在特徵值分布內的彼使用者的特徵排名來計算出主題權威性分數。例如,主題權威性分數可為下列的常態(normal)或高斯(Gaussian)累積分布函數(CDF)之值:
其中:
N(x;μ f ,σ f ):常態或高斯機率密度函數(probability density function),其基於針對相關特徵值的人口統計而被計算出。
TS、RI、MI和NS分別是Topical Signal、Retweet Impact、Mention Impact和Network Score,其如上所定義的。
μ f :相對於主題的針對所有使用者的特徵f的平均值(mean value)
σ f :相對於主題的針對所有使用者的特徵f的標準差
(SD)
w f :分配到特徵f的權重(weight),其針對所有主題和所有使用者為一常數
在一些實施例中,主題權威性分數可被計算於多個處理器上,且該種計算量可被分配於使用MapReduce(M-R)演算法的處理器之間。在一些實施例中,M-R演算法可包括兩個M-R程序。但,值得一提的是在該些程序之前,可有前端預先程序,其轉譯每一個Twitter原始的記錄記錄器(raw log record)為Tweet Full Data物件,且移除多餘的記錄記錄器。這樣做,由每一個中間軟體元件(例如個別演算法)所吸收的輸入資料集可為貴重的而無重複。下列小節介紹偽程式碼(pseudo-code)以描述Feature Extraction及Authority Computation MapReduce基元。有兩個運算子使用於程式碼←:分配運算子-分配右側(RH)值到左側(LH)變數←+:加法運算子-把物件加入映射包括器,如下所述。
附加的計算步驟,例如使用者值的合併、使用者值到權威性量測值的轉換、平均和標準差的計算、及累積量函數的實現分開地如下所述,以保持內容的簡潔與集中。
1: class Topic User key
2: member topic
3: member uid - user id
1: class Topic User Value
2: member OT1 - original tweet count
3: member RT1 - retweet count
5: member misc - min status count
6: member mxsc - max status count
8: member mu1 - map for users mentioned by this user
9: member mu2 - map for users retweet followed by this user
10: member mu3 - map for users retweet mentioned by this user
11: member mu4 - map for users mentioning this user
12: member mu5 - map for users retweet following this user
13: member mu6 - map for users retweet mentioning this user
Input: set of pairs (tweet key, tweed full data)
Output: set of pairs (topic user key, topic user value)
1: class Feature Extraction Mapper
2: create user key object k
3: create a user map object u (with entry<user id, user value>)
3: method map(tweet full data x)
4: create topic user value object v
5: u ←+(x.userId, v)
5: if x is retweet
7: v.RT1 ← 1
8: for each uid in the list of users retweeted followed
9: v.mu2 ←+(uid, 1)
10: create a topic user value t
10: t.uid ← uid
11: t.mu5 ←+(x.userId, 1)
12: u ←+(uid, t)
13: for each uid in the list of users retweeted mentioned
14: v.mu3 ←+(uid, 1)
15: create a topic user value t
16: t.uid ← uid
17: t.mu6 ←+(x.userId, 1)
18: u ←+(uid, t)
18: else
19: v.OT1 ← 1
20: for each uid in the list of users mentioned
21: v.mu1 ←+(uid, 1)
22: create a topic user value t
23: t.uid ← uid
24: t.mu4 ←+(x.userId, 1)
25: u ←+(uid, t)
26: for each topic in the list of topics w.r.t this tweet
27: k.topic ← topic
27: for each entry e in the map u
28: k.uid ← e.key
29: emit(k, e.value)
30: clear u
1: class Authority Metrics
2: member count - used for user count with respect to the topic
3: member ts - topical signal
4: member ri - retweet impact
5: member mi - mention impact
6: member ns - network score
7: member ts2 - standard deviation value with respect to TS feature
8: member ri2 - standard deviation value with respect to RI feature
9: member mi2 - standard deviation value with respect to MI feature
10: member ns2 - standard deviation value with respect to NS feature
Input: set of pairs (topic user key, list of topic user values)
Output: set of pairs (topic user key, authority metrics)
1: class Feature Extraction Reducer
2: create authority metrics z accumulating metrics with respect to a topic
3: create authority metrics m as the emit value
4: create user value y for merge instances with respect to a user
5: create topic user key kz for z
6: method reduce(topic user key k, list of user values xs)
7: if kz.topic = null
8: kz.topic ← k.topic
9: kz.uid ← empty string
10: else if kz.topic ≠ k.topic
11: compute topic mean and SD using z, and store result to z
12: emit (kz, z)
13: kz.topic ← k.topic
14: clear z
15: z.count ← z.count + 1
16: for each x in xs
17: merge user value y with x and store result to y
18: compute metrics using y and store the result to m
19: accumulate m with z and store the result to z
20: emit(k, m)
21: clear y
22: method cleaup( )
23: average(z)
24: emit(kz, z)
在該階段,我們不需實現映射器(mapper),但,使用預設映射器類別,其將吸收每一對鍵-值(key-value;即,在本例中,主題使用者鍵-權威性量測值)且把它發出到簡化器(reducer)。但是,針對主題使用者鍵我們確實需要特定群組鍵分割器和特定群組鍵比較器,使得相對於一個特定主題的所有使用者將被發送到相同簡化器例(instance)作為不可分開的群組且藉由第二鍵(使用者ID)來排序。同樣,保證每一個簡化器例將可以一個接一個地處理使用者主題集合且針對每一個主題第一個(簡化器例)實際上是平均和標準差值物件,因為我們在先前的M-R程序中故意地設定次要鍵值(主題使用者鍵的uid)為空。可針對該些作業來應用每一個MapReduce
架構的標準功能。不過,可以任何合適的方式來實施該些作業。
Input: set of pair (topical user key, authority metrics)
Output: set of pair (topic, (user id, authority score))
1: class Authority Computation Reducer
2: load weight vector w from configuration properties
2: method reduce(topic user key k, list of authority metrics ms)
4: μ ←
5: σ ←
6: for each m in ms
7: if μ =
8: μ ← the mean vector stored in m
9: σ ← the standard deviation vector stored in m
11: else
12: pvale ← Gaussian CDF(m; μ; σ,w )
13: emit(k.topic, (k.uid, pvalue))
高斯CDF是一個標準數學函數且可為使用從任何合適的來源(包括Microsoft Infer.NET函數庫)所得到的程式的計算。
轉到圖4,顯示出實現針對複數個使用者中之每一者來計算權威性分數的處理法的方法400。程序400顯示出包括多個子程序,其中每一個可被實施於分開的處理器上,允許權威性分數被平行式計算。不過,應當被理解的是(在一些實施例中)在方法400中所顯示的子程序中之每一者不必被實
施於分開的計算裝置上。在一些實施例中,單個計算裝置或單個處理器可實施對方法400所顯示的子程序之多者。替代地或另外,在一些實施例中,子程序可被實施於多個計算裝置或處理器上。
在該範例中,處理法開始於多個子程序4101到410N。可針對社群媒體平臺的不同使用者來實施每一個子程序4101到410N。應當理解的是可針對社群媒體平臺的使用者子集合來實施處理法,使得不必針對所有使用者來實施子程序。儘管如此,一旦識別出相關使用者子集合,處理法可需要針對在子集合中的使用者中之每一者之子程序。
在所顯示的實施例中,實施相似處理法於子程序4101到410N中之每一者。因此,在子程序4101中的處理法可表示在其他子程序中的處理法,且為簡化(的目的)而僅描述子程序4101。
在子程序4101中,在迴圈(loop)開始412處啟動關於訊息記錄的迴圈。關於已經處理的記錄可實施該處理法,例如交易資料222(圖2)或其他合適的資料儲存。在該範例中,針對在相關於使用者的記錄中的每一個項目來實施迴圈。在該子程序中,決定出計數,其可為如上所述的計數。因此,相關於使用者的記錄項目可需要描述被彼使用者發送或被使用者接收之訊息的項目。替代地或另外,計數可相關於再推,使得相關於使用者的記錄項目包括使用者訊息或提及使用者的訊息的再推。
針對待處理的來自記錄的每一個訊息,實施迴圈迭
代。在每一次迭代中,處理法進入方塊414,其中基於在迴圈迭代中處理的訊息來更新計數。被更新的特定計數可取決於正在執行的特定演算法。但是,由於在方塊414的處理法而可更新如上所述的計數,或任何其他合適的計數。
在基於訊息來更新計數之後,處理法可進入決策方塊416,其中子程序可分支。如果更多的記錄項目保持待處理,則處理法可迴圈回到迴圈開始412。這樣一來,處理法可繼續進行直到相關於使用者的所有項目被處理。當沒有進一步記錄項目保持待處理時,處理法可進入子程序420。
當完成所有子程序4101到410N時,可執行子程序420。在子程序420中,在子程序4101到410N中之每一者中計算的計數可被結合來產生可跨使用者子集合應用的計數。替代地或另外,可針對群組來計算統計。該些統計可為直接地基於計數。不過,在一些實施例中,統計可為基於從計數計算出的量測值。該處理法可為如上所述或可以任何其他合適的方式來實施。
利用在子程序420中所計算出的群組統計,方法400可繼續至子程序4301到430M。在子程序4301到430M之每一者中,可針對在第二子集合的每一個使用者來計算權威性分數。在一些實施例中,計算權威性分數的使用者第二子集合可相同於計算計數的使用者子集合。但是,在一些實施例中,可針對(不同於計算計數的)使用者子集合來計算權威性分數。
可以任何合適的方式來計算在子程序4301到430M中所計算出的權威性分數,包括使用如上所述的技術。
可以任何合適的方式得到針對使用者的權力性分數。用於識別有影響力使用者的技術可涉及實施被稱為「權力性迭代」的程序。習知電腦程式技藝之人可認識到權力性迭代是識別出表現出特定特性的人口成員的已知做法。例如,線上搜尋引擎運用權力性迭代技術來決定要呈現給使用者的頁面之順序,頁面係藉由搜尋查詢所回傳。可應用該種權力性迭代技術來識別一或更多個社群網路的使用者,該等使用者在使用者社區內是有影響力的。
在一些實施例中,可決定從一或更多個其他使用者對每一個使用者的權力性分數貢獻度。可以任一的多種方式中來實施此(作法)。在運用映射-簡化架構的實施例中,一或更多個映射程序可在人口的離散分段內計算出從一或更多個其他使用者對特定使用者的貢獻度。
在一些實施例中,使用者從其他社區成員接收權力性分數貢獻度,該等成員已再推任一的使用者訊息。可決定哪些使用者已再推其他使用者訊息以形成再推圖。
因此,可實施權力性迭代於再推圖中,其被公式化為
其中:
t i -待被評估的使用者。
R(t i )-針對使用者的RetweetRank。
N-基數(cardinality;唯一推特使用者數目)。
d-阻尼因數(damping factor),其可為任何合適的值且在一些實施例中被設定為等於0.15。
Retweet(t i )-在使用者t i 之後,已再推的使用者。
Retweeted(t j )-在使用者t j 已再推之後的使用者。
w(t j ,t i )-針對在再推圖中邊t j →t i 的權重。
定義主題知識性分數為權重式高斯CDF的乘積,以實現排名演算法,如上與權威性分數計算結合所述。
其中
N(x;μ f ,σ f )-針對特徵f的常態分布密度函數
μ f -相對於特徵f的所有主題作者的平均
σ f -相對於特徵f的所有主題作者的標準差
TS-Topical Signal=OT1+CT1+RT1/|#tweets|
OT1:相對於主題的作者發送的原始推數目
CT1:相對於主題的作者發送的談話式推數目
RT1:相對於主題的作者發送的再推數目
|#tweets|:在考慮期間作者發送的針對所有主題的推總數
RI-Retweet Impact=RT2.log(RT3)
RT2:相對於主題的提及作者的再推提及數目
RT3:相對於主題的提及作者的使用者再推數目
MI-Mention Impact=M3.log(M4)-M1.log(M2)
M1:相對於主題的由作者發出的其他人提及數目
M2:相對於主題的由作者提及的其他人數目
M3:相對於主題的由其他人發出的提及數目
M4:相對於主題的提及作者的其他人數目
NS-Network Score=log(G1+1)-log(G2+1)
G1:使用者的關注者計數
G2:使用者的朋友計數
針對相對於主題的沒有推、再推、或談話式推的每一個使用者,我們定義基本知識性分數(即,平滑因數(smoothed factor))α>0為如下
其中U t 是相對於主題t的使用者集合。
Topical Sentiment計數器(counter)可為相對於主題的由使用者所發送的正面推數目、相對於主題的由使用者所發送的中性推數目和相對於主題的由使用者所發送的負面推數目。可給予符號於任一或所有分數,不論正的或負的,以指示主題的淨(net)正面或淨負面情緒,如果需要,或該些計數器可用於任何其他合適的用途以提供關於相對於主題的使用者權威性的附加資訊。計數器可用於(舉例而言)與分數結合以識別使用者,其在主題的支持、反對或提供非偏頗評論是有影響性的。
在一些實施例中,可從權力性分數和權威性分數來計算主題使用者影響性分數。在一些實施例中,主題使用者影響性分數可正比於該些分數的乘積,且可針對相對於主題
的給定使用者t i 而依據公式:TUIS=R(t i )×AS(t i )來計算主題使用者影響性分數,其中針對使用者t i ,R(t i )是主題權力性分數且AS(t i )是主題權威性分數。如果使用者的情緒計數之總和是正的,則針對給定使用者的主題影響性是正面,反之,如果總和是負的,則它將會是負面,或如果總和是零,則為中性。
不過,在一些實施例中,可用平滑因數來計算主題使用者影響性分數,使得針對權威性分數和權力性分數中之一者為零值(zero value)將不導致影響性分數為零(如果權威性分數和權力性分數中之另一者為非零)。在一些實施例中,平滑因數是使得影響性分數可為非零,即使權威性分數為零值亦如此。作為特定範例,可依據公式:Smoothed Topical Impact Score=Log(R(t i )* AS(t i ))來計算平滑式(smoothed)影響性分數。在其他實施例中,可依據公式:Smoothed Topical Impact Score=R(t i )* Log(AS(t i ))來計算平滑式影響性分數。
無論用於計算主題影響性分數及/或權威性分數的特定公式如何,所計算的分數可用於選擇一或更多個使用者(基於他們的影響性)。舉例而言,可作該種選擇以聯絡相對於主題的具有高影響性或重要權威性的使用者。可針對在本領域已知的理由來實施該種聯絡,包括從權威使用者得到資訊或所得到的背書或對該種使用者的直接行銷。可藉由自動化程序來作使用者的選擇。也可自動化使用者的聯絡。
但是,在一些實施例中,分析者(例如分析者156(圖2A))可有理由以人工地分析使用者的影響性。因此,計算裝
置(例如計算裝置154或任何其他合適的裝置)可呈現圖形化使用者介面,透過圖形化使用者介面分析者可與如此處所述而計算出的主題分數互動。
圖5A顯示出用於描繪主題分數的示例性圖形化使用者介面510。可利用如在本領域已知的電腦程式技術來呈現圖形化使用者介面510。圖形化使用者介面的呈現可包括呈現控制(control),透過控制分析者可輸入資料或選擇計算裝置的操作參數以呈現圖形化使用者介面510。
在該範例中,圖形化使用者介面510包括輸入欄位512,透過輸入欄位分析者可指定關於待實施使用者分析的主題。在該範例中,由分析者已用詞語「Microsoft」完成輸入欄位512,象徵的是分析者想要基於他們發送而相關於Microsoft的訊息的影響性來識別社群媒體平臺的使用者。該種作法可為有幫助的,例如來識別主題以測試出新產品。不過,應當理解的是用於實施分析的特定理由不是對本發明的限制。
圖形化使用者介面510可包括針對輸入區域的其他控制,透過輸入區域分析者可定義由分析識別的使用者的參數。在該範例中,圖形化使用者介面510也包括篩選區域514。透過篩選區域514,分析者可識別分析上的參數。例如,分析者可指定開始日期和結束日期。該些參數值可決定來自推記錄的哪些訊息是用於計算指示影響性的分數。作為另一個範例,分析者可指示哪些情緒將被包括於分析中。在該範例中,篩選區域514包括核選框控制(checkbox control),透過
核選框控制使用者可指示不論正面、中性及/或負面情緒將被包括於分析中。基於透過該些核選框所作的選擇,所分析的訊息可被篩選以僅包括相對於特定主題的具有指定情緒的訊息。
無論分析者輸入的特定篩選條件為何,達到指定條件的任何訊息可被處理來產生如在圖形化使用者介面510顯示出的影響性圖(impact graph)。計算器其影響性分數之每一個使用者可被代表為在影響性圖上的一點(point)。在該範例中,影響性圖有針對知識性分數的軸516和針對權力性分數的軸518。在影響性圖上沿著由知識性分數所決定的軸516的一位置可代表每一個使用者,知識性分數在該範例中可為相同於或源自於權力性分數(如上所述)。在影響性圖上沿著由權力性分數所決定的軸518的一位置可代表每一個使用者。
在該範例中,藉由點520所代表的使用者具有知識性分數些微超過80及權力性分數大約為90。藉由圖上的其他點來代表有著不同知識性和權力性分數的其他使用者。
基於針對可選擇主題所形成的影響性圖來描繪使用者允許分析者識別具有理想特徵的使用者。在一些情況下,可優選具有較大權力性的使用者。在其他情況下,可優選具有較大知識性的使用者。在又其他情況下,可優選具有重要權力性和知識性二者的使用者。所顯示出的在影響性圖上呈現使用者允許分析者選擇具有期望影響性特徵的使用者。
在顯示出的實施例中,在影響性圖上代表使用者的點也可作為控制。當分析者在影響性圖上選擇一點時,呈現
圖形化使用者介面的計算裝置可提供有關與點相關聯的使用者的資訊。
在一些實施例中,提供有關所選擇使用者的附加資訊可需要呈現替代圖形化使用者介面。例如,可呈現如圖5B所顯示出的圖形化使用者介面550。圖形化使用者介面550呈現有關單個使用者的資訊。不過,圖形化使用者介面550包括控制區域556,透過控制區域分析者可選擇不同使用者。在圖5B所顯示出的情況下,由圖標558所代表的使用者已被選擇。針對其他使用者的圖標被顯示於控制區域556中,其允許分析者選擇其他使用者。當選擇另一個使用者時,展示於圖形化使用者介面550中的資訊可改變,使得關於所選擇使用者的資訊被展示來代替有關由圖標558所代表的使用者的資訊。
可描繪關於所選擇使用者的任何合適的資訊。在該範例中,相對於主題的關於使用者影響性的資訊以圖像呈現。在本例中,使用者影響性被描繪為時間的函數。在圖5B的該特定範例中,影響性被顯示為具有指示時段的軸562的圖。任何合適的時間增加量(increment;例如分、時或天)可被反映於軸562上。
軸560反映影響性分數的大小。在圖5B所顯示出的情況下,圖包括代表針對知識性分數的資料集合的曲線564。圖也包括權力性分數的軸566。在該範例中,相對於相同主題和對相同時間增加量來計算知識性分數和權力性分數。
可以任何合適的方式來實施在圖形化使用者介面
550和圖形化使用者介面510中軸的比例。在一些實施例中,舉例而言,當針對多個使用者之每一者來計算知識性和權力性分數時,最高分數可被識別出且在軸560上被任意縮放為等於1,000。其他分數值可被按比例地縮放。不過,應當理解的是描繪值的特定比例對於本發明不是關鍵。
可呈現關於所選擇使用者的資訊(代替或附加於時變圖)。在圖5B的範例中,圖形化使用者介面550包括以文字格式而提供有關所選擇使用者的附加資訊的展示區域570。在該範例中,展示區域570包括資訊像是姓名和使用者所在地。另外,可提供關於社群媒體平臺使用情況的統計。在該範例中,圖形化使用者介面550指示出呈現其資訊的使用者具有4,523位關注者和286位朋友。另外,也顯示展示出有關由使用者所發送的訊息的數目的資訊。在該範例中,彼等數目包括用於計算使用者分數的訊息的總數、在資料正被展示的當前時段所發送的訊息的數目、及每時段的訊息的平均數目。
在本例中提供有關其數目的訊息,訊息可為相關於所選擇主題的訊息。該些數目也可用於計算一些間隔上的權力性及/或知識性分數,間隔在該範例中可為在軸562上所描繪的整個間隔。在該範例中,圖形化使用者介面550在展示區域570中描繪出85的權力性分數和45的知識性分數。結合該些分數,也可提供情緒的指示。在該範例中,利用大拇指豎起圖標(指示關於主題的正面情緒)或大拇指朝下圖標(指示關於主題的負面情緒)來提供情緒。
作為另一個範例的訊息種類,其被包括於圖形化使用者介面中以提供有關所選擇使用者的資訊,可提供控制區域572。透過圖形化使用者介面550與電腦系統互動的分析者可使用控制區域來選擇不同主題。選擇不同主題後,基於合適於新選擇主題的主題式的分數,呈現圖形化使用者介面550的電腦系統可包括針對使用者的不同資訊。基於所選擇主題來相似地選擇用於展示的其它資料。可以任何合適的方式得到該資訊,包括再計算資訊或存取先前計算的資訊的儲存庫。
藉由與使用者介面的互動,例如圖形化使用者介面510和550,而分析者可得到與相對於主題的使用者的影響性相關的資訊。該資訊可用於任何合適的用途,包括用於市場調查及/或聯絡基於分數來選擇的使用者,該種聯絡可需要發送商業訊息。不過,應當理解的是相似分析可為部分地或全部地自動化。
無論有關社群媒體平臺的使用者影響性的資訊是於何種方式使用,此處所述的技術允許以準確的方式來計算資訊且被簡單地而快速地計算,可能藉由使用多個平行處理器來計算。
該節針對計算權威性量測值和權威性分數而給予用於MapReduce演算法的自訂(custom)函數實現的附加細節。該些函數被描述為偽程式碼,如下所列:
Accumulation of two authority metrics objects
1: method accumulate(authority metrics a, authority metrics b)
2: a.ts ← a.ts + b.ts
3: a.ri ← a.ri + b.ri
4: a.mi ← a.mi + b.mi
5: a.ns ← a.ns + b.ns
6: a.ts2 ← b.ts * b.ts
7: a.ri2 ← b.ri * b.ri
8: a.mi2 ← b.mi * b.mi
9: a.ns2 ← b.ns * b.ns
Average function to compute mean and standard deviation vectors
1: method average(authority metrics a)
2: a.ts = a.ts / a.count
3: a.ri = a.ri / a.count
4: a.mi = a.mi / a.count
5: a.ns = a.ns / a.count
6: if a.count > 1
7:
8:
9:
10:
11: else
12:
13:
14:
15:
Compute authority metrics using given topic user value object
1: method computeMetrics(topic user value v, authority metrics m)
2: size ← max(v.OT1 + v.RT1, v.mxsc - v.misc + 1)
3: m.ts ← (v.OT1 + v.RT1) / size
4: m.ri ← sumFrequency(mu6)*log(mu6.size( ))
5: m.ri ← m.rs - sumFrequency(mu3)*log(mu3.size( ))
6: m.mi ← sumFrequency(mu4)*log(mu4.size)
7: m.mi ← m.mi - sumFrequency(mu1)*log(mu1.size( ))
8: m.ns ← sumFrequency(m4)*log(m4.size( ))
9: m.ns ← m.ns - sumFrequencey(mu2)*log(mu2.size( ))
Merge two topic user value objects
1: method add(topic user value t, topic user value o)
2: t.OT1 ← t.OT1 + o.OT1
3: t.RT1 ← t.RT1 + o.RT1
4: if t.misc > o.misc
5: t.misc ← o.misc
6: if t.mxsc < o.mxsc
7: t.mxsc ← o.mxsc
8: merge(t.mu1, o.mu1)
9: merge(t.mu2, o.mu2)
10: merge(t.mu3, o.mu3)
11: merge(t.mu4, o.mu4)
12: merge(t.mu5, o.mu5)
13: merge(t.mu6, o.mu6)
Merge two user id-frequency map
1: method addAll(map<string, integer> t, map<string, integer> o)
2: for each key in o.keySet
3: if t contains key
4: put (key, t.get(key)+o.get (key)) to t
5: else
6: put (key, o.get(key)) to t
Add (key, value) to a map container, i.e. operator “ ←+”, for user object value
1: method add((topic user id uid, topic user value v), map u)
2: if u contains key uid
3: merge(topic user value u.get(uid), v)
4: else
5: put (uid, v) to u
Add (key, value) to a map container, i.e. operator “ ←+”, for integer value
1: method add((topic user id uid, integer v), map m)
2: if u contains key uid
3: put (uid, v + m.get(uid)) to m
4: else
5: put (uid, v) to m
前述競爭和其他函數可被實現於任何合適的計算(或複數)裝置中。圖6顯示出合適的計算系統環境600的範例,在其上可實現一些或全部的計算及/或此處所述的使用者互動。計算系統環境600僅為合適的計算環境的一個範例且不意圖來暗示有關本發明使用或功能範疇之任何限制。也不應該將計算環境600解釋為有相關於示例性操作環境600中顯示出之任何一個元件或元件之組合的任何相依性或條件。
本發明可與眾多其他通用型或專門型計算系統環境或配置一起操作。可與本發明一起適合使用的廣為人知計算系統、環境、及/或配置的範例包括(但不限於)個人電腦、伺服器電腦、手持或筆記型電腦裝置、多處理器系統、微處理器式系統、機上盒、可程式消費性電子產品、網路PC、迷你電腦、主機電腦、包括任一的上面系統或裝置的分散式(distributed)計算環境、及類似物。
計算環境可執行電腦可執行指令,例如程式模組(program module)。大體而言,程式模組包括常式、程式、物件、元件、資料結構等,其實施特定工作(task)或實現特定抽象資料類型(abstract data type)。本發明也可實踐於分散式計算環境,其中藉由透過通訊網路而鏈結的遠端處理裝置來實施工作。在分散式計算環境中,程式模組可位於本地端和遠端電腦儲存媒體(包括記憶體儲存裝置)二者。
參考圖6,用於實現本發明的示例性系統包括以電腦610形式表現的通用型計算裝置。電腦610的元件可包括(但不限於)處理單元620、系統記憶體630、及耦接各種系統元件(包括系統記憶體)到處理單元620的系統匯流排621。系統匯流排621可為任一的數種匯流排結構,其包括記憶體匯流排或記憶體控制器、週邊匯流排、及使用任一的各種匯流排架構的局部匯流排。以範例的方式,且不限制,該種架構包括Industry Standard Architecture(ISA)匯流排、Micro Channel Architecture(MCA)匯流排、Enhanced ISA(EISA)匯流排、Video Electronics Standards Association(VESA)局部匯流排、
及Peripheral Component Interconnect(PCI)匯流排(也為熟知的Mezzanine匯流排)。
電腦610典型地包括各種電腦可讀取媒體。電腦可讀取媒體可以為任何可用的媒體,其可以藉由電腦610而被存取,且包括揮發性與非揮發性媒體二者、可移動式與不可移動式媒體。以範例的方式,且不限制,電腦可讀取媒體可包含電腦儲存媒體和通訊媒體。電腦儲存媒體包括揮發性與非揮發性二者、可移動式與不可移動式媒體,其以用於資訊儲存(例如電腦可讀取指令、資料結構、程式模組或其他資料)的任何方法或技術而被實現。電腦儲存媒體包括(但不限於)RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光碟儲存、磁匣、磁帶、磁碟儲存或其他磁性儲存裝置,或任何其他儲存媒體,其可以用於儲存所期望資訊且可以由電腦610存取。通訊媒體通常具體化電腦可讀取指令、資料結構、程式模組或在經調變(modulated)資料信號(例如載波或其他傳輸機制)中的其他資料,且包括任何資訊傳送媒體。術語「經調變資料信號」意味著一種信號,它的特徵中之一或更多者以在信號中編碼資訊的方式而已設定或改變。以範例的方式,且不限制,通訊媒體包括有線媒體(例如有線網路或直接有線連結)與無線媒體(例如聲波、RF、紅外線和其他無線媒體)。上面任一者的組合也應被包括於電腦可讀取媒體的範疇內。
系統記憶體630包括以揮發性及/或非揮發性記憶體(例如唯讀記憶體(ROM)631和隨機存取記憶體(RAM)632)形
式表現的電腦儲存媒體。例如在啟動期間,基本輸入/輸出系統633(BIOS)(包括幫助在電腦610內的零件之間傳送資訊的基本常式)係典型地儲存於ROM 631中。RAM 632典型地包括資料及/或程式模組,其係處理單元620立即可存取的及/或目前正由處理單元620操作的。以範例的方式,且不限制,圖6顯示出作業系統634、應用程式635、其他程式模組636、和程式資料637。
電腦610也可包括其他可移動式/不可移動式、揮發性/非揮發性電腦儲存媒體。僅以範例的方式,圖6顯示出硬碟機641(其讀取出或寫入不可移動式、非揮發性磁性媒體)、磁碟機651(其讀取出或寫入可移動式、非揮發性磁性媒體652)、及光碟機655(其讀取出或寫入可移動式、非揮發性光碟656,例如CD ROM或其他光學媒體)。可以用於示例性操作環境的其他可移動式/不可移動式、揮發性/非揮發性電腦儲存媒體包括(但不限於)磁帶卡匣、快閃記憶卡、數位多功能光碟、數位影帶、固態RAM、固態ROM、及類似物。透過不可移動式記憶體介面(例如介面640)硬碟機641典型地被連結於系統匯流排621,且藉由可移動式記憶體介面(例如介面650)磁碟機651和光碟機655典型地被連結於系統匯流排621。
上述討論且在圖6顯示出的磁碟機和它們相關的電腦儲存媒體提供用於電腦610的電腦可讀取指令、資料結構、程式模組和其他資料的儲存。在圖6中,舉例而言,顯示出硬碟機641儲存作業系統644、應用程式645、其他程式模組646、和程式資料647。注意到的是該些元件可以是相同於或
不同於作業系統634、應用程式635、其他程式模組636、和程式資料637。這裡給予作業系統644、應用程式645、其他程式模組646、和程式資料647不同編號以顯示出(最低限度)它們是不同的複製物。透過輸入裝置(例如鍵盤662和指向裝置661,通常被稱為滑鼠、軌跡球或觸控板)使用者可輸入指令和資訊至電腦610。其他輸入裝置(未顯示)可包括麥克風、搖桿、遊戲板、衛星碟、掃描器、或類似物。透過耦接到系統匯流排的使用者輸入介面660該些和其他輸入裝置常常被連結到處理單元620,但可藉由其他介面和匯流排結構(例如平行埠、遊戲埠或通用序列匯流排(USB))所連結。經由介面(例如影像介面690)螢幕691或其他種類展示裝置也被連結到系統匯流排621。除了螢幕,電腦也可包括可透過輸出週邊介面695所連結的其他週邊輸出裝置,例如喇叭697和印表機696。
利用對一或更多個遠端電腦(例如遠端電腦680)的邏輯連結(logical connection),電腦610可操作於聯網環境中。遠端電腦680可為個人電腦、伺服器、路由器、網路PC、同級點裝置或其他常見網路節點,且典型地包括如上相對於電腦610所述的許多或全部零件,即使僅已在圖6顯示出記憶體儲存裝置681。在圖6中描繪的邏輯連結包括區域網路(LAN)671和廣域網路(WAN)673,但也可包括其他網路。該種網路化環境常見於辦公室、企業範圍電腦網路、內部網路和網際網路。
當用於LAN網路化環境時,透過網路介面或轉接器670電腦610被連結到LAN 671。當用於WAN網路化環境時,
電腦610典型地包括數據機672或用於建立通訊於WAN 673上的其他構件,例如網際網路。經由使用者輸入介面660或其他合適機制數據機672(其可為內部的或外部的)可被連結到系統匯流排621。在網路化環境中,相對於電腦610或其一部份所描繪的程式模組可被儲存於遠端記憶體儲存裝置中。以範例的方式,且不限制,圖6顯示出遠端應用程式685為居處在記憶體裝置681上。應當理解的是顯示的網路連結係示例性的,且可使用在電腦之間建立通訊鏈結的其他構件。
至此已描述了本發明至少一個實施例的若干態樣,應當理解的是本領域中彼等熟習此項技藝者將可輕易想到各種改變、修改和改良。
例如,給予分析來自單個社群媒體平臺的資料的範例。TWITTER被用作該種社群媒體平臺的範例。不過,可在由任何社群媒體平臺所發送的訊息上實施此處所述的分析。此外,在一些實施例中,可從利用多個社群媒體平臺所傳送的訊息來收集資訊。可融合該些訊息,舉例而言,藉由簡化它們成通用格式,其識別出訊息、主題和關於主題的情緒的發送人。不過,可以任何合適的方式來融合資訊。
此外,仍提供了分析在單個社群網路內通訊的範例。但是,本發明不受此限制。在一些社群媒體平臺,舉例而言,分配於一個社群網路內的訊息可傳達到其他社群網路。作為特定範例,訊息可由接收者再分配到包括接收者的社群網路成員,且代替地或附加地(訊息)可被導向社群網路之外的其他人。如該種通訊被記錄,它們也可用於分析。作為
特定範例,利用電子郵件推可被轉發到不在具有接收者的社群網路中的使用者,但可考慮該種轉發和在接收者的社群網路內的再推一起為用於計算此處所述的量測值。
該種改變、修改和改良意圖為本揭露之一部分,且意圖為在本發明的精神和範疇內。另外,雖然指示了本發明的優點,應當理解的是,不是本發明的每一個實施例將包括每一個所述的優點。一些實施例無法實現此處所述有利的與在某些情況的下任何特徵。因此,前面的說明和圖僅是以範例的方式表現。
本發明的上述實施例可以數種方式中任一方式來實現。例如,可利用硬體、軟體或其結合來實現實施例。當以軟體實現時,軟體程式碼可被執行於任何合適的處理器或處理器集(collection)上,不論其被提供於單個電腦上還是分配於多個電腦之間。可實現該種處理器為積體電路,而在積體電路元件中具有一或更多個處理器。不過,可利用以任何合適的格式的電路來實現處理器。
另外,應當理解的是電腦可具體為若干形式中任一形式,例如機架式電腦、桌上型電腦、筆記型電腦、或平板電腦。另外,電腦可被嵌入(embed)於裝置(一般不被認為是電腦但具有合適的處理能力),包括個人數位助理(PDA)、智慧型手機或任何其它合適的攜帶式或固定式電子裝置。
還有,電腦可有一或更多個輸入和輸出裝置。該些裝置可用於呈現使用者介面及其他功能。用於提供使用者介面的輸出裝置的範例包括用於視覺呈現輸出的印表機或展示
畫面(display screen)和用於輸出聽覺呈現的喇叭或其他聲音產生裝置。可以用作使用者介面的輸入裝置的範例包括鍵盤和指向裝置,例如滑鼠、觸控板和數位板。作為另一個範例,電腦可透過語音辨識或以其它聲音格式來接收輸入資訊。
可藉由一或更多個任何合適的形式的網路互連(interconnect)該種電腦,網路包括作為區域網路或廣域網路,例如企業網路或網際網路。該種網路可為基於任何合適的技術、且可依據任何合適的協定來操作、且可包括無線網路、有線網路或光纖網路。
還有,此處概述的各種方法或程序可被程式碼化為軟體,軟體可執行於一或更多個處理器上,處理器採用各種作業系統或平臺之任一者。另外,可利用許多合適的程式語言及/或程式或腳本工具中任一者來撰寫該種軟體,且也可編譯(該種軟體)為可執行機器語言程式碼或執行於結構式(framework)或虛擬(virtual)機器的中間程式碼。
在該方面,本發明可具體為編碼有一或更多個程式的電腦可讀取儲存媒體(或多個電腦可讀取媒體)(例如電腦記憶體、一或更多個軟碟、光碟(CD)、光碟、數位影音光碟(DVD)、磁帶、快閃記憶體、在現場可程式化閘陣列或其他半導體裝置中的電路配置、或其他有形體的電腦儲存媒體),當程式執行於一或更多個電腦或其他處理器時,將實施實現如上所述的本發明各種實施例的方法。從前面範例可明顯看出,電腦可讀取儲存媒體可保留資訊足夠的時間以提供在非暫態形式的電腦可執行指令。該種電腦可讀取儲存(或複數)
媒體可為移動式,使得儲存於其上的(或複數)程式可被載入於一或更多個不同電腦或其他處理器以實現如上所述的本發明各種態樣。如此處使用的,術語「電腦可讀取儲存媒體」僅包括可以被認為是製造物(即製造的產品)或機器的電腦可讀取媒體。替代地或另外,本發明可具體化為電腦可讀取儲存媒體(例如傳播信號)以外的電腦可讀取媒體。
此處使用的術語「程式」或「軟體」在一般意義上是指任何電腦程式碼種類或電腦可執行指令集合,其可被採用來程式化電腦或其他處理器以實現如上所述的本發明的各種態樣。另外,應當理解的是依據該實施例的一個態樣,一或更多個電腦程式(當執行時,實施本發明的方法)不必居處在單個電腦或處理器上,但可以模組化的方式被分配於若干不同電腦或處理器中以實現本發明的各種態樣。
電腦可執行指令可為許多形式,例如程式模組,其由一或更多個電腦或其他裝置所執行。通常,程式模組包括常式、程式、物件、元件、資料結構等,其實施特定工作或實現特定抽象資料類型。典型地程式模組的功能可根據所需被結合或被分布在各種實施例中。
還有,可以任何合適的形式來儲存資料結構在電腦可讀取媒體中。為簡化說明,資料結構可被顯示出透過在資料結構中的位置而相關的欄位。該種關係可同樣藉由針對欄位來分配儲存與在傳達出欄位之間關係的電腦可讀取媒體中的位置而完成。但是,可使用任何合適的機制來建立在資料結構欄位中的資訊之間的關係,包括透過使用指標、標籤或
其他機制來在資料元素之間建立關係。
可單獨、結合起來、或在前面描述的實施例中未具體討論的各種安排來使用本發明的各種態樣且因此不限制它的應用於在前面描述中所載或在圖中所顯示的細節或元件安排。例如,可以任何方式結合在一個實施例所描述的態樣與在其他實施例所描述的態樣。
還有,本發明可具體為方法,方法的範例已提供。可以任何合適的方式來排序作為方法之一部份所實施的動作(act)。因此,可建構實施例,在實施例中可實施一種不同於所顯示的順序的動作,實施例可包括同時地(simultaneously)實施一些動作,儘管在說明的實施例中顯示為順序(sequential)動作。
在請求項中使用序數(ordinal)術語例如「第一」、「第二」、「第三」等以修改請求項元素本身並不意味著一個請求項元素超越另一個的任何優先性、先前性、或順序性、或實施方法的動作的時間順序,但僅僅使用為標記以區分具有特定名稱的一個請求項元素與具有相同名稱(但使用序數術語)的另一個元素以區分請求項元素。
還有,此處使用的用語或術語是作為描述的目的且不應被認為是限制。此處使用的「包括」、「包含」或「具有」、「含有」、「涉及」、和其變化意在包括其後列出的項目和其相等物以及附加項目。
210‧‧‧記錄
212‧‧‧程序、特徵萃取、特徵萃取程序、特徵萃取處理法
220‧‧‧再推圖資料
222‧‧‧交易資料、權力性迭代、權力性迭代處理法
224‧‧‧權威性識別、權威性識別程序、權威性識別處理法
230‧‧‧影響性組成、影響性組成處理法
240‧‧‧分數、影響性分數
Claims (20)
- 一種決定一社群媒體平臺的一使用者的權威性(authority)之方法,該方法包含以下步驟:用複數個處理器:處理一訊息記錄(message log)以針對複數個使用者中之每一者來計算至少一個主題量測值(metric);及處理該等主題量測值以針對至少一部份的該等複數個使用者來計算指示出該使用者的權威性的一主題權威性分數,其中,用MapReduce基元來計算該等主題權威性分數。
- 如請求項1所述之方法,其中:沒有一關注者圖而計算針對該等複數個使用者的該等主題量測值。
- 如請求項1所述之方法,其中:從該推記錄直接地計算針對該等複數個使用者的該等主題量測值。
- 如請求項1所述之方法,其中:基於相較於針對該等複數個使用者中之每一者的一對應主題量測值的該至少一個主題量測值的一主題量測值來計算針對一使用者的該主題權威性分數。
- 如請求項4所述之方法,其中:基於在一分布(distribution)內的一排名(rank)來計算針對該使用者的該主題權威性分數,該分布具有從該等複數個使用者的對應主題量測值所推導的統計。
- 如請求項5所述之方法,其中:該分布包含具有從針對該等複數個使用者的對應主題量測值的一平均和標準差所推導的一平均和標準差的一常態分布(normal distribution)。
- 如請求項6所述之方法,其中:該至少一個主題量測值包含複數個主題量測值;針對該等複數個主題量測值中之每一者來計算在一分布內的一排名;及計算該主題權威性分數作為針對該等複數個主題量測值中之每一者的在該等分布內的該等排名的一乘積。
- 如請求項1所述之方法,其中該至少一個主題量測值包含選自由以下組成之群組的至少兩個量測值:一主題信號;一再推影響性;一提及影響性;及/或一網路分數。
- 一種用於決定一社群媒體平臺的一使用者的權威性之系統,該系統包含:複數個處理器,經配置以:存取至少一部分的一訊息記錄;決定在該記錄中的訊息的複數個計數(count),該等計數中之每一者指示達到相關於複數個使用者的一使用者的準則的在記錄中的訊息的一數目;從針對該等複數個使用者中之每一者的該等複數個計數來計算關於一主題的主題式的量測值;及針對該等複數個使用者的至少一個使用者,基於針對該使用者的該等主題式的量測值與針對該等複數個使用者來計算該等主題式的量測值的統計來計算一主題式權威性分數。
- 如請求項9所述之系統,其中:進一步包含,至少一個處理器,其經配置以基於一權威性分數來選擇該至少一個使用者的一使用者,該權威性分數係針對該選擇的使用者;及基於該選擇將一商業優惠導向到該選擇的使用者。
- 如請求項9所述之系統,其中:基於在一分布內的一排名以針對該至少一個使用者來計算該主題式的權威性分數,該分布具有從該等複數個使用者的對應主題量測值所推導的統計。
- 如請求項11所述之系統,其中:該分布包含具有從針對該等複數個使用者的對應主題量測值的一平均和標準差所推導的一平均和標準差的一分布。
- 如請求項9所述之系統,其中:該等複數個處理器被配置以利用MapReduce基元,在不同處理器上而針對該等複數個使用者中之每一者來計算該等主題量測值。
- 如請求項9所述之系統,其中:該等複數個計數包含針對該等複數個使用者的每一個使用者而選自由以下組成之群組的至少兩個計數:相關於該主題的由該使用者發出的推的數目;相關於該主題的由該使用者發出的再推的數目;由該使用者發出的推和再推的總數;在相關於該主題的其它使用者的推中的該使用者的提及的數目;在相關於該主題的推中的提及該使用者的其他使用者的數目;在相關於該主題的推中的由該使用者發出的其他使用者的提及的數目;在相關於該主題的推中的由該使用者提及的其他使用者的數目; 在相關於該主題的由其它使用者發出的推中的該使用者的提及的數目;在相關於該主題的推中的提及該使用者的其他使用者的數目;該等使用者的關注者的數目;及/或關注該使用者的其他使用者的數目。
- 一種用電腦可執行指令編碼的至少一個有形體電腦可讀取媒體,當由至少一個處理器執行該等電腦可執行指令時,實施針對一社群媒體平臺的至少一個使用者來計算一主題式的權威性分數的一方法,該方法包含:存取至少一部分的一推記錄;決定在該記錄中的推的複數個計數,該等計數中之每一者指示達到相關於複數個使用者的一使用者的準則的在記錄中的推的一數目;從針對該等複數個使用者中之每一者的該等複數個計數來計算關於一主題的主題式的量測值;及針對該等複數個使用者的至少一個使用者,基於針對該使用者的該等主題式的量測值與針對該等複數個使用者來計算該等主題式的量測值的統計來計算一主題式權威性分數。
- 如請求項15所述之至少一個有形體電腦可讀取媒體,其中:基於在一分布內的一排名以針對該至少一個使用者來計 算該主題式的權威性分數,該分布具有從該等複數個使用者的對應主題量測值所推導的統計。
- 如請求項16所述之至少一個有形體電腦可讀取媒體,其中:該分布包含具有從針對該等複數個使用者的對應主題量測值的一平均和標準差所推導的一平均和標準差的一分布。
- 如請求項16所述之至少一個有形體電腦可讀取媒體,其中:該等複數個計數包含針對該等複數個使用者的每一個使用者而選自由以下組成之群組的至少兩個計數:相關於該主題的由該使用者發出的推的數目;相關於該主題的由該使用者發出的再推的數目;由該使用者發出的推和再推的總數;在相關於該主題的其它使用者的推中的該使用者的提及的數目;在相關於該主題的推中的提及該使用者的其他使用者的數目;在相關於該主題的推中的由該使用者發出的其他使用者的提及的數目;在相關於該主題的推中的由該使用者提及的其他使用者的數目;在相關於該主題的由其它使用者發出的推中的該使用者 的提及的數目;在相關於該主題的推中的提及該使用者的其他使用者的數目;該等使用者的關注者的數目;及/或關注該使用者的其他使用者的數目。
- 如請求項16所述之至少一個有形體電腦可讀取媒體,其中:該等電腦可執行指令包含:用於在執行於不同的處理器上的複數個獨立程序中而針對該等複數個使用者的使用者來決定該等主題式的量測值的電腦可執行指令。
- 如請求項16所述之至少一個有形體電腦可讀取媒體,其中:用於計算一主題式的權威性分數的該等電腦可執行指令應用一平滑演算法(smoothing algorithm),使得所有主題式的權威性分數為非零。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/733,034 US20140189000A1 (en) | 2013-01-02 | 2013-01-02 | Social media impact assessment |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201443812A true TW201443812A (zh) | 2014-11-16 |
Family
ID=49998715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103100091A TW201443812A (zh) | 2013-01-02 | 2014-01-02 | 社群媒體影響性評估(二) |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140189000A1 (zh) |
TW (1) | TW201443812A (zh) |
WO (1) | WO2014107441A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI630571B (zh) * | 2015-04-30 | 2018-07-21 | 一零四資訊科技股份有限公司 | 文章推薦方法及電腦可讀取媒體 |
TWI665607B (zh) * | 2016-06-06 | 2019-07-11 | 香港商阿里巴巴集團服務有限公司 | Information push method and device |
CN111475726A (zh) * | 2020-04-03 | 2020-07-31 | 中国人民解放军国防科技大学 | 一种基于多因数@优化模型的Twitter网络信息推送最大化方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9324112B2 (en) | 2010-11-09 | 2016-04-26 | Microsoft Technology Licensing, Llc | Ranking authors in social media systems |
US9286619B2 (en) | 2010-12-27 | 2016-03-15 | Microsoft Technology Licensing, Llc | System and method for generating social summaries |
US20140012619A1 (en) * | 2012-07-09 | 2014-01-09 | Salesforce.Com Inc. | Systems and methods for customizing content feeds |
US9294576B2 (en) | 2013-01-02 | 2016-03-22 | Microsoft Technology Licensing, Llc | Social media impact assessment |
US8955129B2 (en) * | 2013-04-23 | 2015-02-10 | Duke University | Method and system for detecting fake accounts in online social networks |
US9978362B2 (en) * | 2014-09-02 | 2018-05-22 | Microsoft Technology Licensing, Llc | Facet recommendations from sentiment-bearing content |
LU92691B1 (fr) * | 2015-04-03 | 2016-10-04 | Carnot Technologies Sa | Méthode de traitement de données pour la qualification de sources de contenu dans les réseaux sociaux |
US10552468B2 (en) * | 2016-11-01 | 2020-02-04 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
US10911382B2 (en) * | 2017-01-30 | 2021-02-02 | Futurewei Technologies, Inc. | Personalized message priority classification |
US10509531B2 (en) * | 2017-02-20 | 2019-12-17 | Google Llc | Grouping and summarization of messages based on topics |
CN112199599A (zh) * | 2020-10-28 | 2021-01-08 | 新华智云科技有限公司 | 一种媒体画像生成方法和系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020062368A1 (en) * | 2000-10-11 | 2002-05-23 | David Holtzman | System and method for establishing and evaluating cross community identities in electronic forums |
US20110099164A1 (en) * | 2009-10-23 | 2011-04-28 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents and advertising targeting |
US9268851B2 (en) * | 2010-04-29 | 2016-02-23 | International Business Machines Corporation | Ranking information content based on performance data of prior users of the information content |
US8725771B2 (en) * | 2010-04-30 | 2014-05-13 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US8712843B2 (en) * | 2010-09-08 | 2014-04-29 | Yahoo! Inc. | Scoring users of network based users |
US9324112B2 (en) * | 2010-11-09 | 2016-04-26 | Microsoft Technology Licensing, Llc | Ranking authors in social media systems |
US20120209920A1 (en) * | 2011-02-10 | 2012-08-16 | Microsoft Corporation | Social influencers discovery |
US8775429B2 (en) * | 2011-04-04 | 2014-07-08 | Northwestern University | Methods and systems for analyzing data of an online social network |
US20130151345A1 (en) * | 2011-12-08 | 2013-06-13 | Yahoo! Inc. | Social reputation ads |
-
2013
- 2013-01-02 US US13/733,034 patent/US20140189000A1/en not_active Abandoned
- 2013-12-31 WO PCT/US2013/078395 patent/WO2014107441A2/en active Application Filing
-
2014
- 2014-01-02 TW TW103100091A patent/TW201443812A/zh unknown
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI630571B (zh) * | 2015-04-30 | 2018-07-21 | 一零四資訊科技股份有限公司 | 文章推薦方法及電腦可讀取媒體 |
TWI665607B (zh) * | 2016-06-06 | 2019-07-11 | 香港商阿里巴巴集團服務有限公司 | Information push method and device |
US11074623B2 (en) | 2016-06-06 | 2021-07-27 | Advanced New Technologies Co., Ltd. | Method and device for pushing information |
CN111475726A (zh) * | 2020-04-03 | 2020-07-31 | 中国人民解放军国防科技大学 | 一种基于多因数@优化模型的Twitter网络信息推送最大化方法 |
CN111475726B (zh) * | 2020-04-03 | 2022-05-03 | 中国人民解放军国防科技大学 | 一种基于多因数@优化模型的Twitter网络信息推送最大化方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2014107441A2 (en) | 2014-07-10 |
US20140189000A1 (en) | 2014-07-03 |
WO2014107441A3 (en) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614077B2 (en) | Computer system for automated assessment at scale of topic-specific social media impact | |
Salminen et al. | A literature review of quantitative persona creation | |
TW201443812A (zh) | 社群媒體影響性評估(二) | |
Yang et al. | Botometer 101: Social bot practicum for computational social scientists | |
Mostafa | Clustering halal food consumers: A Twitter sentiment analysis | |
US9934512B2 (en) | Identifying influential users of a social networking service | |
WO2018188576A1 (zh) | 资源推送方法及装置 | |
US9064212B2 (en) | Automatic event categorization for event ticket network systems | |
US10127522B2 (en) | Automatic profiling of social media users | |
US8954503B2 (en) | Identify experts and influencers in a social network | |
US20220101203A1 (en) | Training data quality for spam classification | |
US20150120583A1 (en) | Process and mechanism for identifying large scale misuse of social media networks | |
US20130191395A1 (en) | Social media data analysis system and method | |
US11765267B2 (en) | Tool for annotating and reviewing audio conversations | |
US11275994B2 (en) | Unstructured key definitions for optimal performance | |
Lee et al. | Detecting fake reviews with supervised machine learning algorithms | |
US20210264480A1 (en) | Text processing based interface accelerating | |
CN115827832A (zh) | 与外部事件相关的对话系统内容 | |
Gezici et al. | Neural sentiment analysis of user reviews to predict user ratings | |
US20150371162A1 (en) | System and method for identifying enterprise risks emanating from social networks | |
US10762154B2 (en) | Relative weighting for social collaboration comments | |
JP2019194793A (ja) | 情報処理装置およびプログラム | |
KR102574784B1 (ko) | Esg 문서를 자동 완성하는데 적합한 텍스트를 추천하는 방법 및 이를 수행하는 esg 서비스 제공 시스템 | |
CN117349126B (zh) | 一种基于大数据的实时信息网络日志分析方法及系统 | |
Skiena et al. | Big data: achieving scale |