TWI785431B

TWI785431B - 網路輿情分析方法及伺服器

Info

Publication number: TWI785431B
Application number: TW109143099A
Authority: TW
Inventors: 陳慧玲; 莊涵宇; 黃華泰
Original assignee: 中華電信股份有限公司
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-12-01
Also published as: TW202223686A

Abstract

本發明提供一種網路輿情分析方法及伺服器。所述方法包括：將待搜尋圖片轉換為特定特徵向量；取得對應於多筆歷史社群媒體貼文的多筆歷史記錄；估計待搜尋圖片與各歷史社群媒體貼文之間的相似度；基於各歷史社群媒體貼文對應的相似度從所述多個歷史社群媒體貼文中挑選多個特定社群媒體貼文；以及呈現所述多個特定社群媒體貼文。

Description

網路輿情分析方法及伺服器

本發明是有關於一種網路資訊分析技術，且特別是有關於一種網路輿情分析方法及伺服器。

由於社群網路蓬勃發展，訊息傳遞方式日新月異，除了文字訊息外，透過圖片發表意見及行銷手法劇增，為了能精準掌握網路輿情資訊，勢必透過圖像辨識技術，進而分析使用者欲表達的訊息及散播成長趨勢。然而，網路貼文中的圖片資訊包羅萬象，因此需要一個能全面性分析圖片特徵的技術，才能精準且全面性掌握社群媒體資訊。

有鑑於此，本發明提供一種網路輿情分析方法及伺服器，其可用於解決上述技術問題。

本發明提供一種網路輿情分析方法，包括：取得一待搜尋圖片，並將待搜尋圖片轉換為一特定特徵向量；取得對應於多筆歷史社群媒體貼文的多筆歷史記錄，其中各歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊；基於特定特徵向量及各歷史記錄中的圖片特徵向量估計待搜尋圖片與各歷史社群媒體貼文之間的一相似度；基於各歷史社群媒體貼文對應的相似度從所述多個歷史社群媒體貼文中挑選多個特定社群媒體貼文；以及呈現所述多個特定社群媒體貼文作為對應於待搜尋圖片的多個搜尋結果。

本發明提供一種網路輿情分析伺服器，其包括儲存電路及處理器。儲存電路儲存程式碼。處理器耦接儲存電路，存取程式碼以執行下列步驟：取得一待搜尋圖片，並將待搜尋圖片轉換為一特定特徵向量；取得對應於多筆歷史社群媒體貼文的多筆歷史記錄，其中各歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊；基於特定特徵向量及各歷史記錄中的圖片特徵向量估計待搜尋圖片與各歷史社群媒體貼文之間的一相似度；基於各歷史社群媒體貼文對應的相似度從所述多個歷史社群媒體貼文中挑選多個特定社群媒體貼文；以及呈現所述多個特定社群媒體貼文作為對應於待搜尋圖片的多個搜尋結果。

概略而言，本發明可透過圖片擷取程式與社群網站公開API收集圖像資料，並過濾廣告、色情雜訊，萃取網路輿情重要情報及資訊。擷取回來的圖片資料被解析與儲存成結構化資訊，透過分散式架構及索引機制加速存取效能。在前述資料前置處理完畢後，透過深度學習技術，使用多層式架構模型，擷取圖像深度特徵向量，進行辨識分析。依據圖片社群互動資訊，包含作者、關注度、回復訊息，以及圖像特徵相似度計算，計算出圖片擴散分布狀況及討論聲量等輿情指標資訊，並進一步提供搜尋調閱圖像輿情資訊的介面，透過條件式篩選，進階分析關鍵領袖、網路熱度及趨勢走向。

本發明的特色至少包括透過深度學習技術以多層式擷取細部特徵，精準掌握重要資訊，並針對整張圖片進行分析，將全面性掌握圖片所有特徵點，進行相似度比對，關聯分析出圖片擴散分布的狀況，已挖掘出更多關聯資訊，掌握整體輿情風向。相關產業可利用本發明方法提供拓展市場、行銷策略、營運政策等輿情分析及應用。以下將作進一步說明。

請參照圖1，其是依據本發明之一實施例繪示的網路輿情分析伺服器示意圖。如圖1所示，網路輿情分析伺服器100可包括儲存電路102及處理器104。儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

處理器104耦接於儲存電路102，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）、現場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本發明的實施例中，處理器104可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的網路輿情分析方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的網路輿情分析方法流程圖。本實施例的方法可由圖1的網路輿情分析伺服器100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，處理器104可取得待搜尋圖片，並將待搜尋圖片轉換為特定特徵向量。

在一實施例中，處理器104可提供一搜尋界面以供使用者上傳任意的圖片作為上述待搜尋片。舉例而言，假設使用者在瀏覽網路時看到一則關聯於特定輿情/議題的圖片，則使用者例如可將此圖片上傳至所述搜尋界面作為待搜尋圖片。相應地，本發明的方法即可在一或多個指定社群媒體來源中找出關聯於上述輿情/議題的特定社群媒體貼文，並呈現予使用者參考，但可不限於此。

在一實施例中，在取得待搜尋圖片之後，處理器104例如可將其輸入至一卷積神經網路，以相應地萃取待搜尋圖片的相關圖片特徵。請參照圖3，其是依據本發明之一實施例繪示的卷積神經網路示意圖。在圖3中，卷積神經網路310例如可包括卷積層311、313、池化層312、314及輸出層315。承上所述，處理器104例如可將待搜尋圖片305輸入至卷積神經網路310，而卷積神經網路310中的各層將因應於待搜尋圖片305而產生對應的特徵圖（feature map）311a~314a，其中對應於池化層312及314的特徵圖312a及314a又稱為池化特徵圖，但可不限於此。

在一實施例中，處理器104例如可萃取池化層312及314中的特定池化層的池化特徵圖（即，特徵圖312a或314a）作為對應於待搜尋圖片305的特定特徵向量。此外，在一實施例中，處理器104可從卷積神經網路310的池化層312及314選擇最接近於輸出層315的一者作為上述特定池化層。在圖3中，由於池化層314最接近於輸出層315，故處理器104可選定池化層314作為上述特定池化層，並以其對應的特徵圖314a作為對應於待搜尋圖片305的特定特徵向量，但可不限於此。

在一些實施例中，在處理器104將待搜尋圖片305輸入至卷積神經網路310之前，處理器104還可預先對待搜尋圖片305進行相關的資料擴增處理，以增加提供予卷積神經網路310的資料量。舉例而言，上述資料擴增處理例如可包括改變待搜尋圖片305中圖片特徵的位置，同時保留特徵之間相對關係，藉此增加資料量，避免模型產生過度擬合(overfitting)的狀況。在一實施例中，處理器104例如可透過以下五個步驟來改變待搜尋圖片305中圖片特徵的位置：（1）將待搜尋圖片305旋轉/反射變換(Rotation/reflection) : 隨機旋轉圖像一定角度，改變圖像內容的朝向；（2）將待搜尋圖片305翻轉變換(flip)，沿著水平或者垂直方向翻轉圖像；（3）將待搜尋圖片305縮放變換(zoom)，按照一定的比例放大或者縮小圖像；（4）將待搜尋圖片305平移變換(shift)，在圖像平面上對圖像以一定方式進行平移，採用隨機指定平移範圍和平移步長，沿水平或直豎方向進行平移，改變圖像內容位置；（5）將待搜尋圖片305尺度變換(scale)，對圖像按照指定的尺度因子，進行放大或縮小，但可不限於此。

在取得待搜尋圖片305的特定特徵向量之後，在步驟S220中，處理器104可取得對應於多筆歷史社群媒體貼文的多筆歷史記錄，其中各歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊。

在一實施例中，處理器104例如可依據指定時間區間從一或多個指定社群媒體來源讀取多個貼文作為上述歷史社群媒體貼文，而各個歷史社群媒體貼文可包括圖片及貼文公開資訊。舉例而言，相關管理人員例如可在網路輿情分析伺服器100設定如下表1的資料結構。

指定社群媒體來源	執行過程記錄表
source_1	information_s1t1
source_2	information_s2t2
…
source_N	information_sNtN

表1

在表1中，各指定社群媒體來源例如可以是某個社群媒體、某個社群媒體中的某個用戶/粉絲頁、新聞媒體等，但可不限於此。另外，對於各個指定社群媒體來源而言，處理器104可維護有對應的執行過程記錄表，如下表2所例示。

欄位名稱	型別	備註
source_id	int	來源ID
time_range	datetime	指定時間區間
source	varchar	指定社群媒體來源
status	varchar	任務狀態

表2

在表2中，指定時間區間例如是讀取指定社群媒體來源的週期（例如每小時讀取一次），或是任何一段指定的時間長度，例如某個日期至另一個日期之間的時間區間、數小時、數天、數週、數月及/或數年等，但可不限於此。另外，任務狀態可用於指示處理器104對於指定社群媒體來源的讀取情形。例如，若處理器104正等待執行對於指定社群媒體來源的讀取，狀態(status)值可為0；若執行讀取中，狀態(status)值可為1；若執行讀取成功，狀態(status)值可為2；若讀取執行失敗，狀態(status)值可為-1，但可不限於此。

基此，處理器104可依據表1的內容而從上述指定社群媒體來源讀取貼文作為上述歷史社群媒體貼文。舉例而言，假設source_1為某社群媒體上的粉絲頁A，而對應的time_range為一個月內。在此情況下，處理器104可讀取粉絲頁A於最近一個月內發出的貼文作為上述歷史社群媒體貼文中的一部分，但可不限於此。

在一些實施例中，在取得上述歷史社群媒體貼文之後，處理器104可基於多個過濾規則濾除上述歷史社群媒體貼文中的一部分，其中上述過濾規則例如可具有如下表3所例示的格式。

rule_1	information_e1
rule_2	information_e2
…	…
rule_3	information_e3

表3

基此，處理器104例如可基於上述過濾規則過濾上述歷史社群媒體貼文中的情色、廣告等雜訊。在一實施例中，各過濾規則可具有如下表4所例示的格式。

欄位名稱	型別	備註
rule_id	int	過濾規則ID
operand	varchar	規則運算元
operator	varchar	比對運算子
weight	int	比對權重值

表4

如表3所示，過濾規則可包括規則運算元(operand)、比較運算子(operator)以及比對權重值(weight)等欄位，而其可組合成一套過濾規則運算式(expression)。因此，處理器104可基於表3的內容對每筆歷史社群媒體貼文進行運算比對，以將符合規則設定條件的資料進行清整，以過濾影響分析的雜訊。

在取得上述歷史社群媒體貼文之後，處理器104可相應地產生對應於這些歷史社群媒體貼文的歷史記錄。為便於理解，以下將以上述歷史社群媒體貼文中的一者（下稱第一社群媒體貼文）為例進行說明，但本發明可不限於此。

在一實施例中，假設第一社群媒體貼文包括第一圖片及第一貼文公開資訊（例如圖片網址、作者、社群互動資料、訊息發佈時間等）。在經讀取上述指定社群媒體來源而取得第一社群媒體貼文之後，處理器104可取得第一社群媒體貼文的第一圖片，並將第一圖片轉換為對應於第一社群媒體貼文的第一圖片特徵向量。

在一實施例中，處理器104亦可將第一圖片輸入至卷積神經網路310，並相應地萃取池化層312或314的特徵圖312a或314a作為對應於第一社群媒體貼文的第一圖片特徵向量，但可不限於此。之後，處理器104可擷取第一社群媒體貼文的第一貼文公開資訊，並將第一貼文公開資訊與第一圖片特徵向量記錄為上述歷史記錄中對應於第一社群媒體貼文的第一歷史記錄。

對於其他的歷史社群媒體貼文，處理器104亦可進行以上實施例教示的手段以產生對應的歷史記錄，其細節於此不另贅述。

在一實施例中，處理器104還可基於各歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊從該些歷史記錄中去除重複的一部分。舉例而言，在取得第一社群媒體貼文的第一貼文公開資訊與第一圖片特徵向量之後，處理器104可進行資料正規化(normalization)，以減少資料冗餘，增進資料的一致性。

在一實施例中，前述資料正規化可包括：第一正規化（1NF）、第二正規化（2NF）、第三正規化（3NF）。1NF的工作包括：（1）由資料表現有的欄位中，挑選一組符合主鍵規則的當作主鍵，作為唯一識別；（2）讓每個欄位都只儲存一筆資料，而其他的空白欄位，則需要填入符合第一圖片的原始資料；（3）要確認所有的欄位，都要與主鍵有相依性。接著，執行2NF以消除部分相依（Partial Dependency），以減少資料重複和不一致性。接著，執行3NF，以消除資料表中的遞移相依（Transitive Dependency）。

在上述資料正規化完成後，處理器104可使用分散式架構進行資料的存取。例如，處理器104可先建構多台資料庫伺服器(database server)，再透過複寫機制，並同步每台資料，再透過連線分流技術支援含有多重後端的配置，將資料請求依序發給資料庫伺服器，提升資料存取的穩定性，最後建置對應於第一社群媒體貼文的資料儲存表，其可包括作者(author)、文章發布日期(postDate)、文章處理日期(parseDate)、圖片來源網址(imgURL)、圖片識別碼(imgID)、圖片喜好程度(likeCount)等欄位。

在完成對應於第一社群媒體貼文的資料儲存表之後，處理器104可據以更新對應於第一社群媒體貼文的第一歷史記錄，但可不限於此。

在取得對應於各歷史社群媒體貼文的歷史記錄之後，在步驟S230中，處理器104可基於特定特徵向量及各歷史記錄中的圖片特徵向量估計待搜尋圖片305與各歷史社群媒體貼文之間的相似度。

再以第一社群媒體貼文為例，在一實施例中，處理器104可估計特定特徵向量與第一圖片特徵向量之間的第一特徵相似度。

請參照圖4，其是依據本發明之一實施例繪示的估計第一特徵相似度的示意圖。在圖4中，處理器104可計算特定特徵向量410與第一圖片特徵向量420之間的餘弦相似度430作為上述第一特徵相似度。在其他實施例中，處理器104可基於任何現有的相似度計算方式來估計特定特徵向量與第一圖片特徵向量之間的第一特徵相似度，不限於上述方式。

之後，處理器104可以此第一特徵相似度作為待搜尋圖片305與第一社群媒體貼文之間的第一相似度。

對於其他的歷史社群媒體貼文，處理器104亦可進行以上實施例教示的手段以產生其他的歷史社群媒體貼文個別對應的相似度，其細節於此不另贅述。

接著，在步驟S240中，處理器104可基於各歷史社群媒體貼文對應的相似度從所述多個歷史社群媒體貼文中挑選多個特定社群媒體貼文。

在一實施例中，處理器104例如可基於各歷史社群媒體貼文對應的相似度降冪排序上述歷史社群媒體貼文，並從上述歷史社群媒體貼文取出排序在前的指定數量（以N表示）個社群媒體貼文作為上述特定社群媒體貼文。在一實施例中，上述N值可由使用者在搜尋界面中設定，但可不限於此。

之後，在步驟S250中，處理器104可呈現所述多個特定社群媒體貼文作為對應於待搜尋圖片305的多個搜尋結果。

藉此，使用者即可基於上述搜尋結果得知在上述指定社群媒體來源中最關聯於待搜尋圖片305的N個歷史社群媒體貼文，進而得知相關輿情/議題的風向，但可不限於此。

請參照圖5，其是依據本發明之一實施例繪示的搜尋結果的格式示意圖。在圖5中，處理器104可採用標準化格式回應(Response json語法)，來提供上述搜尋結果。舉例而言，圖5中的totalCount例如是N值，imageURL1例如是上述特定社群媒體貼文的其中之一對應的網址，而其對應的likecount及author 1分別是其對應的按讚數及作者，但可不限於此。

藉此，本發明的方法可讓終端使用者能夠即時、方便、快速的取用圖像輿情分析的結果。此外，後續使用者可再將結果延伸應用，設計多樣化的圖表繪製與呈現介面，提供企業在品牌經營策略及商品行銷推廣上的重要參考指標。

在其他實施例中，使用者可藉由在搜尋界面中調整N的值，以讓處理器104相應地提供更多/更少的搜尋結果，但可不限於此。

此外，在一實施例中，處理器104還可基於各特定社群媒體貼文對應的貼文公開資訊在各特定社群媒體貼文的作者中找出關鍵意見領袖。舉例而言，處理器104例如可在特定社群媒體貼文中找出重複的作者，並以這些重複的作者作為關鍵意見領袖，進而將這些關鍵意見領袖呈現予使用者參考。

此外，在其他實施例中，處理器104還可統計每日圖片喜好程度，計算出圖片每日(byDate)關注的成長趨勢，藉以掌握圖片訊息的輿情風向。

在一實施例中，處理器104可將各特定社群媒體貼文的各個公開資訊以下列關聯代數方式程式進行彙整(aggregation)並記錄，但可不限於此。

綜上所述，本發明至少具備以下特點：（1）本發明可設定讀取指定社群媒體來源的時間點與擷取資料範圍，自動化排程執行並控管來源執行進度；（2）本發明可以正規化語法表示式擷取社群網站公開網站資訊，使用過濾規則定義以過濾廣告、色情雜訊，萃取網路輿情重要情報及資訊；（3）本發明可透過深度學習技術，使用多層式架構模型，擷取圖像深度特徵，進行辨識分析；（4）本發明可將資料解析為結構化資訊，並透過分散式架構及索引機制加速存取效能；（5）本發明可依據圖像社群互動資訊及圖像特徵相似度比對，計算出圖片擴散程度及發展趨勢等輿情指標資訊；（6）本發明可使用關鍵字及特徵比對方式搜尋調閱圖輿情資訊，並透過條件式篩選，進階分析關鍵領袖、網路熱度及趨勢走向。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:網路輿情分析伺服器 102:儲存電路 104:處理器 305:待搜尋圖片 310:卷積神經網路 311, 313:卷積層 312, 314:池化層 315:輸出層 311a~314a:特徵圖 410:特定特徵向量 420:第一圖片特徵向量 430:餘弦相似度 S210~S250:步驟

圖1是依據本發明之一實施例繪示的網路輿情分析伺服器示意圖。圖2是依據本發明之一實施例繪示的網路輿情分析方法流程圖。圖3是依據本發明之一實施例繪示的卷積神經網路示意圖。圖4是依據本發明之一實施例繪示的估計第一特徵相似度的示意圖。圖5是依據本發明之一實施例繪示的搜尋結果的格式示意圖。

S210~S250:步驟

Claims

一種網路輿情分析方法，包括：處理器取得一待搜尋圖片，並將該待搜尋圖片轉換為一特定特徵向量；該處理器取得對應於多筆歷史社群媒體貼文的多筆歷史記錄，其中各該歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊，其中該處理器基於各該歷史記錄包括對應的該圖片特徵向量及對應的該貼文公開資訊從該些歷史記錄中去除重複的一部分，將對應的該圖片特徵向量及對應的該貼文公開資訊依次進行包括第一正規化(1NF)、第二正規化(2NF)、第三正規化(3NF)的資料正規化；該處理器基於該特定特徵向量及各該歷史記錄中的該圖片特徵向量估計該待搜尋圖片與各該歷史社群媒體貼文之間的一相似度；該處理器基於各該歷史社群媒體貼文對應的該相似度從該些歷史社群媒體貼文中挑選多個特定社群媒體貼文，其中各該特定社群媒體貼文對應於至少一作者，該處理器基於各該特定社群媒體貼文對應的該貼文公開資訊在該至少一作者中找出至少一關鍵意見領袖，並呈現該至少一關鍵意見領袖；以及該處理器呈現該些特定社群媒體貼文作為對應於該待搜尋圖片的多個搜尋結果。
如請求項1所述的方法，其中該處理器將該待搜尋圖片轉換為該特定特徵向量的步驟包括：該處理器將該待搜尋圖片輸入至一卷積神經網路，其中該卷積神經網路包括至少一池化層；該處理器萃取該至少一池化層中的一特定池化層的池化特徵圖作為該特定特徵向量。
如請求項2所述的方法，其中該卷積神經網路具有一輸出層，且該特定池化層為該至少一池化層中最接近於該輸出層的一者。
如請求項1所述的方法，其中該些歷史社群媒體貼文包括一第一社群媒體貼文，該第一社群媒體貼文包括一第一圖片及第一貼文公開資訊，且所述方法更包括：反應於取得該第一社群媒體貼文，該處理器取得該第一社群媒體貼文的該第一圖片，並將該第一圖片轉換為對應於該第一社群媒體貼文的一第一圖片特徵向量；該處理器擷取該第一社群媒體貼文的該第一貼文公開資訊，並將該第一貼文公開資訊與該第一圖片特徵向量記錄為該些歷史記錄中對應於該第一社群媒體貼文的一第一歷史記錄。
如請求項4所述的方法，其中該處理器基於該特定特徵向量及各該歷史記錄中的該圖片特徵向量估計該待搜尋圖片與各該歷史社群媒體貼文之間的該相似度的步驟包括：該處理器估計該特定特徵向量與該第一圖片特徵向量之間的一第一特徵相似度，並以該第一特徵相似度作為該待搜尋圖片與該第一社群媒體貼文之間的一第一相似度。
如請求項1所述的方法，其中該處理器基於各該歷史社群媒體貼文對應的該相似度從該些歷史社群媒體貼文中挑選該些特定社群媒體貼文的步驟包括：該處理器基於各該歷史社群媒體貼文對應的該相似度降冪排序該些歷史社群媒體貼文；該處理器從該些歷史社群媒體貼文取出排序在前的指定數量個社群媒體貼文作為該些特定社群媒體貼文。
如請求項1所述的方法，更包括：該處理器依據一指定時間區間從一指定社群媒體來源讀取多個貼文作為該些歷史社群媒體貼文。
如請求項7所述的方法，更包括：該處理器基於多個過濾規則濾除該些歷史社群媒體貼文中的一部分。
一種網路輿情分析伺服器，包括：一儲存電路，儲存一程式碼；以及一處理器，耦接該儲存電路，存取該程式碼以執行下列步驟：取得一待搜尋圖片，並將該待搜尋圖片轉換為一特定特徵向量；取得對應於多筆歷史社群媒體貼文的多筆歷史記錄，其中各該歷史記錄包括對應的圖片特徵向量及對應的貼文公開資訊，其中該處理器基於各該歷史記錄包括對應的該圖片特徵向量及對應的該貼文公開資訊從該些歷史記錄中去除重複的一部分，將對應的該圖片特徵向量及對應的該貼文公開資訊依次進行包括第一正規化(1NF)、第二正規化(2NF)、第三正規化(3NF)的資料正規化；基於該特定特徵向量及各該歷史記錄中的該圖片特徵向量估計該待搜尋圖片與各該歷史社群媒體貼文之間的一相似度；基於各該歷史社群媒體貼文對應的該相似度從該些歷史社群媒體貼文中挑選多個特定社群媒體貼文，其中各該特定社群媒體貼文對應於至少一作者，基於各該特定社群媒體貼文對應的該貼文公開資訊在該至少一作者中找出至少一關鍵意見領袖，並呈現該至少一關鍵意見領袖；以及呈現該些特定社群媒體貼文作為對應於該待搜尋圖片的多個搜尋結果。