TWI731666B

TWI731666B - 利用多維度評級資料之文章推薦系統及方法

Info

Publication number: TWI731666B
Application number: TW109114620A
Authority: TW
Inventors: 廖偉盛; 黃嫈倫; 黃鈺琪; 許郁婷
Original assignee: 股感生活金融科技股份有限公司
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-06-21
Also published as: TW202143064A

Abstract

本發明之目的在於提供一種將複數篇文章以座標方式呈現之利用多維度評級資料之文章推薦系統及方法。前述複數篇文章先以未分類的方式作相似度分析以算出文章與文章間之關連性並以座標方式呈現，若有一文章與另一文章之間具有高相關性時，則當使用者閱讀上述文章時，本發明之系統將同時推薦並呈現與上述文章有高相關性之另一文章。

Description

利用多維度評級資料之文章推薦系統及方法

本發明大致上係關於一種推薦系統及方法，特別係指關於一種利用多維度評級資料之文章推薦系統及方法。

傳統上，當閱讀者瀏覽網站中的文章時，網站往往會在該文章末端提供其他相關內容推薦，上述所推薦之內容常見以2至3篇文章作為衍伸閱讀，且呈現方式係將上述2至3篇文章的標題作連結，讓閱讀者得以在閱讀完文章後繼續點選下方標題連結續行閱讀上述瀏覽網站所推薦之其他文章。

雖然其他文章之推薦透過上述呈現方式可作為延伸閱讀的啟動點，然而閱讀者卻難以僅從標題連結內容理解自己該選擇哪篇文章接續閱讀，再者，閱讀者亦無法透過標題連結內容得知其他文章之內容所要陳述或討論的面向，因此，對於閱讀者而言，上述的文章推薦方式並無法有助於閱讀者有邏輯地/或有效率地建構上述文章(含後續被推薦的文章)所提供的相關知識輪廓。

為了讓閱讀者能有邏輯性地建構其所欲瞭解的相關知識並幫助引導其快速認知其所閱讀的面向及領域，故如何推薦或輔助閱讀者選擇所需的文章並提供閱讀者優化的學習路徑及體驗，即為每個業者所亟需解決的問題。

本發明之目的在於提供一種將複數篇文章以座標方式呈現之利用多維度評級資料之文章推薦系統及方法。閱讀者在透過本發明之推薦系統接收多篇高相關度之推薦文章時，能快速認知延續內容的定位及其知識輪廓並輔助閱讀者從多篇高相關度之推薦文章進行選擇；而透過本發明的資訊分析，能有效優化並指引閱讀者學習路徑。

本發明之另一目的在依據於每一子分類的所有文章內容建置屬於該每一子分類的座標軸，而自複數篇文章分類成每一子分類的方式係依據技術領域、學習路徑、投資流程等原則分類以刻畫出每一子分類中各文章的知識輪廓及學習脈絡，接著從每一子分類的所有文章中找出最重要的四個字詞，再將前述最重要之四個字詞作為一座標軸標題組合並分別列於座標軸之座標軸標題中呈現，並將該每一子分類以第一座標軸及第二座標軸劃分出四個象限或產生至少一象限，而前述四個字詞又分別包含多個相對應的關鍵字。

另外，於本發明中，前述複數篇文章先以未分類的方式作相似度分析並算出文章與文章間之關連性，若有一文章與另一文章之間具有高相關性時，則當使用者閱讀上述文章時，本發明之系統將同時推薦與上述文章有高相關性之另一文章。而在複數篇文章在分析前須將文章透過預處理程序產生複數篇文本資料，再藉由多種不同演算法分別分析前述文本資料彼此間於整體文本資料、內文字詞/段落、標題、語系的相似度並分別計算出文本資料間之相似度值(舉例而言，計算於複數篇文本資料中之一文本資料與另一文本資料間之相似度值)，由本發明中不同演算法所計算出之相似度值分別又被賦予權重值並再加權計算以產生一相關值。另一方面，當前述文本資料彼此間之相關值高於一定值時，表示前述文本資料彼此間具有高相關性。

於本發明的第一觀點中，本發明系統係用於推薦至少一文章，其包含一第一處理裝置、一第一記憶體、一座標軸標題組合、一相似度分析模組、一座標產生模組及一座標軸建立模組，其中前述第一記憶體，例如雲端硬碟(Microsoft SkyDrive、Google Drive、Apple iTune)或一般硬碟，耦合第一處理裝置(可包含CPU、緩衝器、多工器等處理單元)，用以儲存複數篇文章，其中上述複數篇文章經過一預處理程序後產生複數篇文本資料，其中前述複數篇文本資料亦儲存於前述第一記憶體；一座標軸標題組合，其亦儲存於上述第一記憶體，前述組合又進一步包含二個第一座標軸標題及二個第二座標軸標題，前述每一座標軸標題進一步具有複數個相對應關鍵字；一相似度分析模組，其係與前述第一處理裝置耦合，其進一步包含多種文本相似度演算法且每一演算法計算於前述複數篇文本資料中之一文本資料與另一文本資料間之相似度值，並將每一演算法所計算之相似度值均賦予權重值並加權計算以產生一相關值，當前述相關值高於一定值時，表示上述另一文本資料對於上述文本資料而言具有高相關性；一座標產生模組，其係耦合第一處理裝置，其將上述文本資料比對每一座標軸標題之複數個相對應關鍵字並換算出上述文本資料之座標；而上述另一文本資料亦比對每一座標軸標題之複數個相對應關鍵字並換算出上述另一文本資料之座標。一座標軸建立模組，其係耦合該第一處理裝置，其包含一第一座標軸及一第二座標軸用以帶入上述座標軸標題組合、上述文本資料及前述另一文本資料之座標並呈現一座標畫面。本發明將對應該文本資料之文章的代表圖嵌於上述文本資料之座標上並標示為“本篇”，使用者可點選對應該文本資料之文章的代表圖以開啟文章內容。而對應上述另一文本資料之另一文章的代表圖亦嵌於前述另一文本資料之座標上，而上述所提及之另一文章則為“推薦閱讀之文章”。

於本發明的第二觀點中，本發明揭露一種利用多維度評級資料之文章推薦方法，其步驟包含：將複數篇文章經過一預處理程序並產生複數篇文本資料；利用多種文本相似度演算法分別計算於該複數篇文本資料中之一文本資料與另一文本資料間之相似度值；將該每一演算法所計算之相似度值賦予權重值並加權計算以產生一相關值，當該相關值高於一定值時，表示該另一文本資料對於該文本資料而言具有高相關性；前述文本資料及另一文本資料分別比對該每一座標軸標題之複數個相對應關鍵字並換算出該文本資料及該另一文本資料之座標；帶入該座標軸標題組合、該文本資料之座標及該另一文本資料之座標至座標軸建立模組並呈現一座標畫面。

在某一實施例中，上述預處理程序又進一步包含於文章中進行切詞及剔除不必要之詞彙，使上述複數篇文章經過前述預處理程序後產生複數篇文本資料。

100:利用多維度評級資料之文章推薦系統

102:第一處理裝置

104:第一記憶體

106:座標軸標題組合

108:複數篇資料

110:複數篇文本資料

112:相似度分析模組

114:座標產生模組

116:座標軸建立模組

118:座標優化模組

202:複數篇文章

204:複數篇文本資料

206:相似度分析模組

208:第一演算法

210:第二演算法

212:第三演算法

214:第四演算法

216:第五演算法

218:相似度值

220:座標產生模組

222:子分類文章

224:座標軸標題組合

226:複數個相對應關鍵字

228:座標軸建立模組

302:子分類文章所屬類型

304:座標軸標題組合

306:複數個相對應關鍵字

402-412:代表圖

502-510:步驟

本發明之實施例係藉由後附圖式中之實例加以說明，而非用以限制本發明。後附圖式中相似之元件符號係指類似之元件。

圖1係用以顯示一種利用多維度評級資料之文章推薦系統之基本架構以及其應用架構之方塊示意圖。

圖2係顯示利用多維度評級資料之文章推薦系統中之數據流程圖。

圖3係為一實施例用以顯示子分類文章所屬類型及其相關座標軸標題組合與複數個相對應關鍵字。

圖4係本發明之一實施例用以顯示本發明之座標畫面。

圖5係用以顯示利用多維度評級資料之文章推薦方法的流程圖。

本發明將以較佳實施例及觀點加以描述，此類敘述係解釋本發明之系統與方法，僅用以說明而非用以限制本發明之申請專利範圍。因此，除說明書中之較佳實施例以外，本發明亦可廣泛實行於其他實施例中。

如圖1所示，其用以顯示一種利用多維度評級資料之文章推薦系統100之基本架構以及其應用架構之方塊示意圖。本發明之系統100係用於推薦至少一文章，其包含一第一處理裝置102、一第一記憶體104、一座標軸標題組合106、一相似度分析模組112、一座標產生模組114及一座標軸建立模組116，其中前述第一記憶體104，例如雲端硬碟(Microsoft SkyDrive、Google Drive、Apple iTune)或一般硬碟，耦合第一處理裝置(可包含CPU、緩衝器、多工器等處理單元)，用以儲存複數篇文章108，其中上述複數篇文章108經過一預處理程序後產生複數篇文本資料110，其中前述複數篇文本資料110亦儲存於前述第一記憶體104；一座標軸標題組合106，其亦儲存於上述第一記憶體104，前述座標軸標題組合106又進一步包含二個第一座標軸標題及二個第二座標軸標題，前述每一座標軸標題進一步具有複數個相對應關鍵字，在某一實施例中，上述每一座標軸標題進一步具有至少3個相對應關鍵字；一相似度分析模組112，其係與前述第一處理裝置102耦合，其進一步包含多種文本相似度演算法且每一文本相似度演算法計算於前述複數篇文本資料中之一文本資料與另一文本資料間之相似度值，並將每一演算法所計算之相似度值均賦予權重值並加權計算以產生一相關值，當前述相關值高於一定值時，表示前述另一文本資料對於前述文本資料而言具有高相關性；一座標產生模組114，其係耦合第一處理裝置，其將上述文本資料比對每一座標軸標題之複數個相對應關鍵字並換算出上述文本資料之座標；而上述另一文本資料亦比對每一座標軸標題之複數個相對應關鍵字並換算出上述另一文本資料之座標。一座標軸建立模組116，其係耦合該第一處理裝置，進一步包含一第一座標軸及一第二座標軸，用以帶入上述座標軸標題組合、上述文本資料之座標及上述另一文本資料之座標並呈現一座標畫面。

本發明系統進一步包含一座標優化模組118，其係耦合該第一處理裝置，其包含一座標優化演算法用以將該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標標準化，使該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標數字範圍介於0至1之間。於某些實施例中，當座標標準化後，上述座標優化模組118推移該文章之代表圖及另一文章之代表圖以避免兩者堆疊。

請參照圖2，圖2係顯示利用多維度評級資料之文章推薦系統中之數據流程圖。透過本發明之一實施例將複數篇文章進行相似度分析，前述複數篇文章以未分類的方式作相似度分析並算出文章與文章間之關連性，若有另一文章與使用者正閱讀之文章之間具有高相關性時，則當使用者閱讀該篇文章時，本發明之系統將同時推薦與上述文章有高相關性之另一文章；而複數篇文章202在分析前須將複數篇文章202透過預處理程序產生複數篇文本資料204，再藉由相似度分析模組206中多種不同文本相似度演算法(208-216)分別分析，於某一實施例中，當欲分析複數篇文本資料中之一文本資料與另一文本資料間之相似度值時，本發明之相似度分析模組206進一步利用五種文本相似度演算法，由第一演算法208、第二演算法210、第三演算法212、第四演算法214及第五演算法216分別計算出上述文本資料與另一文本資料相似度值218為A、B、C、D及E，再將上述每一演算法所計算之相似度值(A至E)賦予權重值並計算以產生一相關值，當前述相關值高於一定值時，表示該另一文本資料對於該文本資料而言具有高相關性，則前述文本資料與前述另一文本資料將再經由座標產生模組220作進一步利用。當前述相關值未高於一定值時，表示前述文本資料與前述另一文本資料間具有低相關性，則前述另一文本資料將被去除。舉例而言，當又有一第三文本資料與上述文本資料進行相似度分析，而文本資料與第三文本資料間之相關值低於一定值時，表示前述第三文本資料對於上述文本資料而言具有低相關性，則前述第三文本資料將被去除。

於本發明之一實施例中，若上述五種文本相似度演算法(208-216)分別計算出上述文本資料與另一文本資料相似度值為0.7、0.8、0.7、0.9及0.7，且分別被賦予權重值0.1、0.15、0.20、0.3及0.25，則其相關值則為0.7*0.1+0.8*0.15+0.7*0.2+0.9*0.3+0.7*0.25=0.775；若前相關值須高於0.7方能表示該另一文本資料對於該文本資料而言具有高相關性，則前述所算出之0.775相關值即表示前述另一文本資料對於前述文本資料而言具有高相關性。

在某一實施例中，於本發明所利用之五種文本相似度演算法(208-216)係分別用於分析前述文本資料與前述另一文本資料於整體文本資料、內文字詞、內文段落、標題及語系的相似度並給予5種相似度值。舉例而言，第一演算法208係用於分析整體文本資料之相似度，第二演算法210係用於分析內文字詞之相似度，第三演算法212係用於分析內文段落之相似度，第四演算法214係用於分析標題之相似度，第五演算法216係用於分析語系之相似度。

在某一實施例中，為建立並呈現本發明之座標軸內容，本發明之一實施例係先將複數篇文章202分類成每一子分類文章222類型的方式，而分類方式係依據技術領域、學習路徑、投資流程等原則分類以刻畫出每一子分類文章222的知識輪廓及學習脈絡，接著從每一子分類文章222中找出最重要的四個字詞，再將前述最重要之四個字詞作為一座標軸標題組合224，而座標軸標題組合224又包含二個第一座標軸標題及二個第二座標軸標題，即前述四個字詞中有二個第一座標軸標題且另二個為第二座標軸標題，該每一座標軸標題進一步具有複數個相對應關鍵字226。

於某一實施例中，上述文本資料及上述另一文本資料(與前述文本資料具有高相關性)透過一座標產生模組220分別比對前述座標軸標題組合224之每一座標軸標題之複數個相對應關鍵字226並換算出該文本資料及該另一文本資料之座標。於某些實施例中，本發明進一步包含一座標軸建立模組228，其係耦合該第一處理裝置，其包含一第一座標軸及一第二座標軸用以帶入上述座標軸標題組合、文本資料之座標及另一文本資料(和前述文本資料有高相關性)之座標並呈現一座標畫面。在某一實施例中，當有5篇文本資料與上述文本資料的相關值高於一定值時，表示前述5篇文本資料與前述文本資料間具有高相關性，則前述文本資料與前述5篇文本資料將再透過上述座標產生模組220作進一步比對前述座標軸標題組合224之每一座標軸標題之複數個相對應關鍵字226並換算出前述文本資料及5篇文本資料之座標，而上述座標軸標題組合 224、上述文本資料之座標、與前述文本資料具有高相關性之5篇文本資料的座標帶入上述座標軸建立模組228並呈現一座標畫面。

在某些實施例中，上述座標軸標題組合224所包含之二個第一座標軸標題及二個第二座標軸標題，又可再進一步劃分，其中二個第一座標軸標題進一步可為橫座標軸標題，其又可分為X+軸標題及X-軸標題，而二個第二座標軸標題進一步可為縱座標軸標題，其又可分為Y+軸標題及Y-軸標題。上述文本資料透過一座標產生模組220分別比對前述座標軸標題組合224之每一座標軸標題之複數個相對應關鍵字226並換算出該文本資料之座標，其中依據本發明之一實施例，上述文本資料之座標換算公式又進一步係為(X,Y)=((文本資料中含X+軸標題之複數個相對應關鍵字數量-文本資料中含X-軸標題之複數個相對應關鍵字數量),(文本資料中含Y+軸標題之複數個相對應關鍵字數量-文本資料中含Y-軸標題之複數個相對應關鍵字數量))，而上述另一文本資料之座標亦依據上述公式換算取得。

於某些實施例中，圖3係為一實施例用以顯示子分類文章所屬類型302及其相關座標軸標題組合與複數個相對應關鍵字。透過圖3可知，以總體經濟、競爭策略及產業公司作為子分類文章所屬類型302為例，接著從每一子分類的所有文章中找出最重要的四個字詞，再將前述最重要之四個字詞作為一座標軸標題組合304，座標軸標題組合304包含二個第一座標軸標題及二個第二座標軸標題，其中二個第一座標軸標題進一步可為橫座標軸標題，其又可分為X+軸標題及X-軸標題，而二個第二座標軸標題進一步可為縱座標軸標題，其又可分為Y+軸標題及Y-軸標題，而每一座標軸標題進一步具有複數個相對應關鍵字306。因此，若總體經濟之座標軸標題組合被帶入座標軸建立模組，則經濟概論、國際貿易、政府政策及景氣循環被分別帶入座標軸建立模組之第一座標軸及第二座標軸。

在某一實施例中，如圖4所示，其係以本發明之一實施例搭上以產業公司作為子分類文章所屬類型的座標軸標題組合為例用以顯示本發明之座標畫面，本發明將對應該文本資料之文章的代表圖嵌於上述文本資料之座標上並標示為“本篇”，使用者可點選對應該文本資料之文章的代表圖以開啟文章內容。而對應上述另一文本資料之另一文章的代表圖亦嵌於前述另一文本資料之座標上，而上述所提及之另一文章則為“推薦閱讀之文章”；若與前述文本資料具有高相關性的有5篇文本資料，則上述5篇文本資料之座標可透過換算取得並將對應該些5篇文本資料之5篇文章的代表圖404~412嵌於前述5篇文本資料之座標上，而對應該文本資料之文章的代表圖402嵌於上述文本資料之座標上並標示為“本篇”。

於某一實施例中，本發明系統進一步包含一座標優化模組，其包含一座標優化演算法用以將該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標標準化，使該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標數字範圍介於0至1之間。於某些實施例中，當座標標準化後，上述座標優化模組推移該文章之代表圖及另一文章之代表圖以避免兩者堆疊。

參閱圖5係顯示一利用多維度評級資料之文章推薦方法實施例，以下配合本發明之利用多維度評級資料之文章推薦方法步驟502-510進行闡述。

如步驟502所示，將複數篇文章經過一預處理程序並產生複數篇文本資料。在某一實施例中，上述預處理程序又進一步包含於文章中進行切詞及剔除不必要之詞彙，使上述複數篇文章經過前述預處理程序後產生複數篇文本資料。

如步驟504所示，利用多種文本相似度演算法分別計算於該複數篇文本資料中之一文本資料與另一文本資料間之相似度值。於某一實施例中，當欲分析複數篇文本資料中之一文本資料與另一文本資料間之相似度值時，本發明之相似度分析模組進一步利用五種文本相似度演算法，由第一演算法、第二演算法、第三演算法、第四演算法及第五演算法分別計算出上述文本資料與另一文本資料相似度值為A、B、C、D及E。

如步驟506所示，將該每一演算法所計算之相似度值賦予權重值並加權計算以產生一相關值，當該相關值高於一定值時，表示該另一文本資料對於該文本資料而言具有高相關性。舉例而言，透過上述五種文本相似度演算法所計算之相似度值(A至E)賦予權重值並加權計算以產生一相關值，當該相關值高於一定值時，表示該另一文本資料對於該文本資料而言具有高相關性。於另一實施例中，當取一第三文本資料與前述文本資料計算兩者間的相關值，但前述文本資料與一第三文本資料間之相關值低於一定值時，表示該文本資料與該第三文本資料間具有低相關性，則前述第三文本資料無法透過該座標產生模組換算出其座標，且上述第三文本資料將被去除。

如步驟508所示，該文本資料及該另一文本資料分別比對該每一座標軸標題之複數個相對應關鍵字並換算出該文本資料及該另一文本資料之座標，其中依據本發明之一實施例，上述文本資料之座標換算公式又進一步係為(X,Y)=((文本資料中含X+軸標題之複數個相對應關鍵字數量-文本資料中含X-軸標題之複數個相對應關鍵字數量),(文本資料中含Y+軸標題之複數個相對應關鍵字數量-文本資料中含Y-軸標題之複數個相對應關鍵字數量))，而上述另一文本資料之座標亦依據上述公式換算取得。

如步驟510所示，帶入該座標軸標題組合、該文本資料及該另一文本資料之座標至本發明系統之座標軸建立模組中並呈現一座標畫面。進一步而言，為了將各個座標修正至上述座標畫面中最相對分散但又保留絕對資訊之位置，可透過本發明之座標優化演算法將該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標標準化，使該第一座標軸、該第二座標軸、該文本資料及該另一文本資料之座標數字範圍介於0至1之間。於某些實施例中，當座標標準化後，再進一步推移與上述文本資料相對應之該文章之代表圖及與上述另一文本資料相對應之另一文章之代表圖以避免兩者堆疊。

於某些實施例中，為瞭解一名人所撰寫之多篇文章(例如，巴菲特之文章)內容面向，亦可利用本發明之系統將其所經過預處理產生的文本資料進行相似度分析並將有高相關性的文本資料比對座標軸標題組合中的每一座標軸標題之複數個相對應關鍵字並換算出此些文本資料之座標，再將此些文本資料之座標及座標軸標題組合帶入座標軸建立模組以呈現座標畫面。

在某一實施例中，本發明又進一步包含一評價模組，當上述名人所撰寫之多篇文章呈現於座標畫面時，上述評價模組依據此些多篇文章之座標所坐落之位置(或象限)提供其所相對應之評價內容，例如，風險屬性、投資標的、投資心法、策略、學習路徑等等，因此，若使用者點選其中一個座標之一篇文章，則上述評價模組按該篇文章所屬位置(或象限)提供其所相對應之風險屬性、投資標的、投資心法、策略、學習路徑等等。

本發明之方法中的若干者係以其最基礎的形式加以敘述，但在不脫離本發明之基礎範圍下仍可加入若干方法至其任一者或從其任一者刪除若干方法，且可增加若干資訊至此處所述訊息之任一者中或從其刪減若干資訊。此領域中具通常知識之技藝者將得以領會，可對本發明進一步做若干更動及改變。此處所提供之特定實施例並非用以限制本發明，而係用以說明本發明。