TWI752822B

TWI752822B - 有價字詞萃取及形成有價字詞網之方法及其系統

Info

Publication number: TWI752822B
Application number: TW110105017A
Authority: TW
Inventors: 林國銘; 林思吾
Original assignee: 阿物科技股份有限公司
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-01-11
Also published as: TW202232342A; JP7212961B2; US20220253600A1; US11775751B2; JP2022122230A

Abstract

一種有價字詞萃取及形成有價字詞網之方法及其系統，其主要係以一伺服器，針對各式網路文章、EDM、產品說明文等文本之內容，進行蒐集並輔以機器學習之方式，萃取各文本內有價值之文字或單詞，並將各個有價字詞再以機器學習之方式，以觀看數、點擊數、觸及數、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈等各式數值及其轉換與其它有價字詞進行權重連結，多組已連結完成之有價字詞可進行整合，以形成一字詞網，當有其關鍵字使用需求時，不僅可從其資料庫取出該有價字詞，字詞網可一併取出，以便進行後續各式之應用。

Description

有價字詞萃取及形成有價字詞網之方法及其系統

一種有價字詞萃取及形成有價字詞網之方法及其系統，本發明尤指一種利用字詞分析與機器學習，特別是利用字詞萃取，並將大量字詞連結形成為有價字詞網之方法及實施此方法的系統。

按，網路資訊時代的來臨，現今網路世界中充斥著大量資訊文本、文章、短文等，然，如此大量的資訊內容，無論是網路使用者端、網路資料處理端、或是網路廣告投放者業者端等，難以從大量的資訊中精準的獲取有用之資訊、或應用其有用之資訊；因此，如何就網路資訊中，快速且精準的獲取有用之資訊，成為網路發展中非常重要的一個環節；於此，諸多的習知技術曾有相關的揭露，例如中華人民共和國第CN111488736A號「自學習分詞方法、裝置、計算機設備和存儲介質」、與第CN111125484A「話題發現方法、系統及電子設備」，其技術特徵即為針對用戶使用關鍵字搜尋時所搜尋之熱詞，或對歷史文本進行詞頻統計以判斷其熱詞，另有其他先前技術可供參考如下 (1)CN106055545A「文本挖掘系统及工具」；(2)CN107423444A「熱詞詞組提取方法和系統」；(3)US20150341771A1「Hotspot aggregation method and device」；(4)US20140122493A1「Ecosystem method of aggregation and search and related techniques」；(5)JPA 2020181463「

探索

」；(6)JPA 2019003406「情報収集装置、情報収集方法、

情報収集

」。

由以上揭露內容可知，使用者端針對如何於文本中提取有效(或可定義為「有價值」、「關鍵」)之字詞或文句等已有諸多方法，且特別是針對如何定義其為「關鍵字」之依據，為許多前揭技術所探討的主軸例如：關鍵字於各文本出現的頻率、斷詞分析的使用方法、使用者使用該字詞之頻率等等，亦多有所揭；然而，若僅利用機器學習針對關鍵字進行提取，有可能會錯失其餘非關鍵字但卻有用之字詞；且，提取關鍵字的過程中，亦容易因人為刻意操作，而導致其系統進行判斷的結果悖於真實，例如：流行語、雙關語、中英混雜使用等；更進一步而言，單就提取文本中關鍵字，如未能經過更有系統性的整理，亦容易使該關鍵字在後續被應用時，無法與其他關鍵字做有效的組合使用。

綜上所述，現有之關鍵字的收集、及使用確實存在前述之缺點，據此，如何改善關鍵字之收集的缺點、以及提升其應用的便利性與有效性，乃為待需解決之問題。

有鑒於上述的問題，本發明人係依據多年來從事相關行業的經驗，針對文本內有價值之字詞處理方法進行研究及改良；緣此，本發明之主要目的在於提供一種可針對網路上的各式文本進行自主收集，並透過機器學習萃取出有價字詞，再將各有價字詞連結形成「有價字詞網」之有價字詞萃取及形成有價字詞網之方法及其系統。

為達上述的目的，本發明所述之有價字詞萃取及形成有價字詞網之方法及其系統，其主要可針對各式網路文章、EDM文本(電子郵件行銷)、產品說明文等具有文字內容的文本，由伺服器以主動或自主收集之方式收集各式文本，並以機器學習訓練學習大量文本，再萃取出各個文本內有價值之文字或單詞，有價值之字詞並非僅限於關鍵字，伺服器可依據各式情況(例如流行語、雙關語、中英混雜詞等)萃取並儲存具有應用價值的「有價字詞」，當萃取有價字詞完成後，伺服器可再將有價字詞進行訓練，並依據各個有價字詞中，其觀看數、點擊數、觸及數、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈等各式數值及其轉換與其它有價字詞進行權重連結等數值，與其他有價字詞進行權重連結；所述的權重連結可顯示各有價字詞之間的關聯性，並會依時間性、地域性不同而有不同的調整，因此，伺服器可進一步將多組連結完成之有價字詞進行整合，形成一綿密之「有價字詞網」，當後續使用者就其有價字詞有使用需求時，在經由伺服器從其資料庫提取相關的有價字詞時，亦同時將有價字詞之有價字詞網一併取出；又，若有價字詞有分屬不同領域或不同面向，伺服器更可以一自複製學習，將有價字詞網以不同領域直接進行權重調整，而無須重新對有價字詞進行權重連結，以便使用者進行後續各種應用及處理之目的。

為使貴審查委員得以清楚了解本發明之目的、技術特徵及其實施後之功效，茲以下列說明搭配圖示進行說明，敬請參閱。

1:有價字詞萃取及形成有價字詞網之系統

11:伺服器

12:第三方搜尋系統

111:資料處理模組

112:資料儲存模組

1121:學習資料庫

1122:有價字詞資料庫

1123:字詞網資料庫

113:資料搜集模組

114:字詞萃取模組

115:字詞網連結模組

116:斷詞輔助模組

D1:文本資訊

D2:文本關聯資訊

D3:有價字詞

D4:字詞權重

D5:字詞網

S1:文本搜集步驟

S2:文本訓練學習步驟

S3:有價字詞萃取步驟

S4:有價字詞訓練學習步驟

S5:有價字詞連結步驟

S6:字詞網成形步驟

S7:提取使用步驟

第1圖，為本發明之組成示意圖。

第2圖，為本發明之實施流程圖。

第3圖，為本發明之實施示意圖(一)。

第4圖，為本發明之實施示意圖(二)。

第5圖，為本發明之實施示意圖(三)。

第6圖，為本發明之實施示意圖(四)。

第7圖，為本發明之實施示意圖(五)。

第8圖，為本發明之實施示意圖(六)。

第9圖，為本發明之實施示意圖(七)。

第10圖，為本發明之實施示意圖(八)。

第11圖，為本發明之實施示意圖(九)。

第12圖，為本發明之另一實施例。

第13圖，為本發明之又一實施例。

第14圖，為本發明之又一實施例。

請參閱「第1圖」，圖中所示為本發明之組成示意圖，如圖中所示，為本發明之有價字詞萃取及形成有價字詞網之系統1，其包含有一伺服器11、及一第三方搜尋系統12，以下說明及例示各組成要件的功能：

(1)所述之伺服器11主要與一第三方搜尋系統12完成資訊連結，且伺服器11可透過第三方搜尋系統12獲取所需之學習訓練樣本，並基於所學習訓練之樣本建立模型，其模型由主要由機器學習訓練學習文本，並萃取文本中有價字詞，再將萃取出的多個有價字詞，進一步連結成形為一有價字詞網；

(2)所述之第三方搜尋系統12可以為一搜尋引擎資料庫、或一廣告資料庫、或一文本資料庫，但凡可使伺服器11能獲取所需之學習訓練樣本之系統，皆可以實施。

(3)又，所述之伺服器11主要包含一資料處理模組111，並與一資料儲存模組112、一資料搜集模組113、一字詞萃取模組114、及一字詞網連結模組115分別呈資訊連結，其中，所述之資料處理模組111，係供以運行伺服器11，以及用以驅動與其資訊連結的各模組之作動，資料處理模組111具備邏輯運算、暫存運算結果、保存執行指令位置等功能，其可以例如為一中央處理器(Central Processing Unit，CPU)，但不以此為限；

(4)所述之資料儲存模組112可供儲存電子資料，其可例如為一固態硬碟(Solid State Disk or Solid State Drive，SSD)、一硬碟(Hard Disk Drive，HDD)、一靜態記憶體(Static Random Access Memory，SRAM)、或一隨機存取記憶體(Random Access Memory，DRAM)等；又，資料儲存模組112主要儲存有一學習資料庫1121、一有價字詞資料庫1122、及一字詞網資料庫1123；所述之學習資料庫1121，主要儲存由資料搜集模組113所搜集之文本資訊、及文本關聯資訊；所述之有價字詞資料庫1122，主要儲存字詞萃取模組114所萃取之有價字詞；所述之字詞網資料庫1123，主要儲存字詞網連結模組115所連結整合之字詞網；

(5)所述之資料搜集模組113主要可透過第三方搜尋系統12，獲取文本資訊與文本關聯資訊，其中，資料搜集模組113主要使用瀏覽器搜尋、數據擷取、數據爬蟲(Web Crawler)等方式或其組合，獲取文本資訊及文本關聯資訊，但不以此為限；又，所述之文本資訊係可泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限；另，文本資訊不僅包含單一自然語言、或單一自然語系，多種自然語言或混和自然語言亦包含在內；所述之文本關聯資訊係可為文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率、外站關聯程度、專家知識轉換、機率空間(Probability Space)、資訊熵(Shannon Entropy)、空間分佈(Spatial Distribution)等各式數值及其轉換與其它有價字詞進行權重連結等文本、或文本內字詞之關聯數據之任一種、或其組合，但不以此為限；更進一步來說，所述之外站關聯程度，為將從外部爬取到的資料做分析演算，並以其關聯之字詞各別計算分數給與外部爬取到的資料文本，所述之專家知識轉換，為將現有的公司內的專家規則，將現有知識，轉成量化數值，例如外顯知識(Explicit Knowledge)，但不以此為限；

(6)所述之字詞萃取模組114可針對文本資訊進行訓練學習，並萃取出有價字詞，其訓練學習主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning)，但不以此為限；所述之字詞萃取模組114係將由資料搜集模組113進行自主搜集、或儲存在學習資料庫1121之文本資訊、與文本關聯資訊做為訓練資料，並萃取出有價字詞儲存至有價字詞資料庫1122，或傳送至後續之字詞網連結模組115，又，字詞萃取模組114所萃取之有價字詞，其不僅限於單一語言或語系，不同語言或語系等相同或相似之字詞亦可萃取。

(7)所述之字詞網連結模組115，可針對字詞萃取模組114所傳送或儲存至有價字詞資料庫1122之有價字詞，與文本關聯資訊進行訓練學習，並賦予有價字詞與另一有價字詞，以一字詞權重為依據產生連結，其訓練學習亦主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning)，但不以此為限；又，有價字詞可與另外數個有價字詞有其字詞權重，並以此產生連結，而另一有價字詞亦可再與後續之有價字詞連結，因此，字詞網連結模組115將綿延之有價字詞連結形成為一有價字詞網，並儲存至字詞網資料庫1123。

請參閱「第2圖」，圖中所示為本發明之實施流程圖，請搭配參閱「第1圖」，本發明之有價字詞萃取串聯之系統1實施步驟如下：

(1)文本搜集步驟S1：

請參閱「第3圖」，圖中所示為本發明之實施示意圖(一)，如圖，伺服器11之資料搜集模組113，係以一網際網路連結至一第三方搜尋系統12，並透過第三方搜尋系統12搜集一文本資訊D1、及與此文本資訊D1具有相關聯性之一文本關聯資訊D2，並進一步將各文本資訊D1與各文本關聯資訊D2儲存至一學習資料庫1121，或直接傳送至一後續字詞萃取模組114；其中，所述之文本資訊D1，係泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限；所述之文本關聯資訊D2係可為文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率等文本或文本內字詞之關聯數據之任一種或其組合，但不以此為限；又，伺服器11係主要透過第三方搜尋系統12，使用瀏覽器搜尋、數據擷取、數據爬蟲(Web Crawler)等方式或其組合，獲取文本資訊D1、及文本關聯資訊D2，但不以此為限；

(2)文本訓練學習步驟S2：

承前文本搜集步驟S1，並請搭配參閱「第4圖」，圖中所示為本發明之實施示意圖(二)，如圖，字詞萃取模組114將文本資訊D1、及文本關聯資訊D2做為第一訓練資訊進行第一機器學習，其中，第一機器學習主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning)，但不以此為限；另，字詞萃取模組114所訓練之文本資訊D1、與文本關聯資訊D2，亦可由資料搜集模組113，先行將資訊存入資料儲存模組112之學習資料庫1121，待其文本資訊D1充足、或可依固定時期進行訓練學習，以達可隨時間推移、及因儲存之數據量不同，而產生即時更新、不同面相、且貼近現實結果之結果；

(3)有價字詞萃取步驟S3：

承前文本訓練學習步驟S2，並請搭配參閱「第5圖」及「第6圖」，圖中所示為本發明之實施示意圖(三)及(四)，如圖，字詞萃取模組114在訓練學習完成後，可基於其第一機器學習之結果，對資料搜集模組113搜集之文本資訊D1，進行一有價字詞D3萃取，並將萃取出之一有價字詞D3，儲存至有價字詞資料庫1122，或將有價字詞D3傳遞至後續之字詞網連結模組115；其中，字詞萃取模組114係由文本資訊D1、及文本關聯資訊D2中，有價字詞D1之文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率等其中一數據或其組合，作為萃取有價字詞D3之依據，例如：字詞萃取模組114基於第一機器學習結果，將文本資訊D1中，「字詞A(口罩)」一詞出現於其10000筆訓練數據中之7000筆數據，並根據其觸擊人數約為10萬人、點擊人數約有7萬人等數據將「字詞A(口罩)」萃取為有價字詞，並依此將「字詞B(醫院)」及「字詞C(疫情)」萃取為有價字詞D3，以上例示僅為舉例，並不以此為限；

(4)有價字詞訓練學習步驟S4：

請參閱「第7圖」，圖中所示為本發明之實施示意圖(五)，如圖，伺服器11之字詞網連結模組115，可將有價字詞D3與文本關聯資訊D2做為一第二訓練資訊，並進行一第二機器學習；其中，第一機器學習主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning)，但不以此為限；另，字詞網連結模組115亦可基於字詞萃取模組114萃取有價字詞D3，並先行儲存至有價字詞資料庫1122，待有價字詞D3充足後再進行訓練學習，以達可隨時間推移、及因儲存之數據量增加，而產生即時更新、不同面相、且貼近現實結果之結果；

(5)有價字詞連結步驟S5：

承前有價字詞訓練學習步驟S4，並請搭配參閱「第8圖」及「第9圖」，圖中所示為本發明之實施示意圖(六)及(七)，如圖，字詞網連結模組115在第二機器學習完成後，基於第二機器學習結果，產生一字詞權重D4，並以字詞權重D4將有價字詞D3與另一有價字詞D3達成連結；其中，字詞權重D4係可視為有價字詞D3與另一有價字詞D3之關聯度，其可基於文本關聯資訊中，有價字詞D3與另一有價字詞D3之文本之使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率、訓練使用次數、出現次數、搜尋次數、外站關聯程度、專家知識轉換、機率空間(Probability Space)、資訊熵(Shannon Entropy)、空間分佈(Spatial Distribution)等各式數值及其轉換組合，但不以此為限；又，字詞權重D4之數據係由字詞網連結模組115訓練學習完成後給予，其可能依時間不同、空間不同、所屬領域不同而有所調整，例如：字詞網連結模組115基於第二機器學習結果，將一網路新聞中，「有價字詞A(口罩)」與另一「有價字詞B(醫院)」共同出現次數、共同使用頻率、搜尋次數等，賦予「有價字詞A(口罩)」與「有價字詞B(醫院)」一關聯度(字詞權重數值D4)0.8，以上實例僅為舉例，並不以此為限；又，有價字詞D3不僅只可與另一有價字詞D3產生連結，更可與另外無數有價字詞(D32、D33...)依字詞權重D4再產生連結，例如：「有價字詞A(口罩)」不僅可基於關聯度0.8與「有價字詞B(醫院)」連結，更可基於關聯度 0.5與「有價字詞C(生活)」連結等，以上例示僅為舉例，並不以此為限；

(6)字詞網成形步驟S6：

承前有價字詞連結步驟S5，並請參閱「第10圖」及「第11圖」，圖中所示為本發明之實施示意圖(八)及(九)，如圖，字詞網連結模組115可將多組基於字詞權重D4連結完成之有價字詞D3、D31、D32...，成形為一字詞網D5，並將字詞網D5儲存至字詞網資料庫1123。

承字詞網成形步驟S6，請參閱「第12圖」，並請搭配參閱「第10圖」，圖中所示為本發明之實施示意圖(十)，如圖，字詞網成形步驟S6後更可接續一提取使用步驟S7；一使用者就有價字詞D3有使用需求時，可透過其使用者資訊裝置，自伺服器11提取有價字詞D3使用，且由於其有價字詞D3已與多組其他有價字詞D31、D32...連結，並連結為字詞網D5，因此，使用者資訊裝置不僅可接收其提取之有價字詞D3，更可提取其餘有關聯之有價字詞D3，例如：使用者使用其電腦、或行動資訊裝置，透過伺服器11輸入並搜尋字詞「口罩」，伺服器11可就其搜尋之字詞「口罩」所關聯之其餘字詞一併提取，舉例如儲存至伺服器11內與關鍵字「口罩」有關聯度0.8之「醫院」、關聯度0.5之「生活」、關聯度0.3之「旅遊」等，又，伺服器11可再提取與「醫院」、「生活」、「旅遊」有其關聯之字詞網D5等，以上例示僅為舉例，並不以此為限。

請參閱「第13圖」，圖中所示為本發明之另一實施例；如圖，伺服器11之資料處理模組111更可與一斷詞輔助模組116呈資訊連結，斷詞輔助模組116可輔助字詞萃取模組114，以一斷詞動作輔助字詞萃取模組114學習與萃取有價字詞D3，其中，斷詞動作主要基於自然語言之名詞、形容詞、副詞、主詞等詞類進行斷詞，且其主要針對無天然分詞之語系，例如中文、日文等語系進行斷詞輔助，例如：字詞萃取模組114係對「今天參加臺北國際家具展」進行有價字詞D3學習與萃取，斷詞輔助模組116可將其斷為「今天」「參加」「臺北」「國際」「家具展」等詞，以便字詞萃取模組114進行後續有價字詞D3學習與萃取，以上例示僅為舉例，並不以此為限。

請參閱「第14圖」，圖中所示為本發明之又一實施例；如圖，字詞網連結模組115中，更可包含一自複製學習功能，字詞網連結模組115針對有價字詞D3整合為字詞網D5，可依過往已整合之字詞網D5，複製過往字詞網D5之有價字詞D3間字詞權重D4，套用至新欲整合之字詞網D5，或因有價字詞D3所訓練之領域、期間、訓練樣本數不同，而套用過往之字詞網D5，即可快速調整字詞權重D4之方式形成另一字詞網D5，例如：「有價字詞A(口罩)」過往以關聯度0.8與「有價字詞B(醫院)」連結，以關聯度0.5與「有價字詞C(生活)」連結，然而，由於所訓練之時間不同，因發生大規模流行性感冒事件，該年文本大量提及口罩與生活，或，因為伺服器11搜尋之文本，醫療領域與餐飲領域使用「有價字詞A(口罩)」之情況不同，因此字詞網連結模組115可套用過往字詞網D5，以「有價字詞A(口罩)」以關聯度0.3與「有價字詞B(醫院)」連結，以字詞權重0.9與「有價字詞C(生活)」連結，因而使字詞網連結模組115不必再次判斷「有價字詞A(口罩)」使否與「有價字詞B(醫院)」、「有價字詞C(生活)」等有所連結，以上例示僅為舉例，並不以此為限。

綜上可知，本有價字詞萃取及形成有價字詞網之方法及其系統，以系統大量搜集文本為主，並利用機器學習提取其有價字詞，再將有價字詞連結成形為字詞網以利後續使用；依此，本發明據以實施後，確實可以自主收集文本，並透過機器學習萃取有價字詞，並將有價字詞連結成字詞網之方法及其系統之目的。

以上所述者，僅為本發明之較佳之實施例而已，並非用以限定本發明實施之範圍；任何熟習此技藝者，在不脫離本發明之精神與範圍下所作之均等變化與修飾，皆應涵蓋於本發明之專利範圍內。