TW202232343A

TW202232343A - 有價字詞判斷及再分類之方法及其系統

Info

Publication number: TW202232343A
Application number: TW110105019A
Authority: TW
Inventors: 林國銘; 李振維; 林思吾
Original assignee: 阿物科技股份有限公司
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-16
Also published as: US20220253728A1; JP7213568B2; TWI751022B; JP2022122231A

Abstract

一種有價字詞判斷及再分類之方法及其系統，其主要係透過預先於一字詞處理伺服器輸入大量文本、及有價值之字詞以進行機器學習，再透過有價字詞與許多跟有價字詞有關聯之標籤進行訓練，使其可學習與判斷文本內符合價值定義的有價字詞，並進一步將其由文本中提取，且於提取後進行再分類，並將每一有價字詞貼上各式關聯性的標籤，以利後續有價字詞之應用。

Description

有價字詞判斷及再分類之方法及其系統

一種有價字詞判斷及再分類之方法及其系統，本發明尤指一種利用機器學習之系統，由文本將有價字詞提取，再將有價字詞分類之方法。

按，網路資訊時代的來臨，現今網路世界中充斥著大量資訊文本、文章、短文等，然，如此大量的資訊內容，無論是網路使用者端、網路資料處理端、或是網路廣告投放者業者端等，難以從大量的資訊中精準的獲取有用之資訊、或應用其有用之資訊；因此，如何就網路資訊中，快速且精準的獲取有用之資訊，成為網路發展中非常重要的一個環節，且，如何以機器取代人工，主動匯集文本資訊，並且以機器學習、判斷並取出有用之資訊，乃現今各行各業所努力之目標，例如中華民國第TWI660317號「行銷標的熱門度預測方法以及非暫態電腦可讀取媒體」中所提及之技術手段，首先自社群媒體下載對應行銷類別文章，通過分詞取得複數關鍵字後，以時序列之方式決定關鍵字之關聯性並建立神經網路模型，最後待適用者使用關鍵字時，可根據其關聯度給與使用者其餘關鍵字使用。

然而，前述之台灣案，在分析關鍵字時僅考慮曝光量，並未考慮其他數據例如點擊率、詞頻出現率、字詞使用率等，且前案在取得複數之關鍵字時，係採用斷詞分詞之技術，雖然斷詞技術在現今文本提取關鍵字中佔有一席之地，但卻也可能導致例如時下流行語、中英混雜語言、火星文等雖並非關鍵字，但對數據分析來說或許有意義(或有價值)之字詞，最後，台灣案在使用者使用關鍵字時，僅提供有關聯度或相似之其於關鍵字，並未提及其可再提供其餘之分類、類別、領域等其餘數據。

綜上所述，現有的有價字詞提取與使用確實存在前述之缺點，據此，如何改善有價字詞提取與使用現有的缺點，乃為待需解決之問題。

有鑒於上述的問題，本發明人係依據多年來從事相關行業的經驗，針對關鍵字提取與使用之系統及方法進行研究及改良；緣此，本發明之主要目的在於提供一種可由文本辨別有價字詞，並將有價字詞進行再分類之系統及方法。

為達上述的目的，本發明所述之一種有價字詞判斷及再分類之方法及其系統，主要有一字詞處理伺服器，其可由一資料提供端預先輸入文本資料，例如網路文章、電子郵件行銷文本、產品說明文等，以作為文本資訊所對應之有價值之字詞為基礎，並進行第一次機器學習，使系統可學習判斷文本內有價值之字詞；又，系統可再透預先輸入的有價字詞，和對應於有價字詞有關聯之分類標籤進行第二次機器學習，使系統不僅可由文本將有價字詞進行提取，並在提取完後，可對提取之有價字詞進行分類，最後賦予與有價字詞有關聯性的各式標籤，當後續對於有價字詞有使用需求時，不僅可由文本分離判斷，更可根據標籤分類，而有不同之應用。

為使貴審查委員得以清楚了解本發明之目的、技術特徵及其實施後之功效，茲以下列說明搭配圖示進行說明，敬請參閱。

請參閱「第1圖」，圖中所示為本發明之組成示意圖(一)；如圖中所示本發明之有價字詞判斷及再分類系統1，其包含有一字詞處理伺服器11、且至少有一第三方搜尋系統12、及一資料提供端裝置13與字詞處理伺服器11呈資訊連結，以下例示各組成要件的功能： (1) 所述之字詞處理伺服器11，主要接收資料提供端裝置13所發送之資料後進行機器學習，並基於所學習之數據建立數個模型，再由字詞處理伺服器11透過第三方搜尋系統12所蒐集之待測資料，於所述的待測資料中判斷、並提取出有價字詞，並進一步再將有價字詞進行分類，最後依分類之類別賦予各有價字詞一分類標籤資訊； (2) 所述之第三方搜尋系統12可以為一搜尋引擎資料庫、或一廣告資料庫、或一文本資料庫之任一種或其組合，但凡可使字詞處理伺服器11能獲取所需之待測輸入樣本之系統，皆可以實施。 (3) 所述之資料提供端裝置13可以為一手機、一平板電腦、一個人電腦等設備之其中一種，但凡可以提供字詞處理伺服器11機器學習所需之資料，皆可以實施，資料提供端裝置13主要提供字詞處理伺服器11進行機器學習、及模型建立時，所需之文本資訊、有價字詞資訊、及分類類別資訊，前述資訊將在後續進行說明。 (4) 又，所述之字詞處理伺服器11主要包含一資料處理模組111，並與一資料儲存模組112、一資料搜集模組113、一字詞判斷模組114、及一字詞再分類模組115分別呈資訊連結，其中，所述之資料處理模組111，係供以運行字詞處理伺服器11，驅動上述各模組之作動，資料處理模組111具備邏輯運算、暫存運算結果、保存執行指令位置等功能，其可以例如為一中央處理器(Central Processing Unit，CPU)，但不以此為限； (5) 所述之資料儲存模組112可供儲存電子資料，其可以為一固態硬碟（Solid State Disk or Solid State Drive，SSD）、一硬碟（Hard Disk Drive，HDD）、或一記憶體之任一種；資料儲存模組112儲存包含有一字詞判斷資料庫1121、一字詞再分類資料庫1122、及一分類完成資料庫1123；其中，所述之字詞判斷資料庫1121可供儲存、及紀錄一文本資訊T1、以及一第一有價字詞資訊L1，文本資訊T1、及第一有價字詞資訊L1係皆由資料提供端裝置13所提供，其中，文本資訊T1主要可泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限，又，第一有價字詞資訊L1主要為對應文本資訊T1內文中的有價字詞，更進一步來說，有價字詞不僅包含關鍵字、凡是時下流行語、中英混雜語言、火星文等有意義之時代字詞，皆符合為有價字詞之定義；再者，有價字詞係由資料提供端裝置13進行標記，其標記之基礎是基於例如有價字詞出現於文本之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率等關聯數據進行標記；所述之字詞再分類資料庫1122可供儲存一第二有價字詞資訊T2、與一分類類別資訊L2，其中，第二有價字詞資訊T2與前述第一有價資訊T1相同，但此處第二有價字詞資訊T2則係基於後續所提及之第二機器學習之輸入資料，因此並無對應之文本資訊，而分類類別資訊L2為此處對應第二有價字詞資訊T2之資訊，分類類別資訊L2係由資料提供端裝置13所標記，其可以為對應有價字詞所屬領域、使用頻率、使用範圍、使用習慣、字詞長度等，亦可為分類標籤的屬性、功能、功效、特徵、品牌等，但不以此為限；所述之分類完成資料庫1123，其主要儲存有一待測有價字詞資訊、及一分類標籤資訊，上述之資訊將在後續詳細描述； (6) 所述之資料搜集模組113，主要用於驅使第三方搜尋系統12搜集一待測文本資訊，並將待測文本資訊傳送至後續字詞判斷模組114，其中，資料搜集模組113主要使用瀏覽器搜尋、數據擷取、數據爬蟲(Web Crawler)等方式或其組合，搜集待測文本資料；又，所述之待測文本資訊係可泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限；另，待測文本資訊不僅包含單一自然語言、或單一自然語系，多種自然語言或混和自然語言亦包含在內； (7) 所述之字詞判斷模組114，主要針對資料搜集模組113所發送之待測文本資訊，判斷待測文本資訊內有價字詞，並將其提取成一待測有價字詞資訊，在傳送至後續字詞再分類模組115，其中，字詞判斷模組114主要使用監督式學習法(Supervised Learning)、半監督式學習法(Semi-Supervised Learning)、或強化式學習法(Reinforcement Learning)等機器學習法(Machine Learning)進行模型架構，但不以此為限；字詞判斷模組114主要由文本資訊T1作為模型訓練時輸入資料，第一有價字詞資訊L1作為模型訓練時標籤資料，進行一第一機器學習，並依此進行模型架構； (8) 所述之字詞再分類模組115，主要針對字詞判斷模組114所發送之待測有價字詞資訊，將待測有價字詞資訊進行分類，並依分類結果賦予有價字詞資訊一分類標籤資訊，最後，將待測有價字詞資訊與分類標籤資訊儲存至分類完成資料庫1123，其中，字詞再分類模組115主要使用監督式學習法(Supervised Learning)、半監督式學習法(Semi-Supervised Learning)、或強化式學習法(Reinforcement Learning)等機器學習法(Machine Learning)進行模型架構，但不以此為限；字詞再分類模組115主要由第二有價字詞資訊T2作為模型訓練時輸入資料，分類類別資訊L2作為模型訓練時標籤資料，進行一第二機器學習，並依此進行模型架構。

請參閱「第3圖」，圖中所示為本發明之實施流程圖，請搭配參閱「第1圖」~「第2圖」，本發明之有價字詞判斷及再分類系統1實施步驟如下: (1) 待測資訊輸入步驟S1：請搭配參閱「第4圖」，圖中所示為本發明之實施示意圖(一)；如圖，字詞處理伺服器11之資料搜集模組113，驅使第三方搜尋系統12，搜集並傳送一待測文本資訊D1至字詞處理伺服器11，再將待測文本資訊D1傳送至字詞判斷模組114，其中，所述之待測文本資訊D1可泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限；另，待測文本資訊D1不僅包含單一自然語言、或單一自然語系，多種自然語言或混和自然語言亦包含在內； (2) 第一模型比對步驟S2：承前步驟，並請搭配參閱「第5圖」及「第6圖」，圖中所示為本發明之實施示意圖(二)及(三)；如圖，字詞判斷模組114接收由資料搜集模組113發送之待測文本資訊D1後，將待測文本資訊D1與一第一機器學習進行比對、分析，其中，第一機器學習模型建立時，係使用字詞判斷資料庫1121中之文本資訊T1作為第一訓練輸入資訊，第一有價字詞資訊L1作為一第一標籤資訊，並以此建立模型，最後再將待測文本資訊D1進行分析、比對及判斷；所述之文本資訊T1主要可泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合，但不以此為限；又，第一有價字詞資訊L1主要為對應文本資訊T1內文中的有價字詞，更進一步來說，有價字詞不僅包含關鍵字，時下流行語、中英混雜語言、火星文等有意義之字詞皆包含在有價字詞，例如：經由第一機器學習，字詞判斷模組114已由文本資訊T1學習「防疫」、「口罩」、「肺炎」、「COVID-19」等詞為有價字詞，並於防疫公報等網路文章、網路短文中判斷是否有「防疫」、「口罩」、「肺炎」、「COVID-19」等相關有價字詞，以上例示僅為舉例，並不以此為限； (3) 有價字詞判斷步驟S3：承前步驟，並請搭配參閱「第7圖」，圖中所示為本發明之實施示意圖(四)；如圖，字詞判斷模組114係判斷待測文本資訊D1，基於第一機器學習結果，由待測文本資訊D1內文本提取待測有價字詞資訊D2，並將待測有價字詞資訊D2傳送至字詞再分類模組115，例如：字詞判斷模組114將防疫公報中，「防疫」、「口罩」、「肺炎」、以及相關的有價字詞「疫苗」、「隔離」等字詞提取，再將提取之有價字詞傳送至後續模組進行分類，以上例示僅為舉例，並不以此為限； (4) 第二模型比對步驟S4：請再搭配參閱「第7圖」，圖中所示為本發明之實施示意圖(四)；如圖，字詞再分類模組115接收字詞判斷模組114所提取之待測有價字詞資訊D2，並將待測有價字詞資訊D2與一第二機器學習進行分析、比對，其中，第二機器學習模型建立時，使用字詞再分類資料庫1122中，以第二有價字詞資訊T2作為第二訓練輸入資訊、以分類類別資訊L2作為一第二標籤資訊，並以此建立模型，最後再將待測有價字詞資訊D2分析、比對；所述之第二有價字詞資訊T2可以為關鍵字、流行語、同義字、諧音字等，但不以此為限，又，所述之分類類別資訊L2主要為對應第二有價字詞資訊T2之分類類別，更進一步來說，分類類別資訊L2係可包含第二有價字詞資訊T2中，有價字詞之所屬領域、使用頻率、使用範圍、使用習慣、字詞長度等，但不以此為限，例如：經由第二機器學習，字詞再分類模組115已由第二有價字詞資訊T2學習到「口罩」所屬分類可能有醫療、疾病、食品、健康、旅遊等，特別的是，所述的所屬分類亦可能包含被分類的標籤屬性，標籤屬性可能有「口罩」的品牌、商品特徵、功能、功效、效用等，另，肺炎所屬分類可能有醫療、疾病、感染、流感，「COVID-19」所屬分類可能有醫療、病毒、冠狀病毒、全球、變種等分類類別，以上例示僅為舉例，並不以此為限； (5) 有價字詞再分類步驟S5：承前步驟，並請搭配參閱「第8圖」，圖中所示為本發明之實施示意圖(五)；如圖，字詞再分類模組115係判斷待測有價字詞資訊D2，基於第二機器學習結果，將待測有價字詞資訊D2賦予一分類標籤資訊D3，最後，字詞再分類模組115再將待測有價字詞資訊D2、與分類標籤資訊D3，儲存於分類完成資料庫1123，其中，分類標籤資訊D3係與分類類別資訊L2相同，惟此處僅針對待測有價字詞資訊D2所對應之所屬領域、使用頻率、使用範圍、使用習慣、字詞長度等，但不以此為限，例如：承有價字詞判斷步驟S3所例示，有價字詞「防疫」、「口罩」、「肺炎」、「疫苗」、以及「隔離」皆被分類為醫療，「口罩」可能分類更有疾病、食品、健康，「肺炎」可能分類更有醫療、疾病、感染、流感等，以上例示僅為舉例，並不以此為限。

請搭配參閱「第9圖」，圖中所示為本發明之另一實施例，如圖，有價字詞再分類步驟S5後更可接續一提取使用步驟S6，一使用者可透過一使用者端裝置，透過字詞處理伺服器11搜尋、提取或使用有價字詞時，對應於有價字詞的分類類別標籤亦一併由字詞處理伺服器11提取出，並供使用者端裝置使用，例如：使用者A使用手機，透過字詞處理伺服器11搜尋「口罩」，而所屬於「口罩」的分類標籤醫療、疾病、食品、健康、交通亦一並提取，供使用者A使用，以上例示僅為舉例，並不以此為限。

請參閱「第10圖」，圖中所示為本發明之又一實施例；如圖，字詞處理伺服器11更可包含一校正模組116，校正模組116係可接收資料提供端裝置13所提供之一校正資訊，透過接收之校正資訊，調整該字詞判斷模組114之第一機器學習、及字詞再分類模組115之第二機器學習之結果，例如：資料提供端裝置13發送一校正資訊，將「口罩」的分類標籤食品進行刪除，校正模組116收到此校正資訊後，調整字詞再分類模組115，以上例示僅為舉例，並不以此為限。

綜上可知，本商品有價字詞判斷及再分類之方法及其系統，以二次機器學習之方式，使系統可將有價字詞由文中判斷提取，再將有價字詞進行分類，並依分類類別賦予各式標籤至有價字詞；依此，本發明據以實施後，確實可以達到由文本辨別有價字詞，並將有價字詞進行再分類之目的。

以上所述者，僅為本發明之較佳之實施例而已，並非用以限定本發明實施之範圍；任何熟習此技藝者，在不脫離本發明之精神與範圍所作之均等變化與修飾，皆應涵蓋於本發明之專利範圍內。

1:有價字詞判斷及再分類系統 11:字詞處理伺服器 12:第三方搜尋系統 111:資料處理模組 112:資料儲存模組 1121:字詞判斷資料庫 1122:字詞再分類資料庫 1123:分類完成資料庫 113:資料搜集模組 114:字詞判斷模組 115:字詞再分類模組 116:校正模組 13:資料提供端裝置 T1:文本資訊 L1:第一有價字詞資訊 T2:第二有價字詞資訊 L2:分類類別資訊 D1:待測文本資訊 D2:待測有價字詞資訊 D3:分類標籤資訊 S1:待測資訊輸入步驟 S2:第一模型比對步驟 S3:有價字詞判斷步驟 S4:第二模型比對步驟 S5:有價字詞再分類步驟 S6:提取使用步驟

第1圖，為本發明之組成示意圖(一)。第2圖，為本發明之組成示意圖(二)。第3圖，為本發明之實施流程圖。第4圖，為本發明之實施示意圖(一)。第5圖，為本發明之實施示意圖(二)。第6圖，為本發明之實施示意圖(三)。第7圖，為本發明之實施示意圖(四)。第8圖，為本發明之實施示意圖(五)。第9圖，為本發明之另一實施例。第10圖，為本發明之又一實施例。

S1:待測資訊輸入步驟

S2:第一模型比對步驟

S3:有價字詞判斷步驟

S4:第二模型比對步驟

S5:有價字詞再分類步驟

S6:提取使用步驟

Claims

一種有價字詞判斷及再分類方法，其包含：一待測資訊輸入步驟，一字詞處理伺服器之一資料搜集模組，係透過一第三方搜尋系統，搜集一待測文本資訊，並將該待測文本資訊傳送至該字詞處理伺服器之一字詞判斷模組；一第一模型比對步驟，該字詞判斷模組係將該待測文本資訊分析、比對並判斷該有價字詞，該字詞判斷模組係基於一字詞判斷資料庫中之一文本資訊作為一第一訓練輸入資訊、及一第一有價字詞資訊作為一第一標籤資訊，以進行一第一機器學習並學習完成之模組；一有價字詞判斷步驟，承前步驟，該字詞判斷模組係由該待測文本資訊，基於該第一機器學習結果，提取一待測有價字詞資訊，並將該待測有價字詞資訊傳送至一字詞再分類模組；一第二模型比對步驟，該字詞再分類模組係將該待測有價字詞資訊分析、比對，並將該待測有價字詞資訊進行分類，該字詞再分類模組係基於一字詞再分類資料庫中，一第二有價字詞資訊做為一第二訓練輸入資訊、及一分類類別資訊做為一第二標籤資訊，以進行一第二機器學習並學習完成之模組；以及一有價字詞再分類步驟，承前步驟，該字詞再分類模組係依該第二機器學習結果，賦予該待測有價字詞資訊一分類標籤資訊，並將該待測有價字詞資訊與該分類標籤資訊儲存於一分類完成資料庫。
如請求項1所述之有價字詞判斷及再分類方法，其中，該文本資訊係為一網路文章、一電子郵件行銷文本、一產品說明文、一公開文獻、一短文本之任一形式或其組合資訊。
如請求項1所述之有價字詞判斷及再分類方法，其中，該第一文本資訊、該第一有價字詞資訊、該第二有價字詞資訊、及分類類別資訊係由一資料提供端裝置提供。
如請求項1所述之有價字詞判斷及再分類方法，其中，該第一機器學習、及該第二機器學習主要使用監督式學習法、半監督式學習法、及強化式機器學習法之其中一種。
如請求項1所述之有價字詞判斷及再分類方法，其中，該有價字詞再分類步驟後更可接續一提取使用步驟，一使用者端可透過一使用者端裝置，由該字詞處理伺服器提取該有價字詞時，該分類標籤資訊亦一併由該字詞處理伺服器提取出。
一種有價字詞判斷及再分類系統，其包含：一字詞處理伺服器，其主要包含一資料處理模組，另有一資料儲存模組、一資料搜集模組、一字詞判斷模組、及一字詞再分類模組與之呈資訊連接，該資料處理模組供以運行該伺服器；該資料儲存模組主要包含一字詞判斷資料庫、一字詞再分類資料庫、及一分類完成資料庫；該資料搜集模組係主要搜集一待測文本資訊，並傳送至該字詞判斷模組；該字詞判斷模組係將儲存於該字詞判斷資料庫之一文本資訊做為一第一訓練輸入資訊、及一第一有價字詞資訊做為一第一標籤資訊，並進行一第一機器學習，該字詞判斷模組再基於該第一機器學習之結果，由該待測文本資訊中判斷一待測有價字詞資訊，提取該待測有價字詞資訊並傳送至該字詞再分類模組；該字詞再分類模組將儲存於該字詞再分類資料庫之一第二有價字詞資訊做為一第二訓練輸入資訊、及一分類類別資訊做為一第二標籤資訊，並進行一第二機器學習，該字詞再分類模組再基於第二機器學習之結果，將該待測有價字詞資訊分類，並依分類之結果賦予該待測有價字詞資訊一分類標籤資訊，再將該待測有價字詞資訊與該分類標籤資訊儲存於該分類完成資料庫；一第三方搜尋系統，用以提供該待測文本資訊至該字詞處理伺服器；以及一資料提供端裝置，該資料提供端裝置係提供該文本資訊、該第一有價字詞資訊、該第二有價資訊、及該分類類別資訊至該字詞處理伺服器。
如請求項6所述之有價字詞判斷及再分類系統，其中，該文本資訊係為一網路文章、一電子郵件行銷文本、一產品說明文、一公開文獻、一短文本之任一形式或其組合資訊。
如請求項6所述之有價字詞判斷及再分類系統，其中，該第一機器學習、及該第二機器學習主要使用監督式學習法、半監督式學習法、及強化式機器學習法之其中一種。
如請求項6所述之有價字詞判斷及再分類系統，其中，該字詞處理伺服器更包含一校正模組，該校正模組係可由該資料提供端裝置所提供之一校正資訊，基於該校正資訊調整該第一機器學習、及該第二機器學習之結果。