TWI752822B - 有價字詞萃取及形成有價字詞網之方法及其系統 - Google Patents

有價字詞萃取及形成有價字詞網之方法及其系統 Download PDF

Info

Publication number
TWI752822B
TWI752822B TW110105017A TW110105017A TWI752822B TW I752822 B TWI752822 B TW I752822B TW 110105017 A TW110105017 A TW 110105017A TW 110105017 A TW110105017 A TW 110105017A TW I752822 B TWI752822 B TW I752822B
Authority
TW
Taiwan
Prior art keywords
word
valuable
text
words
network
Prior art date
Application number
TW110105017A
Other languages
English (en)
Other versions
TW202232342A (zh
Inventor
林國銘
林思吾
Original Assignee
阿物科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿物科技股份有限公司 filed Critical 阿物科技股份有限公司
Priority to TW110105017A priority Critical patent/TWI752822B/zh
Priority to JP2021077467A priority patent/JP7212961B2/ja
Priority to US17/328,086 priority patent/US11775751B2/en
Application granted granted Critical
Publication of TWI752822B publication Critical patent/TWI752822B/zh
Publication of TW202232342A publication Critical patent/TW202232342A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種有價字詞萃取及形成有價字詞網之方法及其系統,其主要係以一伺服器,針對各式網路文章、EDM、產品說明文等文本之內容,進行蒐集並輔以機器學習之方式,萃取各文本內有價值之文字或單詞,並將各個有價字詞再以機器學習之方式,以觀看數、點擊數、觸及數、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈等各式數值及其轉換與其它有價字詞進行權重連結,多組已連結完成之有價字詞可進行整合,以形成一字詞網,當有其關鍵字使用需求時,不僅可從其資料庫取出該有價字詞,字詞網可一併取出,以便進行後續各式之應用。

Description

有價字詞萃取及形成有價字詞網之方法及其系統
一種有價字詞萃取及形成有價字詞網之方法及其系統,本發明尤指一種利用字詞分析與機器學習,特別是利用字詞萃取,並將大量字詞連結形成為有價字詞網之方法及實施此方法的系統。
按,網路資訊時代的來臨,現今網路世界中充斥著大量資訊文本、文章、短文等,然,如此大量的資訊內容,無論是網路使用者端、網路資料處理端、或是網路廣告投放者業者端等,難以從大量的資訊中精準的獲取有用之資訊、或應用其有用之資訊;因此,如何就網路資訊中,快速且精準的獲取有用之資訊,成為網路發展中非常重要的一個環節;於此,諸多的習知技術曾有相關的揭露,例如中華人民共和國第CN111488736A號「自學習分詞方法、裝置、計算機設備和存儲介質」、與第CN111125484A「話題發現方法、系統及電子設備」,其技術特徵即為針對用戶使用關鍵字搜尋時所搜尋之熱詞,或對歷史文本進行詞頻統計以判斷其熱詞,另有其他先前技術可供參考如下 (1)CN106055545A「文本挖掘系统及工具」;(2)CN107423444A「熱詞詞組提取方法和系統」;(3)US20150341771A1「Hotspot aggregation method and device」;(4)US20140122493A1「Ecosystem method of aggregation and search and related techniques」;(5)JPA 2020181463「
Figure 110105017-A0305-02-0005-16
探索
Figure 110105017-A0305-02-0005-17
Figure 110105017-A0305-02-0005-18
」;(6)JPA 2019003406「情報収集装置、情報収集方法、
Figure 110105017-A0305-02-0005-19
情報収集
Figure 110105017-A0305-02-0005-20
」。
由以上揭露內容可知,使用者端針對如何於文本中提取有效(或可定義為「有價值」、「關鍵」)之字詞或文句等已有諸多方法,且特別是針對如何定義其為「關鍵字」之依據,為許多前揭技術所探討的主軸例如:關鍵字於各文本出現的頻率、斷詞分析的使用方法、使用者使用該字詞之頻率等等,亦多有所揭;然而,若僅利用機器學習針對關鍵字進行提取,有可能會錯失其餘非關鍵字但卻有用之字詞;且,提取關鍵字的過程中,亦容易因人為刻意操作,而導致其系統進行判斷的結果悖於真實,例如:流行語、雙關語、中英混雜使用等;更進一步而言,單就提取文本中關鍵字,如未能經過更有系統性的整理,亦容易使該關鍵字在後續被應用時,無法與其他關鍵字做有效的組合使用。
綜上所述,現有之關鍵字的收集、及使用確實存在前述之缺點,據此,如何改善關鍵字之收集的缺點、以及提升其應用的便利性與有效性,乃為待需解決之問題。
有鑒於上述的問題,本發明人係依據多年來從事相關行業的經驗,針對文本內有價值之字詞處理方法進行研究及改良;緣此,本發明之主要目的在於提供一種可針對網路上的各式文本進行自主收集,並透過機器學習萃取出有價字詞,再將各有價字詞連結形成「有價字詞網」之有價字詞萃取及形成有價字詞網之方法及其系統。
為達上述的目的,本發明所述之有價字詞萃取及形成有價字詞網之方法及其系統,其主要可針對各式網路文章、EDM文本(電子郵件行銷)、產品說明文等具有文字內容的文本,由伺服器以主動或自主收集之方式收集各式文本,並以機器學習訓練學習大量文本,再萃取出各個文本內有價值之文字或單詞,有價值之字詞並非僅限於關鍵字,伺服器可依據各式情況(例如流行語、雙關語、中英混雜詞等)萃取並儲存具有應用價值的「有價字詞」,當萃取有價字詞完成後,伺服器可再將有價字詞進行訓練,並依據各個有價字詞中,其觀看數、點擊數、觸及數、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈等各式數值及 其轉換與其它有價字詞進行權重連結等數值,與其他有價字詞進行權重連結;所述的權重連結可顯示各有價字詞之間的關聯性,並會依時間性、地域性不同而有不同的調整,因此,伺服器可進一步將多組連結完成之有價字詞進行整合,形成一綿密之「有價字詞網」,當後續使用者就其有價字詞有使用需求時,在經由伺服器從其資料庫提取相關的有價字詞時,亦同時將有價字詞之有價字詞網一併取出;又,若有價字詞有分屬不同領域或不同面向,伺服器更可以一自複製學習,將有價字詞網以不同領域直接進行權重調整,而無須重新對有價字詞進行權重連結,以便使用者進行後續各種應用及處理之目的。
為使 貴審查委員得以清楚了解本發明之目的、技術特徵及其實施後之功效,茲以下列說明搭配圖示進行說明,敬請參閱。
1:有價字詞萃取及形成有價字詞網之系統
11:伺服器
12:第三方搜尋系統
111:資料處理模組
112:資料儲存模組
1121:學習資料庫
1122:有價字詞資料庫
1123:字詞網資料庫
113:資料搜集模組
114:字詞萃取模組
115:字詞網連結模組
116:斷詞輔助模組
D1:文本資訊
D2:文本關聯資訊
D3:有價字詞
D4:字詞權重
D5:字詞網
S1:文本搜集步驟
S2:文本訓練學習步驟
S3:有價字詞萃取步驟
S4:有價字詞訓練學習步驟
S5:有價字詞連結步驟
S6:字詞網成形步驟
S7:提取使用步驟
第1圖,為本發明之組成示意圖。
第2圖,為本發明之實施流程圖。
第3圖,為本發明之實施示意圖(一)。
第4圖,為本發明之實施示意圖(二)。
第5圖,為本發明之實施示意圖(三)。
第6圖,為本發明之實施示意圖(四)。
第7圖,為本發明之實施示意圖(五)。
第8圖,為本發明之實施示意圖(六)。
第9圖,為本發明之實施示意圖(七)。
第10圖,為本發明之實施示意圖(八)。
第11圖,為本發明之實施示意圖(九)。
第12圖,為本發明之另一實施例。
第13圖,為本發明之又一實施例。
第14圖,為本發明之又一實施例。
請參閱「第1圖」,圖中所示為本發明之組成示意圖,如圖中所示,為本發明之有價字詞萃取及形成有價字詞網之系統1,其包含有一伺服器11、及一第三方搜尋系統12,以下說明及例示各組成要件的功能:
(1)所述之伺服器11主要與一第三方搜尋系統12完成資訊連結,且伺服器11可透過第三方搜尋系統12獲取所需之學習訓練樣本,並基於所學習訓練之樣本建立模型,其模型由主要由機器學習訓練學習文本,並萃取文本中有價字詞,再將萃取出的多個有價字詞,進一步連結成形為一有價字詞網;
(2)所述之第三方搜尋系統12可以為一搜尋引擎資料庫、或一廣告資料庫、或一文本資料庫,但凡可使伺服器11能獲取所需之學習訓練樣本之系統,皆可以實施。
(3)又,所述之伺服器11主要包含一資料處理模組111,並與一資料儲存模組112、一資料搜集模組113、一字詞 萃取模組114、及一字詞網連結模組115分別呈資訊連結,其中,所述之資料處理模組111,係供以運行伺服器11,以及用以驅動與其資訊連結的各模組之作動,資料處理模組111具備邏輯運算、暫存運算結果、保存執行指令位置等功能,其可以例如為一中央處理器(Central Processing Unit,CPU),但不以此為限;
(4)所述之資料儲存模組112可供儲存電子資料,其可例如為一固態硬碟(Solid State Disk or Solid State Drive,SSD)、一硬碟(Hard Disk Drive,HDD)、一靜態記憶體(Static Random Access Memory,SRAM)、或一隨機存取記憶體(Random Access Memory,DRAM)等;又,資料儲存模組112主要儲存有一學習資料庫1121、一有價字詞資料庫1122、及一字詞網資料庫1123;所述之學習資料庫1121,主要儲存由資料搜集模組113所搜集之文本資訊、及文本關聯資訊;所述之有價字詞資料庫1122,主要儲存字詞萃取模組114所萃取之有價字詞;所述之字詞網資料庫1123,主要儲存字詞網連結模組115所連結整合之字詞網;
(5)所述之資料搜集模組113主要可透過第三方搜尋系統12,獲取文本資訊與文本關聯資訊,其中,資料搜集模組113主要使用瀏覽器搜尋、數據擷取、數據爬蟲(Web Crawler)等方式或其組合,獲取文本資訊及文本關聯資訊,但不以此為限;又,所述之文本資訊係可 泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合,但不以此為限;另,文本資訊不僅包含單一自然語言、或單一自然語系,多種自然語言或混和自然語言亦包含在內;所述之文本關聯資訊係可為文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率、外站關聯程度、專家知識轉換、機率空間(Probability Space)、資訊熵(Shannon Entropy)、空間分佈(Spatial Distribution)等各式數值及其轉換與其它有價字詞進行權重連結等文本、或文本內字詞之關聯數據之任一種、或其組合,但不以此為限;更進一步來說,所述之外站關聯程度,為將從外部爬取到的資料做分析演算,並以其關聯之字詞各別計算分數給與外部爬取到的資料文本,所述之專家知識轉換,為將現有的公司內的專家規則,將現有知識,轉成量化數值,例如外顯知識(Explicit Knowledge),但不以此為限;
(6)所述之字詞萃取模組114可針對文本資訊進行訓練學習,並萃取出有價字詞,其訓練學習主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning),但不以此為限; 所述之字詞萃取模組114係將由資料搜集模組113進行自主搜集、或儲存在學習資料庫1121之文本資訊、與文本關聯資訊做為訓練資料,並萃取出有價字詞儲存至有價字詞資料庫1122,或傳送至後續之字詞網連結模組115,又,字詞萃取模組114所萃取之有價字詞,其不僅限於單一語言或語系,不同語言或語系等相同或相似之字詞亦可萃取。
(7)所述之字詞網連結模組115,可針對字詞萃取模組114所傳送或儲存至有價字詞資料庫1122之有價字詞,與文本關聯資訊進行訓練學習,並賦予有價字詞與另一有價字詞,以一字詞權重為依據產生連結,其訓練學習亦主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning),但不以此為限;又,有價字詞可與另外數個有價字詞有其字詞權重,並以此產生連結,而另一有價字詞亦可再與後續之有價字詞連結,因此,字詞網連結模組115將綿延之有價字詞連結形成為一有價字詞網,並儲存至字詞網資料庫1123。
請參閱「第2圖」,圖中所示為本發明之實施流程圖,請搭配參閱「第1圖」,本發明之有價字詞萃取串聯之系統1實施步驟如下:
(1)文本搜集步驟S1:
請參閱「第3圖」,圖中所示為本發明之實施示意圖(一),如圖,伺服器11之資料搜集模組113,係以一網際網路連結至一第三方搜尋系統12,並透過第三方搜尋系統12搜集一文本資訊D1、及與此文本資訊D1具有相關聯性之一文本關聯資訊D2,並進一步將各文本資訊D1與各文本關聯資訊D2儲存至一學習資料庫1121,或直接傳送至一後續字詞萃取模組114;其中,所述之文本資訊D1,係泛指為網路文章、電子郵件行銷文本、產品說明文、公開文獻、短文本等文字文本或其組合,但不以此為限;所述之文本關聯資訊D2係可為文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率等文本或文本內字詞之關聯數據之任一種或其組合,但不以此為限;又,伺服器11係主要透過第三方搜尋系統12,使用瀏覽器搜尋、數據擷取、數據爬蟲(Web Crawler)等方式或其組合,獲取文本資訊D1、及文本關聯資訊D2,但不以此為限;
(2)文本訓練學習步驟S2:
承前文本搜集步驟S1,並請搭配參閱「第4圖」,圖中所示為本發明之實施示意圖(二),如圖,字詞萃取模組114將文本資訊D1、及文本關聯資訊D2做為第一訓練資訊進行第一機器學習,其中,第一機器學習主要使用 非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning),但不以此為限;另,字詞萃取模組114所訓練之文本資訊D1、與文本關聯資訊D2,亦可由資料搜集模組113,先行將資訊存入資料儲存模組112之學習資料庫1121,待其文本資訊D1充足、或可依固定時期進行訓練學習,以達可隨時間推移、及因儲存之數據量不同,而產生即時更新、不同面相、且貼近現實結果之結果;
(3)有價字詞萃取步驟S3:
承前文本訓練學習步驟S2,並請搭配參閱「第5圖」及「第6圖」,圖中所示為本發明之實施示意圖(三)及(四),如圖,字詞萃取模組114在訓練學習完成後,可基於其第一機器學習之結果,對資料搜集模組113搜集之文本資訊D1,進行一有價字詞D3萃取,並將萃取出之一有價字詞D3,儲存至有價字詞資料庫1122,或將有價字詞D3傳遞至後續之字詞網連結模組115;其中,字詞萃取模組114係由文本資訊D1、及文本關聯資訊D2中,有價字詞D1之文本使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率等其中一數據或其組合,作為萃取有價字詞D3之依據,例如:字詞萃 取模組114基於第一機器學習結果,將文本資訊D1中,「字詞A(口罩)」一詞出現於其10000筆訓練數據中之7000筆數據,並根據其觸擊人數約為10萬人、點擊人數約有7萬人等數據將「字詞A(口罩)」萃取為有價字詞,並依此將「字詞B(醫院)」及「字詞C(疫情)」萃取為有價字詞D3,以上例示僅為舉例,並不以此為限;
(4)有價字詞訓練學習步驟S4:
請參閱「第7圖」,圖中所示為本發明之實施示意圖(五),如圖,伺服器11之字詞網連結模組115,可將有價字詞D3與文本關聯資訊D2做為一第二訓練資訊,並進行一第二機器學習;其中,第一機器學習主要使用非監督式學習(Unsupervised learning)、自監督式學習法(Self-Supervised Learning)或啟發式演算法(Heuristic Algorithms)等可自行進行訓練學習之機器學習法(Machine Learning),但不以此為限;另,字詞網連結模組115亦可基於字詞萃取模組114萃取有價字詞D3,並先行儲存至有價字詞資料庫1122,待有價字詞D3充足後再進行訓練學習,以達可隨時間推移、及因儲存之數據量增加,而產生即時更新、不同面相、且貼近現實結果之結果;
(5)有價字詞連結步驟S5:
承前有價字詞訓練學習步驟S4,並請搭配參閱「第8圖」及「第9圖」,圖中所示為本發明之實施示意圖(六)及(七),如圖,字詞網連結模組115在第二機器學習完成 後,基於第二機器學習結果,產生一字詞權重D4,並以字詞權重D4將有價字詞D3與另一有價字詞D3達成連結;其中,字詞權重D4係可視為有價字詞D3與另一有價字詞D3之關聯度,其可基於文本關聯資訊中,有價字詞D3與另一有價字詞D3之文本之使用次數、文本連結次數、文本引用次數、文本點擊次數、文本目擊次數、文本內文字點擊數、及該文本內字詞之出現頻率、使用頻率、觸及頻率、點擊頻率、共同詞頻出現率、訓練使用次數、出現次數、搜尋次數、外站關聯程度、專家知識轉換、機率空間(Probability Space)、資訊熵(Shannon Entropy)、空間分佈(Spatial Distribution)等各式數值及其轉換組合,但不以此為限;又,字詞權重D4之數據係由字詞網連結模組115訓練學習完成後給予,其可能依時間不同、空間不同、所屬領域不同而有所調整,例如:字詞網連結模組115基於第二機器學習結果,將一網路新聞中,「有價字詞A(口罩)」與另一「有價字詞B(醫院)」共同出現次數、共同使用頻率、搜尋次數等,賦予「有價字詞A(口罩)」與「有價字詞B(醫院)」一關聯度(字詞權重數值D4)0.8,以上實例僅為舉例,並不以此為限;又,有價字詞D3不僅只可與另一有價字詞D3產生連結,更可與另外無數有價字詞(D32、D33...)依字詞權重D4再產生連結,例如:「有價字詞A(口罩)」不僅可基於關聯度0.8與「有價字詞B(醫院)」連結,更可基於關聯度 0.5與「有價字詞C(生活)」連結等,以上例示僅為舉例,並不以此為限;
(6)字詞網成形步驟S6:
承前有價字詞連結步驟S5,並請參閱「第10圖」及「第11圖」,圖中所示為本發明之實施示意圖(八)及(九),如圖,字詞網連結模組115可將多組基於字詞權重D4連結完成之有價字詞D3、D31、D32...,成形為一字詞網D5,並將字詞網D5儲存至字詞網資料庫1123。
承字詞網成形步驟S6,請參閱「第12圖」,並請搭配參閱「第10圖」,圖中所示為本發明之實施示意圖(十),如圖,字詞網成形步驟S6後更可接續一提取使用步驟S7;一使用者就有價字詞D3有使用需求時,可透過其使用者資訊裝置,自伺服器11提取有價字詞D3使用,且由於其有價字詞D3已與多組其他有價字詞D31、D32...連結,並連結為字詞網D5,因此,使用者資訊裝置不僅可接收其提取之有價字詞D3,更可提取其餘有關聯之有價字詞D3,例如:使用者使用其電腦、或行動資訊裝置,透過伺服器11輸入並搜尋字詞「口罩」,伺服器11可就其搜尋之字詞「口罩」所關聯之其餘字詞一併提取,舉例如儲存至伺服器11內與關鍵字「口罩」有關聯度0.8之「醫院」、關聯度0.5之「生活」、關聯度0.3之「旅遊」等,又,伺服器11可再提取與「醫院」、「生活」、「旅遊」有其關聯之字詞網D5等,以上例示僅為舉例,並不以此為限。
請參閱「第13圖」,圖中所示為本發明之另一實施例;如圖,伺服器11之資料處理模組111更可與一斷詞輔助模組116呈資訊連結,斷詞輔助模組116可輔助字詞萃取模組114,以一斷詞動作輔助字詞萃取模組114學習與萃取有價字詞D3,其中,斷詞動作主要基於自然語言之名詞、形容詞、副詞、主詞等詞類進行斷詞,且其主要針對無天然分詞之語系,例如中文、日文等語系進行斷詞輔助,例如:字詞萃取模組114係對「今天參加臺北國際家具展」進行有價字詞D3學習與萃取,斷詞輔助模組116可將其斷為「今天」「參加」「臺北」「國際」「家具展」等詞,以便字詞萃取模組114進行後續有價字詞D3學習與萃取,以上例示僅為舉例,並不以此為限。
請參閱「第14圖」,圖中所示為本發明之又一實施例;如圖,字詞網連結模組115中,更可包含一自複製學習功能,字詞網連結模組115針對有價字詞D3整合為字詞網D5,可依過往已整合之字詞網D5,複製過往字詞網D5之有價字詞D3間字詞權重D4,套用至新欲整合之字詞網D5,或因有價字詞D3所訓練之領域、期間、訓練樣本數不同,而套用過往之字詞網D5,即可快速調整字詞權重D4之方式形成另一字詞網D5,例如:「有價字詞A(口罩)」過往以關聯度0.8與「有價字詞B(醫院)」連結,以關聯度0.5與「有價字詞C(生活)」連結,然而,由於所訓練之時間不同,因 發生大規模流行性感冒事件,該年文本大量提及口罩與生活,或,因為伺服器11搜尋之文本,醫療領域與餐飲領域使用「有價字詞A(口罩)」之情況不同,因此字詞網連結模組115可套用過往字詞網D5,以「有價字詞A(口罩)」以關聯度0.3與「有價字詞B(醫院)」連結,以字詞權重0.9與「有價字詞C(生活)」連結,因而使字詞網連結模組115不必再次判斷「有價字詞A(口罩)」使否與「有價字詞B(醫院)」、「有價字詞C(生活)」等有所連結,以上例示僅為舉例,並不以此為限。
綜上可知,本有價字詞萃取及形成有價字詞網之方法及其系統,以系統大量搜集文本為主,並利用機器學習提取其有價字詞,再將有價字詞連結成形為字詞網以利後續使用;依此,本發明據以實施後,確實可以自主收集文本,並透過機器學習萃取有價字詞,並將有價字詞連結成字詞網之方法及其系統之目的。
以上所述者,僅為本發明之較佳之實施例而已,並非用以限定本發明實施之範圍;任何熟習此技藝者,在不脫離本發明之精神與範圍下所作之均等變化與修飾,皆應涵蓋於本發明之專利範圍內。
S1:文本搜集步驟
S2:文本訓練學習步驟
S3:有價字詞萃取步驟
S4:有價字詞訓練學習步驟
S5:有價字詞連結步驟
S6:字詞網成形步驟
S7:提取使用步驟

Claims (12)

  1. 一種有價字詞萃取及形成有價字詞網之方法,其包含:一文本搜集步驟,一伺服器可透過一網路連結至一第三方搜尋系統,該伺服器可自主透過該第三方搜尋系統搜尋一或多個一文本資訊,及與該文本資訊相關聯性之一文本關聯資訊;一文本訓練學習步驟,承前步驟,該伺服器係持續將該文本資訊、及該文本關聯資訊搜集並傳遞至該伺服器之一字詞萃取模組,該字詞萃取模組係將該文本資訊、與該文本關聯資訊,做為一第一訓練資訊進行一第一機器學習;一有價字詞萃取步驟,承前步驟,該字詞萃取模組係完成基於該第一機器學習後,該字詞萃取模組基於該第一機器的一學習結果,由該文本資訊萃取出一或多個一有價字詞,並儲存至該伺服器;一有價字詞訓練學習步驟,該伺服器之一字詞網連結模組係將儲存之一或多個該有價字詞、及該文本關聯資訊,作為一第二訓練資料進行一第二機器學習;一有價字詞連結步驟,承前步驟,該字詞網連結模組係完成該第二機器學習後,基於該第二機器學習結果,將該有價字詞以一字詞權重,連結至另一或多個有價字詞;以及 一字詞網成形步驟,承前步驟,一字詞網連結模組將一或多組基於該字詞權重連結完成之該有價字詞,整合為一字詞網,並將該字詞網儲存至該伺服器內。
  2. 如請求項1所述之有價字詞萃取及形成有價字詞網之方法,其中,該文本資訊係為一網路文章、一電子郵件行銷文本、一產品說明文、一公開文獻、一短文本之任一種或其組合。
  3. 如請求項1所述之有價字詞萃取及形成有價字詞網之方法,其中,該文本關聯資訊係為一文本使用次數、一文本連結次數、一文本引用次數、一文本點擊次數、一文本目擊次數、及該文本內字詞之一出現頻率、一使用頻率、一觸及頻率、一點擊頻率、一共同詞頻出現率、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈之任一種或其組合。
  4. 如請求項1所述之有價字詞萃取及形成有價字詞網之方法,其中,該第一機器學習、及該第二機器學習主要採用非監督式學習法、自監督式學習法、及啟發式演算法之其中一種或其組合。
  5. 如請求項1所述之有價字詞萃取及形成有價字詞網之方法,其中,該字詞萃取模組可針對各不同語系 之該文本資訊進行學習,並可萃取各不同語系之相同或相似之該有價字詞。
  6. 如請求項1所述之有價字詞萃取及形成有價字詞網之方法,其中,該字詞網成形步驟後更可接續一提取使用步驟,一使用者端可透過一使用者端裝置,由該伺服器提取該有價字詞,基於由該字詞權重所連結,屬於該有價字詞之該字詞網,亦被一併由該伺服器提取出。
  7. 一種有價字詞萃取及形成有價字詞網之系統,其包含:一伺服器,其主要包含一資料處理模組,另有一資料儲存模組、一資料搜集模組、一字詞萃取模組、及一字詞網連結模組與之呈資訊連結,該資料處理模組供以運行該伺服器;該資料儲存模組主要包含一學習資料庫、一有價字詞資料庫、及一字詞網資料庫;該資料搜集模組係主要搜集一文本資訊、及一文本關聯資訊,並儲存至該學習資料庫;該字詞萃取模組係將儲存於該學習資料庫之該文本資訊,與該文本關聯資訊做為一第一訓練資訊,並進行一第一機器學習,基於該第一機器學習結果,將該文本資料萃取出一有價字詞,並將該有價字詞儲存至該有價字詞資料庫; 該字詞網連結模組係將該有價字詞、與該文本關聯資訊,做為一第二訓練資訊,並進行一第二機器學習,再基於該第二機器學習結果,將該有價字詞依一字詞權重,連結至另一或多個該有價字詞,該字詞網連結模組再將一或多組基於該字詞權重連結之該有價字詞產生為一字詞網,並將該字詞網儲存至該字詞網資料庫;以及一第三方搜尋系統,該第三方搜尋系統係提供該文本資訊、及該文本關聯資訊至該伺服器。
  8. 如請求項7所述之有價字詞萃取及形成有價字詞網之系統,其中,該文本資訊係為一網路文章、一電子郵件行銷文本、一產品說明文、一公開文獻、一短文本之任一種或其組合。
  9. 如請求項7所述之有價字詞萃取及形成有價字詞網之系統,其中,該文本關聯資訊係為一文本使用次數、一文本連結次數、一文本引用次數、一文本點擊次數、一文本目擊次數、及該文本內字詞之一出現頻率、一使用頻率、一觸及頻率、一點擊頻率、一共同詞頻出現率、外站關聯程度、專家知識轉換、機率空間、資訊熵、空間分佈之任一種或其組合。
  10. 如請求項7所述之有價字詞萃取及形成有價字詞網之系統,其中,該第一機器學習、及該第二機器學 習,係採用非監督式學習法、自監督式學習法、及啟發式演算法之其中一種或其組合。
  11. 如請求項7所述之有價字詞萃取及形成有價字詞網之系統,其中,該資料處理模組更可與一斷詞輔助模組呈資訊連結,該斷詞輔助模組係主要將該文本資訊進行一斷詞動作,輔助該字詞萃取模組萃取該有價字詞。
  12. 如請求項7所述之有價字詞萃取及形成有價字詞網之系統,其中,該字詞網連結模組更包含一自複製功能,其係基於該有價字詞成形為該字詞網時,該自複製功能可提取該字詞網資料庫之過往該字詞網,套用至新欲成形之該字詞網,並快速調整該第二機器學習學習結果之該字詞權重以形成另一該字詞網。
TW110105017A 2021-02-09 2021-02-09 有價字詞萃取及形成有價字詞網之方法及其系統 TWI752822B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW110105017A TWI752822B (zh) 2021-02-09 2021-02-09 有價字詞萃取及形成有價字詞網之方法及其系統
JP2021077467A JP7212961B2 (ja) 2021-02-09 2021-04-30 トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム
US17/328,086 US11775751B2 (en) 2021-02-09 2021-05-24 Method and system for extracting valuable words and forming valuable word net

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110105017A TWI752822B (zh) 2021-02-09 2021-02-09 有價字詞萃取及形成有價字詞網之方法及其系統

Publications (2)

Publication Number Publication Date
TWI752822B true TWI752822B (zh) 2022-01-11
TW202232342A TW202232342A (zh) 2022-08-16

Family

ID=80809269

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110105017A TWI752822B (zh) 2021-02-09 2021-02-09 有價字詞萃取及形成有價字詞網之方法及其系統

Country Status (3)

Country Link
US (1) US11775751B2 (zh)
JP (1) JP7212961B2 (zh)
TW (1) TWI752822B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011289A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
TWM546531U (zh) * 2017-05-10 2017-08-01 曹修源 文字探勘衡量系統
CN108154378A (zh) * 2016-12-05 2018-06-12 财团法人资讯工业策进会 用于预测商品的市场需求的计算机装置与方法
TW202101477A (zh) * 2019-06-26 2021-01-01 義守大學 一種抽樣後標記應用在類神經網絡訓練模型之方法
TWM615825U (zh) * 2021-02-09 2021-08-21 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之系統

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3428554B2 (ja) 2000-02-29 2003-07-22 日本電気株式会社 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
KR20080029417A (ko) * 2006-09-29 2008-04-03 김홍기 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템
US20150112664A1 (en) 2010-12-09 2015-04-23 Rage Frameworks, Inc. System and method for generating a tractable semantic network for a concept
CN102710795B (zh) * 2012-06-20 2015-02-11 北京奇虎科技有限公司 热点聚合方法及装置
ZA201504892B (en) * 2015-04-10 2016-07-27 Musigma Business Solutions Pvt Ltd Text mining system and tool
US10248718B2 (en) 2015-07-04 2019-04-02 Accenture Global Solutions Limited Generating a domain ontology using word embeddings
JP2019003406A (ja) * 2017-06-15 2019-01-10 株式会社日立ソリューションズ 情報収集装置、情報収集方法、および情報収集プログラム
JP7110554B2 (ja) 2017-07-05 2022-08-02 富士通株式会社 オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
US11403565B2 (en) * 2018-10-10 2022-08-02 Wipro Limited Method and system for generating a learning path using machine learning
JP2020181463A (ja) 2019-04-26 2020-11-05 有限会社アライブ トレジャーキーワード探索システム
CN111125484B (zh) * 2019-12-17 2023-06-30 网易(杭州)网络有限公司 话题发现方法、系统及电子设备
CN111488736B (zh) * 2020-03-31 2023-05-26 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011289A1 (en) * 2015-07-06 2017-01-12 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
CN108154378A (zh) * 2016-12-05 2018-06-12 财团法人资讯工业策进会 用于预测商品的市场需求的计算机装置与方法
TWM546531U (zh) * 2017-05-10 2017-08-01 曹修源 文字探勘衡量系統
TW202101477A (zh) * 2019-06-26 2021-01-01 義守大學 一種抽樣後標記應用在類神經網絡訓練模型之方法
TWM615825U (zh) * 2021-02-09 2021-08-21 阿物科技股份有限公司 有價字詞萃取及形成有價字詞網之系統

Also Published As

Publication number Publication date
TW202232342A (zh) 2022-08-16
JP7212961B2 (ja) 2023-01-26
US20220253600A1 (en) 2022-08-11
US11775751B2 (en) 2023-10-03
JP2022122230A (ja) 2022-08-22

Similar Documents

Publication Publication Date Title
US10706113B2 (en) Domain review system for identifying entity relationships and corresponding insights
Alzahrani et al. Understanding plagiarism linguistic patterns, textual features, and detection methods
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
US20160055234A1 (en) Retrieving Text from a Corpus of Documents in an Information Handling System
Vigneshwari et al. Social information retrieval based on semantic annotation and hashing upon the multiple ontologies
Wang et al. Public sentiments analysis based on fuzzy logic for text
Rinaldi et al. A semantic approach for document classification using deep neural networks and multimedia knowledge graph
Guan et al. Co-occurrence-based diffusion for expert search on the web
Song et al. Constrained text coclustering with supervised and unsupervised constraints
Xu et al. Improving pseudo-relevance feedback with neural network-based word representations
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
Sharma et al. Semantic approaches for query expansion
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Shen et al. Practical text phylogeny for real-world settings
Al-Sabahi et al. Document summarization using sentence-level semantic based on word embeddings
Bollegala et al. An integrated approach to measuring semantic similarity between words using information available on the web
TWM615825U (zh) 有價字詞萃取及形成有價字詞網之系統
TWI752822B (zh) 有價字詞萃取及形成有價字詞網之方法及其系統
Maria et al. A new model for Arabic multi-document text summarization
Nebot Romero et al. DIDO: a disease-determinants ontology from web sources
Zhou et al. Challenges and Future Development of Question Answering Systems in the Construction Industry
AlMahmoud et al. SEWAR: A corpus-based N-gram approach for extracting semantically-related words from Arabic medical corpus
Wu et al. Clustering results of image searches by annotations and visual features
Chen Building a term suggestion and ranking system based on a probabilistic analysis model and a semantic analysis graph
Yang et al. A new ontology-supported and hybrid recommending information system for scholars