TWI742446B - 詞句庫擴展系統及其方法 - Google Patents

詞句庫擴展系統及其方法 Download PDF

Info

Publication number
TWI742446B
TWI742446B TW108136406A TW108136406A TWI742446B TW I742446 B TWI742446 B TW I742446B TW 108136406 A TW108136406 A TW 108136406A TW 108136406 A TW108136406 A TW 108136406A TW I742446 B TWI742446 B TW I742446B
Authority
TW
Taiwan
Prior art keywords
word
database
vocabulary
sentence
module
Prior art date
Application number
TW108136406A
Other languages
English (en)
Other versions
TW202115600A (zh
Inventor
楊少夫
林宜佳
陳俊宏
Original Assignee
東方線上股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 東方線上股份有限公司 filed Critical 東方線上股份有限公司
Priority to TW108136406A priority Critical patent/TWI742446B/zh
Publication of TW202115600A publication Critical patent/TW202115600A/zh
Application granted granted Critical
Publication of TWI742446B publication Critical patent/TWI742446B/zh

Links

Images

Abstract

一種詞句庫擴展系統,連接搜尋引擎。詞句庫擴展系統包含有詞句庫、搜尋模組及處理模組。詞句庫係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組耦接詞句庫及搜尋引擎,用以根據第一操作型定義字詞於搜尋引擎中搜尋高度相關聯之複數個第一關聯網頁。處理模組耦接詞句庫與搜尋模組,用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字,並將至少一第一關聯字儲存至詞句庫中,以擴展並更新詞句庫。

Description

詞句庫擴展系統及其方法
本發明係關於一種詞句庫擴展系統及其方法,尤指一種即時更新熱門字詞之詞句庫擴展系統及其方法。
在充斥著龐大資訊量的時代,每天的資訊都不停的在更新,人類社會引用之文字也隨著主流文化或次流行文化之轉變進行變遷。面對這瞬息萬變的資訊量,傳統的詞庫已無法確保能夠搜尋所有的字詞。
對此,現有的技術係多利用餘弦相似度計算、歐氏距離計算、或關鍵詞向量計算來擴充相關字詞。而上述之計算方式,主要是以一個詞為基礎,計算另一個詞與其之間的相似度,換言之,就像是在計算兩個詞是不是同義詞。然而,在流行文化及次流行文化持續不停轉變的情況下,許多”新”的字詞是由許多字詞所綜合演變而來,已經不可以用”同義詞”來定義了。
在這大量利用大數據進行分析以針對消費者進行行為分析之技術的時代,電信業者相繼開始針對用戶之瀏覽網頁之內容進行大數據的分析,為了了解各用戶之用戶型態,電信業者需要更加龐大的詞句庫來對用戶之瀏覽網頁之內容進行分析。若詞句庫無法跟上主流文化或次流行文化之變遷來更新,則會大幅降低分析之準確度。雖然有業者會定期更新 詞庫,然而這皆需要耗費許多的人力及時間,而且因為新的詞句是每時、每天都在更新,即使定期更新詞庫也難以網羅所有最新的詞句。因此,現有之詞句庫實在難以讓電信業者利用並以此做出準確之分析,故此是以確有必須加以改善之課題。
有鑑於此,本發明之一範疇在於提供一種詞句庫擴展系統,應用於電信用戶資訊分類系統,此電信用戶資訊分類系統係用以根據電信用戶所瀏覽之網頁內容擷取之至少一個關鍵字,以分類電信用戶所瀏覽的網頁。詞句庫擴展系統可連接搜尋引擎並包含有詞句庫、搜尋模組及處理模組。詞句庫係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組耦接詞句庫及搜尋引擎,用以根據第一操作型定義字詞於搜尋引擎中搜尋高度相關聯之複數個第一關聯網頁。處理模組耦接詞句庫與搜尋模組,用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字,並將該至少一第一關聯字儲存至該詞句庫中,以擴展並更新詞句庫。
其中,搜尋模組根據存於詞句庫中之至少一第一關聯字,於搜尋引擎中搜尋高度相關聯之第二關聯網頁。處理模組根據文字向量方法計算第二關聯網頁以產生至少一第二關聯字,並將至少一第二關聯字存入詞句庫中,以擴展並更新詞句庫。
其中,處理模組更包含斷詞組件及詞頻分析組件,斷詞組件耦接該詞頻分析組件。文字向量方法係由斷詞組件將第一關聯網頁進行斷詞以產生第一斷詞組。接著,由詞頻分析組件分析第一斷詞組中之第一斷 詞之詞頻。當詞頻超過閾值時,則處理模組將第一斷詞作為至少一第一關聯字並存入詞句庫中。
詞句庫擴展系統更包含有分類模組耦接詞句庫。其中,詞句庫中之操作型定義字詞組具有複數個分類別。當第一操作型定義字詞為分類別中的第一分類別,分類模組將與第一操作型定義字詞高度相關聯之至少一第一關聯字分類為第一分類別。
本發明之另一範疇在於提供一種詞句庫擴展方法,其包含以下步驟:提供操作型定義字詞組,操作型定義字詞組包含有第一操作型定義字詞;以搜尋引擎搜尋與第一操作型定義字詞高度相關聯之複數個第一關聯網頁;以文字向量方法計算第一關聯網頁,以產生至少一第一關聯字,並將至少一第一關聯字儲存至詞句庫中,以擴展並更新詞句庫。
其中,於產生至少一第一關聯字之步驟後,更包含以下步驟:以搜尋引擎搜尋與至少一第一關聯字高度相關聯之複數個第二關聯網頁;以文字向量方法計算第二關聯網頁,以產生至少一第二關聯字,並將至少一第二關聯字儲存至詞句庫中,以擴展並更新詞句庫。
其中,於以文字向量方法計算第一關聯網頁,以產生至少一第一關聯字之步驟中,更包含以下子步驟:將這些第一關聯網頁進行斷詞,以產生第一斷詞組;分析第一斷詞組中之第一斷詞之詞頻;當詞頻超過閾值時,則將第一斷詞作為至少一第一關聯字並存入詞句庫中。
其中,於存入熱門詞句庫之步驟後,更包含以下步驟:將第一關聯字分類於第一操作型定義字詞於詞句庫中的第一分類別中。
本發明亦提供一種關聯詞句庫,其連接詞句庫擴展系統。關 聯詞句庫係建立於電信用戶資訊分類系統,電信用戶資訊分類系統係用以根據電信用戶所瀏覽之網頁內容擷取之至少一關鍵字,以分類電信用戶所瀏覽的網頁。關聯詞句庫包含接收模組、資料庫以及比對模組。接收模組用以接收至少一關鍵字。資料庫耦接詞句庫擴展系統,用以儲存複數個關聯字。比對模組耦接接收模組、資訊庫及詞句庫擴展系統。比對模組係用以根據至少一關鍵字比對資料庫是否有與至少一關鍵字相符之第一關鍵關聯字。其中,當比對模組無法比對到與至少一關鍵字相符之第一關鍵關聯字時,比對模組將至少一關鍵字提供予詞句庫擴展系統。詞句庫擴展系統根據關鍵字產生至少一第一關聯字,並將第一關聯字作為第一關鍵關聯字儲存於資料庫中,以即時擴展並更新資料庫。
其中,關聯字分類成複數個分類別。當比對模組比對到關鍵字與資料庫中之第一關鍵關聯字相符時,比對模組將關鍵字分類成第一關鍵關聯字所屬之第一分類別。
相較於現有技術,本發明之詞句庫擴展系統及其方法包含有以下優點:1.本發明之詞句庫擴展系統及其方法係針對一個詞句於目前主流及次流行中所有相關之關聯字,跳脫以往以同義詞的方式進行擴展。因此,連結有詞句庫擴展系統的關聯詞句庫將可包含有各種包羅萬象的詞句,且隨時在更新最新的詞句。2.對於電信業者來說,為了分析各電信用戶所瀏覽之網頁以對此電信用戶進行分類,本發明之詞句庫擴展系統讓關聯詞句庫及詞句庫能隨時更新,確保不會因時間而導致一些舊詞新用的詞句發生過期的問題,進而讓電信業者的分析結果能夠更加精準。
1:詞句庫擴展系統
11:詞句庫
12:搜尋模組
13:處理模組
131:斷詞組件
132:詞頻分析組件
14:分類模組
2:搜尋引擎
3:電信用戶資訊分類系統
31:關聯詞句庫
311:接收模組
312:資料庫
313:比對模組
步驟S1~步驟S6:步驟
步驟S31~步驟S33:子步驟
圖1為本發明之一具體實施例之詞句庫擴展系統的功能方塊圖。
圖2為本發明之一具體實施例之關聯詞句庫的功能方塊圖。
圖3為本發明之一具體實施例之詞句庫擴展方法的步驟流程圖。
圖4為圖3之詞句庫擴展方法之進一步的步驟流程圖。
圖5為圖3之詞句庫擴展方法之另一進一步的步驟流程圖。
圖6為本發明之另一具體實施例之詞句庫擴展方法的步驟流程圖。
為了讓本發明的優點,精神與特徵可以更容易且明確地了解,後續將以實施例並參照所附圖式進行詳述與討論。值得注意的是,這些實施例僅為本發明代表性的實施例。但是其可以許多不同的形式來實現,並不限於本說明書所描述的實施例。相反地,提供這些實施例的目的是使本發明的公開內容更加透徹且全面。
在本發明公開的各種實施例中使用的術語僅用於描述特定實施例的目的,並非在限制本發明所公開的各種實施例。如在此所使用的單數形式係也包括複數形式,除非上下文清楚地另外指示。除非另有限定,否則在本說明書中使用的所有術語(包含技術術語和科學術語)具有與本發明公開的各種實施例所屬領域普通技術人員通常理解的涵義相同的涵義。上述術語(諸如在一般使用的辭典中限定的術語)將被解釋為具有與在相同技術領域中的語境涵義相同的涵義,並且將不被解釋為具有理想化的涵義或過於正式的涵義,除非在本發明公開的各種實施例中被清楚地限定。
請參閱圖1,圖1為本發明之一具體實施例之詞句庫擴展系統 1的功能方塊圖。本發明之詞句庫擴展系統1連接搜尋引擎2,並應用於電信用戶資訊分類系統3,此電信用戶資訊分類系統3係用以根據電信用戶所瀏覽之網頁內容擷取之至少一個關鍵字,以分類電信用戶所瀏覽的網頁。如圖1之實施例所示,本發明之詞句庫擴展系統1包含有詞句庫11、搜尋模組12及處理模組13。詞句庫11係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組12耦接詞句庫11及搜尋引擎2,用以根據第一操作型定義字詞於搜尋引擎2中搜尋高度相關聯之複數個第一關聯網頁。處理模組13耦接詞句庫11與搜尋模組12,用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字,並將該至少一第一關聯字儲存至詞句庫11中,以擴展並更新詞句庫11。
實際應用中,本發明之詞句庫擴展系統1係利用搜尋引擎2能夠因應時間的變化不斷更新包含有新的詞句的網頁,且搜尋引擎2,如:google,本身的搜尋計算方式也會不斷的更新以提高搜尋能力。本發明之詞句庫擴展系統1藉由搜尋引擎2搜尋與第一操作型定義字詞高度相關聯的複數個第一關聯網頁。接著,利用文字向量方法處理這些第一關聯網頁,並產生及儲存第一關聯字於詞句庫11中。如此一來,當搜尋引擎2越強大,本發明之詞句庫擴展系統1所擴展的詞句也會與操作型定義字詞的豐富度越高。
為了讓操作型定義字詞相關聯的關聯字擴展,以得到完整的樹枝狀分布。本發明之詞句庫擴展系統1之搜尋模組12可根據存於詞句庫11中之至少一第一關聯字,於搜尋引擎2中搜尋高度相關聯之第二關聯網頁。處理模組13根據文字向量方法計算第二關聯網頁以產生至少一第二關聯 字,並將至少一第二關聯字存入詞句庫11中,以擴展並更新詞句庫11。於實際應用中,當第一操作型定義字詞為咖啡,以此為種子點進行擴展,第一關聯字可能包含有:咖啡豆、咖啡的產地、咖啡館......等,而將第二關聯字以咖啡館作為種子點擴展,則可能包含:星巴克、伯朗咖啡館、cama現烘咖啡......等。因此,本發明之詞句庫擴展系統1可以讓咖啡擴展到星巴克。其中,前述之詞句庫11中的詞句(包含但不限於操作型定義字詞、第一關聯字及第二關聯字)皆可作為種子點進行詞句擴展。
其中,處理模組13更包含斷詞組件131及詞頻分析組件132,斷詞組件131耦接詞頻分析組件132。所謂的詞頻即為詞句出現的頻率。前述之文字向量方法可由斷詞組件131將第一關聯網頁進行斷詞以產生第一斷詞組。接著,由詞頻分析組件132分析第一斷詞組中之第一斷詞之詞頻。當詞頻超過閾值時,也就是第一斷詞餘所分析的第一關聯網頁中出現的頻率超過一個預設數值時,則處理模組13將第一斷詞作為至少一第一關聯字並存入詞句庫11中。
於實際應用中,第一操作型定義字詞利用搜尋引擎2搜尋到複數個第一關聯網頁。斷詞組件131會將複數個第一關聯網頁之網頁內容先進行斷詞,以產生第一斷詞組。接著,詞頻分析組件132將對第一斷詞組中的每一個斷詞進行詞頻分析。所謂的詞頻分析係針對第一斷詞組中,當詞頻超過設定的閾值時,處理模組13將會將第一斷詞視為第一關聯字並存入詞句庫11中,以擴展並更新詞句庫11。於另一實施例中,亦可將不同的斷詞在複數個第一關聯網頁中相對出現的頻率進行排名,並設定於一定排名內之第一斷詞,處理模組13都會將其視為第一關聯字,並存入詞句庫11中。 於再一實施例中,由於搜尋引擎2本身將針對相關度、流行度等進行排序,因此,第一關聯網頁可選定為搜尋引擎2所搜尋出的前10至100件關聯網頁,進而提高第一關聯字的流行度,並確保更新的關聯詞為最新之詞句。
於圖1之實施例中,詞句庫擴展系統1更包含有分類模組14耦接詞句庫11。其中,詞句庫11中具有複數個分類別以分類操作型定義字詞組。當第一操作型定義字詞為分類別中的第一分類別,分類模組14將與第一操作型定義字詞高度相關聯之至少一第一關聯字分類為第一分類別。於實際應用中,咖啡與咖啡館,甚至是星巴克可能會被分類於同一個類別。
請參閱圖2,圖2為本發明之一具體實施例之關聯詞句庫的功能方塊圖。如圖2所示,本發明之關聯詞句庫31係連接詞句庫擴展系統1。關聯詞句庫31係建立於電信用戶資訊分類系統3。關聯詞句庫31包含接收模組311、資料庫312以及比對模組313。接收模組311用以接收至少一關鍵字。資料庫312耦接詞句庫擴展系統1,用以儲存複數個關聯字。比對模組313耦接接收模組311、資訊庫312及詞句庫擴展系統1。比對模組313係用以根據至少一關鍵字比對資料庫312是否有與至少一關鍵字相符之第一關鍵關聯字。其中,當比對模組313無法比對到與至少一關鍵字相符之第一關鍵關聯字時,比對模組313將至少一關鍵字提供予詞句庫擴展系統1。詞句庫擴展系統1根據關鍵字產生至少一第一關聯字,並將第一關聯字作為第一關鍵關聯字儲存於資料庫312中,以即時擴展並更新資料庫312。當詞句庫擴展系統1根據至少一第一關聯字產生至少一第二關聯字時,詞句庫擴展系統1並將該至少第二關聯字作為第二關鍵關聯字儲存於資料庫312中,以即時擴展並更新資料庫312。
此外,於實際應用中,關聯字可分類成複數個分類別。當比對模組313比對到關鍵字與資料庫312中之第一關鍵關聯字相符時,比對模組313將關鍵字分類成第一關鍵關聯字所屬之第一分類別。將關鍵字進一步分類,係為了讓電信用戶資訊分類系統3可以根據電信用戶所瀏覽的網頁中所包含的關鍵字之分類,進一步定義瀏覽網頁的分類,進而推測出電信用戶的分類別。
於實際應用上,前述之搜尋模組12、處理模組13、分類模組14及比對模組313可建立於電腦或伺服器之中央處理器或系統處理晶片,而詞句庫11、關聯詞句庫31及資料庫312可建立於電腦之資料庫中。
請參閱圖3,圖3為本發明之一具體實施例之詞句庫擴展方法的步驟流程圖。如圖3所示,本發明之詞句庫擴展方法,其包含以下步驟:步驟S1:提供操作型定義字詞組,操作型定義字詞組包含有第一操作型定義字詞;步驟S2:以搜尋引擎搜尋與第一操作型定義字詞高度相關聯之複數個第一關聯網頁;步驟S3:以文字向量方法計算第一關聯網頁,以產生至少一第一關聯字,並將至少一第一關聯字儲存至詞句庫中,以擴展並更新詞句庫。其中,詞句庫擴展方法可以用前述之詞句庫擴展系統達成,因此,與前述相同之內容,在此將不再贅述。
為了將操作型定義字詞組能夠以樹狀圖向外延伸擴大,讓詞句庫得以囊括更多高度相關詞句,本發明之詞句庫擴展方法利用第一操作型定義字詞所相關之第一關聯字作進一步的延伸。請參閱圖4,圖4為圖3之詞句庫擴展方法之進一步的步驟流程圖。如圖4所示,於步驟S3之後更包含以下步驟:步驟S4:以搜尋引擎搜尋與至少一第一關聯字高度相關聯之複 數個第二關聯網頁;步驟S5:以文字向量方法計算第二關聯網頁,以產生至少一第二關聯字,並將至少一第二關聯字儲存至詞句庫中,以擴展並更新詞句庫。
前述之文字向量方法係包含以下子步驟:步驟S31:將這些第一關聯網頁進行斷詞,以產生第一斷詞組;步驟S32:分析第一斷詞組中之第一斷詞之詞頻;步驟S33:當詞頻超過閾值時,則將第一斷詞作為至少一第一關聯字並存入詞句庫中。詳細來說,第一關聯網頁係以經由搜尋引擎進行過關聯度及流行度的篩選及排名。而本發明之文字向量方法則是基於這些已做過關聯度及流行度的篩選及排名的第一關聯網頁下,進一步將第一關聯網頁之內容進行斷詞,進而得到複數個斷詞所組合成的第一斷詞組。將此第一斷詞組中之斷詞進行詞頻分析,分析這些斷詞在這些第一關聯網頁中所出現的頻率。當第一斷詞之詞頻超過所設定之閾值時,則將第一斷詞定義為第一關聯字並存入詞句庫。於另一實施例中,將第一斷詞組中的斷詞,以詞頻進行排名,並將所設定的名次內的第一斷詞定義為第一關聯字並存入詞句庫。本發明之詞句庫擴展方法利用兩階段的篩選及排名,來確保各個第一關聯字與第一操作型定義字詞為高度相關聯。
請參閱圖6,圖6為本發明之另一具體實施例之詞句庫擴展方法的步驟流程圖。如圖6所示,於步驟S3之後,更包含步驟S6:將第一關聯字分類於第一操作型定義字詞於詞句庫中的第一分類別中。將第一關聯字與第一操作型定義字詞分成同一類是為了讓詞句庫能更有系統。
相較於現有技術,本發明之詞句庫擴展系統及其方法係針對一個詞句於目前主流及次流行中所有相關之關聯字,跳脫以往以同義詞的 方式進行擴展。例如:以往同義詞的方式僅能將「關懷」與「關心」關聯,但本發明之詞句庫擴展系統及其方法可以將「關懷」與「社會局」、「關懷生命協會」以及「關懷專線」等關聯。因此,連結有詞句庫擴展系統的詞句庫將可包含有各種包羅萬象的詞句,且隨時在更新最新的詞句。對於電信業者來說,為了分析各電信用戶所瀏覽之網頁以對此電信用戶進行分類,本發明之詞句庫擴展系統讓詞句庫及關聯詞句庫能隨時更新,確保不會因時間而導致一些舊詞新用的詞句發生過期的問題,進而讓電信業者的分析結果能夠更加精準。
藉由以上具體實施例之詳述,係希望能更加清楚描述本發明之特徵與精神,而並非以上述所揭露的具體實施例來對本發明之範疇加以限制。相反地,其目的是希望能涵蓋各種改變及具相等性的安排於本發明所欲申請之專利範圍的範疇內。
1‧‧‧詞句庫擴展系統
11‧‧‧詞句庫
12‧‧‧搜尋模組
13‧‧‧處理模組
131‧‧‧斷詞組件
132‧‧‧詞頻分析組件
14‧‧‧分類模組
2‧‧‧搜尋引擎
3‧‧‧電信用戶資訊分類系統

Claims (8)

  1. 一種詞句庫擴展系統,連接一搜尋引擎,該詞句庫擴展系統應用於一電信用戶資訊分類系統,該電信用戶資訊分類系統係用以根據一電信用戶所瀏覽之網頁內容擷取之至少一關鍵字,以分類該電信用戶所瀏覽的網頁,該詞句庫擴展系統包含有:一詞句庫,用以儲存一操作型定義字詞組,該操作型定義字詞組包含有一第一操作型定義字詞;一搜尋模組,耦接該詞句庫及該搜尋引擎,用以根據該第一操作型定義字詞於該搜尋引擎中搜尋高度相關聯之複數個第一關聯網頁;以及一處理模組,耦接該詞句庫與該搜尋模組,用以根據一文字向量方法計算該些第一關聯網頁以產生至少一第一關聯字,並將該至少一第一關聯字儲存至該詞句庫中,以擴展並更新該詞句庫;其中該搜尋模組根據存於該詞句庫中之該至少一第一關聯字,於該搜尋引擎中搜尋高度相關聯之一第二關聯網頁;該處理模組根據該文字向量方法計算該些第二關聯網頁以產生至少一第二關聯字,並將該至少一第二關聯字存入該詞句庫中,以擴展並更新該詞句庫。
  2. 如申請專利範圍第1項中所述之詞句庫擴展系統,其中該處理模組更包含一斷詞組件及一詞頻分析組件,該斷詞組件耦接該詞頻分析組件,該文字向量方法係由該斷詞組件將該些第一關聯網頁進行斷詞以產生一第一斷詞組,接著由該詞頻分析組件分析該第一斷詞組中之一第一斷詞之一詞頻,當該詞頻超過一閾值時,則該處理模組將該第一斷詞作為該至少 一第一關聯字並存入該詞句庫中。
  3. 如申請專利範圍第1項中所述之詞句庫擴展系統,更包含有一分類模組耦接該詞句庫,其中該詞句庫中之該操作型定義字詞組具有複數個分類別,當該第一操作型定義字詞為該些分類別中的一第一分類別,該分類模組將與該第一操作型定義字詞高度相關聯之該至少一第一關聯字分類為該第一分類別。
  4. 一種詞句庫擴展方法,其包含以下步驟:提供一操作型定義字詞組,該操作型定義字詞組包含有一第一操作型定義字詞;以一搜尋引擎搜尋與該第一操作型定義字詞高度相關聯之複數個第一關聯網頁;以及以一文字向量方法計算該些第一關聯網頁,以產生至少一第一關聯字,並將該至少一第一關聯字儲存至該詞句庫中,以擴展並更新該詞句庫;以該搜尋引擎搜尋與該至少一第一關聯字高度相關聯之複數個第二關聯網頁;以及以文字向量方法計算該些第二關聯網頁,以產生至少一第二關聯字,並將該至少一第二關聯字儲存至該詞句庫中,以擴展並更新該詞句庫。
  5. 如申請專利範圍第4項中所述之詞句庫擴展方法,其中於以該文字向量方法計算該些第一關聯網頁,以產生該至少一第一關聯字之步驟中,更包含以下子步驟: 將該些第一關聯網頁進行斷詞,以產生一第一斷詞組;分析該第一斷詞組中之一第一斷詞之一詞頻;以及當該詞頻超過一閾值時,則將該第一斷詞作為該至少一第一關聯字並存入該詞句庫中。
  6. 如申請專利範圍第5項所述之詞句庫擴展方法,其中於存入該熱門詞句庫之步驟後,更包含以下步驟:將該第一關聯字分類於該第一操作型定義字詞於該詞句庫中的一第一分類別中。
  7. 一種關聯詞句庫,連接一詞句庫擴展系統,該關聯詞句庫係建立於一電信用戶資訊分類系統,該電信用戶資訊分類系統係用以根據一電信用戶所瀏覽之網頁內容擷取之至少一關鍵字,以分類該電信用戶所瀏覽的網頁,該關聯詞句庫包含:一接收模組,用以接收該至少一關鍵字;一資料庫,耦接該詞句庫擴展系統,用以儲存複數個關聯字;以及一比對模組,耦接該接收模組、該資訊庫及該詞句庫擴展系統,用以根據該至少一關鍵字比對該資料庫是否有與該至少一關鍵字相符之一第一關鍵關聯字;其中,當該比對模組無法比對到與該至少一關鍵字相符之該第一關鍵關聯字時,該比對模組將該至少一關鍵字提供予該詞句庫擴展系統,該詞句庫擴展系統根據該至少一關鍵字產生至少一第一關聯字,並將該至少一第一關聯字作為該第一關鍵關聯字儲存於該資料庫中,以即時擴展並更新該資料庫;當該詞句庫擴展系統根據該至少一第一關聯字產生至少 一第二關聯字時,該詞句庫擴展系統並將該至少第二關聯字作為該第二關鍵關聯字儲存於該資料庫中,以即時擴展並更新該資料庫。
  8. 如申請專利範圍第7項所述之關聯詞句庫,其中該些關聯字分類成複數個分類別,當該比對模組比對到該至少一關鍵字與該資料庫中之該第一關鍵關聯字相符時,該比對模組將該至少一關鍵字分類成該第一關鍵關聯字所屬之一第一分類別。
TW108136406A 2019-10-08 2019-10-08 詞句庫擴展系統及其方法 TWI742446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108136406A TWI742446B (zh) 2019-10-08 2019-10-08 詞句庫擴展系統及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108136406A TWI742446B (zh) 2019-10-08 2019-10-08 詞句庫擴展系統及其方法

Publications (2)

Publication Number Publication Date
TW202115600A TW202115600A (zh) 2021-04-16
TWI742446B true TWI742446B (zh) 2021-10-11

Family

ID=76604349

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108136406A TWI742446B (zh) 2019-10-08 2019-10-08 詞句庫擴展系統及其方法

Country Status (1)

Country Link
TW (1) TWI742446B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728147A (zh) * 2004-05-14 2006-02-01 微软公司 基于异类关系确定目标相似性的方法和系统
US9613166B2 (en) * 2013-12-02 2017-04-04 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US20180253490A1 (en) * 2004-08-23 2018-09-06 Nuance Communications, Inc. System and Method of Lattice-Based Search for Spoken Utterance Retrieval
TW202022635A (zh) * 2018-12-14 2020-06-16 財團法人工業技術研究院 自適應性調整關連搜尋詞的系統及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728147A (zh) * 2004-05-14 2006-02-01 微软公司 基于异类关系确定目标相似性的方法和系统
US20180253490A1 (en) * 2004-08-23 2018-09-06 Nuance Communications, Inc. System and Method of Lattice-Based Search for Spoken Utterance Retrieval
US9613166B2 (en) * 2013-12-02 2017-04-04 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
TW202022635A (zh) * 2018-12-14 2020-06-16 財團法人工業技術研究院 自適應性調整關連搜尋詞的系統及其方法

Also Published As

Publication number Publication date
TW202115600A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
US9864808B2 (en) Knowledge-based entity detection and disambiguation
CN101876981B (zh) 一种构建知识库的方法及装置
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
US9846744B2 (en) Media discovery and playlist generation
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US9058394B2 (en) Matching and recommending relevant videos and media to individual search engine results
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20160041986A1 (en) Smart Search Engine
US20130339001A1 (en) Spelling candidate generation
US10152532B2 (en) Method and system to associate meaningful expressions with abbreviated names
KR20080031262A (ko) 관계 네트워크
WO2021196541A1 (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
US9501559B2 (en) User-guided search query expansion
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
TWI742446B (zh) 詞句庫擴展系統及其方法
WO2021250950A1 (ja) 文書検索の性能を評価する方法、システム、および装置
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
Sahmoudi et al. A new keyphrases extraction method based on suffix tree data structure for Arabic documents clustering
Omri Effects of terms recognition mistakes on requests processing for interactive information retrieval
Liu et al. A query suggestion method based on random walk and topic concepts
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
US11971939B1 (en) Clustered metasearch
Stratogiannis et al. Related Entity Finding Using Semantic Clustering Based on Wikipedia Categories