TW202115600A

TW202115600A - 詞句庫擴展系統及其方法

Info

Publication number: TW202115600A
Application number: TW108136406A
Authority: TW
Inventors: 楊少夫; 林宜佳; 陳俊宏
Original assignee: 東方線上股份有限公司
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2021-04-16
Also published as: TWI742446B

Abstract

一種詞句庫擴展系統，連接搜尋引擎。詞句庫擴展系統包含有詞句庫、搜尋模組及處理模組。詞句庫係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組耦接詞句庫及搜尋引擎，用以根據第一操作型定義字詞於搜尋引擎中搜尋高度相關聯之複數個第一關聯網頁。處理模組耦接詞句庫與搜尋模組，用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字，並將至少一第一關聯字儲存至詞句庫中，以擴展並更新詞句庫。

Description

詞句庫擴展系統及其方法

本發明係關於一種詞句庫擴展系統及其方法，尤指一種即時更新熱門字詞之詞句庫擴展系統及其方法。

在充斥著龐大資訊量的時代，每天的資訊都不停的在更新，人類社會引用之文字也隨著主流文化或次流行文化之轉變進行變遷。面對這瞬息萬變的資訊量，傳統的詞庫已無法確保能夠搜尋所有的字詞。

對此，現有的技術係多利用餘弦相似度計算、歐氏距離計算、或關鍵詞向量計算來擴充相關字詞。而上述之計算方式，主要是以一個詞為基礎，計算另一個詞與其之間的相似度，換言之，就像是在計算兩個詞是不是同義詞。然而，在流行文化及次流行文化持續不停轉變的情況下，許多”新”的字詞是由許多字詞所綜合演變而來，已經不可以用”同義詞”來定義了。

在這大量利用大數據進行分析以針對消費者進行行為分析之技術的時代，電信業者相繼開始針對用戶之瀏覽網頁之內容進行大數據的分析，為了了解各用戶之用戶型態，電信業者需要更加龐大的詞句庫來對用戶之瀏覽網頁之內容進行分析。若詞句庫無法跟上主流文化或次流行文化之變遷來更新，則會大幅降低分析之準確度。雖然有業者會定期更新詞庫，然而這皆需要耗費許多的人力及時間，而且因為新的詞句是每時、每天都在更新，即使定期更新詞庫也難以網羅所有最新的詞句。因此，現有之詞句庫實在難以讓電信業者利用並以此做出準確之分析，故此是以確有必須加以改善之課題。

有鑑於此，本發明之一範疇在於提供一種詞句庫擴展系統，應用於電信用戶資訊分類系統，此電信用戶資訊分類系統係用以根據電信用戶所瀏覽之網頁內容擷取之至少一個關鍵字，以分類電信用戶所瀏覽的網頁。詞句庫擴展系統可連接搜尋引擎並包含有詞句庫、搜尋模組及處理模組。詞句庫係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組耦接詞句庫及搜尋引擎，用以根據第一操作型定義字詞於搜尋引擎中搜尋高度相關聯之複數個第一關聯網頁。處理模組耦接詞句庫與搜尋模組，用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字，並將該至少一第一關聯字儲存至該詞句庫中，以擴展並更新詞句庫。

其中，搜尋模組根據存於詞句庫中之至少一第一關聯字，於搜尋引擎中搜尋高度相關聯之第二關聯網頁。處理模組根據文字向量方法計算第二關聯網頁以產生至少一第二關聯字，並將至少一第二關聯字存入詞句庫中，以擴展並更新詞句庫。

其中，處理模組更包含斷詞組件及詞頻分析組件，斷詞組件耦接該詞頻分析組件。文字向量方法係由斷詞組件將第一關聯網頁進行斷詞以產生第一斷詞組。接著，由詞頻分析組件分析第一斷詞組中之第一斷詞之詞頻。當詞頻超過閾值時，則處理模組將第一斷詞作為至少一第一關聯字並存入詞句庫中。

詞句庫擴展系統更包含有分類模組耦接詞句庫。其中，詞句庫中之操作型定義字詞組具有複數個分類別。當第一操作型定義字詞為分類別中的第一分類別，分類模組將與第一操作型定義字詞高度相關聯之至少一第一關聯字分類為第一分類別。

本發明之另一範疇在於提供一種詞句庫擴展方法，其包含以下步驟：提供操作型定義字詞組，操作型定義字詞組包含有第一操作型定義字詞；以搜尋引擎搜尋與第一操作型定義字詞高度相關聯之複數個第一關聯網頁；以文字向量方法計算第一關聯網頁，以產生至少一第一關聯字，並將至少一第一關聯字儲存至詞句庫中，以擴展並更新詞句庫。

其中，於產生至少一第一關聯字之步驟後，更包含以下步驟：以搜尋引擎搜尋與至少一第一關聯字高度相關聯之複數個第二關聯網頁；以文字向量方法計算第二關聯網頁，以產生至少一第二關聯字，並將至少一第二關聯字儲存至詞句庫中，以擴展並更新詞句庫。

其中，於以文字向量方法計算第一關聯網頁，以產生至少一第一關聯字之步驟中，更包含以下子步驟：將這些第一關聯網頁進行斷詞，以產生第一斷詞組；分析第一斷詞組中之第一斷詞之詞頻；當詞頻超過閾值時，則將第一斷詞作為至少一第一關聯字並存入詞句庫中。

其中，於存入熱門詞句庫之步驟後，更包含以下步驟：將第一關聯字分類於第一操作型定義字詞於詞句庫中的第一分類別中。

本發明亦提供一種詞句庫，其連接詞句庫擴展系統。詞句庫係建立於電信用戶資訊分類系統，電信用戶資訊分類系統係用以根據電信用戶所瀏覽之網頁內容擷取之至少一關鍵字，以分類電信用戶所瀏覽的網頁。詞句庫包含接收模組、資料庫以及比對模組。接收模組用以接收至少一關鍵字。資料庫耦接詞句庫擴展系統，用以儲存複數個關聯字。比對模組耦接接收模組、資訊庫及詞句庫擴展系統。比對模組係用以根據至少一關鍵字比對資料庫是否有與至少一關鍵字相符之第一關鍵關聯字。其中，當比對模組無法比對到與至少一關鍵字相符之第一關鍵關聯字時，比對模組將至少一關鍵字提供予詞句庫擴展系統。詞句庫擴展系統根據關鍵字產生至少一第一關聯字，並將第一關聯字作為第一關鍵關聯字儲存於資料庫中，以即時擴展並更新資料庫。

其中，關聯字分類成複數個分類別。當比對模組比對到關鍵字與資料庫中之第一關鍵關聯字相符時，比對模組將關鍵字分類成第一關鍵關聯字所屬之第一分類別。

相較於現有技術，本發明之詞句庫擴展系統及其方法包含有以下優點：1.本發明之詞句庫擴展系統及其方法係針對一個詞句於目前主流及次流行中所有相關之關聯字，跳脫以往以同義詞的方式進行擴展。因此，連結有詞句庫擴展系統的詞句庫將可包含有各種包羅萬象的詞句，且隨時在更新最新的詞句。2.對於電信業者來說，為了分析各電信用戶所瀏覽之網頁以對此電信用戶進行分類，本發明之詞句庫擴展系統讓詞句庫能隨時更新，確保不會因時間而導致一些舊詞新用的詞句發生過期的問題，進而讓電信業者的分析結果能夠更加精準。

1‧‧‧詞句庫擴展系統

11‧‧‧詞句庫

111‧‧‧接收模組

112‧‧‧資料庫

113‧‧‧比對模組

12‧‧‧搜尋模組

13‧‧‧處理模組

131‧‧‧斷詞組件

132‧‧‧詞頻分析組件

14‧‧‧分類模組

2‧‧‧搜尋引擎

3‧‧‧電信用戶資訊分類系統

步驟S1~步驟S6‧‧‧步驟

步驟S31~步驟S33‧‧‧子步驟

圖1為本發明之一具體實施例之詞句庫擴展系統的功能方塊圖。

圖2為本發明之一具體實施例之詞句庫的功能方塊圖。

圖3為本發明之一具體實施例之詞句庫擴展方法的步驟流程圖。

圖4為圖3之詞句庫擴展方法之進一步的步驟流程圖。

圖5為圖3之詞句庫擴展方法之另一進一步的步驟流程圖。

圖6為本發明之另一具體實施例之詞句庫擴展方法的步驟流程圖。

為了讓本發明的優點，精神與特徵可以更容易且明確地了解，後續將以實施例並參照所附圖式進行詳述與討論。值得注意的是，這些實施例僅為本發明代表性的實施例。但是其可以許多不同的形式來實現，並不限於本說明書所描述的實施例。相反地，提供這些實施例的目的是使本發明的公開內容更加透徹且全面。

在本發明公開的各種實施例中使用的術語僅用於描述特定實施例的目的，並非在限制本發明所公開的各種實施例。如在此所使用的單數形式係也包括複數形式，除非上下文清楚地另外指示。除非另有限定，否則在本說明書中使用的所有術語(包含技術術語和科學術語)具有與本發明公開的各種實施例所屬領域普通技術人員通常理解的涵義相同的涵義。上述術語(諸如在一般使用的辭典中限定的術語)將被解釋為具有與在相同技術領域中的語境涵義相同的涵義，並且將不被解釋為具有理想化的涵義或過於正式的涵義，除非在本發明公開的各種實施例中被清楚地限定。

請參閱圖1，圖1為本發明之一具體實施例之詞句庫擴展系統 1的功能方塊圖。本發明之詞句庫擴展系統1連接搜尋引擎2，並應用於電信用戶資訊分類系統3，此電信用戶資訊分類系統3係用以根據電信用戶所瀏覽之網頁內容擷取之至少一個關鍵字，以分類電信用戶所瀏覽的網頁。如圖1之實施例所示，本發明之詞句庫擴展系統1包含有詞句庫11、搜尋模組12及處理模組13。詞句庫11係用以儲存操作型定義字詞組。操作型定義字詞組包含有第一操作型定義字詞。搜尋模組12耦接詞句庫11及搜尋引擎2，用以根據第一操作型定義字詞於搜尋引擎2中搜尋高度相關聯之複數個第一關聯網頁。處理模組13耦接詞句庫11與搜尋模組12，用以根據文字向量方法計算第一關聯網頁以產生至少一第一關聯字，並將該至少一第一關聯字儲存至詞句庫11中，以擴展並更新詞句庫11。

實際應用中，本發明之詞句庫擴展系統1係利用搜尋引擎2能夠因應時間的變化不斷更新包含有新的詞句的網頁，且搜尋引擎2，如：google，本身的搜尋計算方式也會不斷的更新以提高搜尋能力。本發明之詞句庫擴展系統1藉由搜尋引擎2搜尋與第一操作型定義字詞高度相關聯的複數個第一關聯網頁。接著，利用文字向量方法處理這些第一關聯網頁，並產生及儲存第一關聯字於詞句庫11中。如此一來，當搜尋引擎2越強大，本發明之詞句庫擴展系統1所擴展的詞句也會與操作型定義字詞的豐富度越高。

為了讓操作型定義字詞相關聯的關聯字擴展，以得到完整的樹枝狀分布。本發明之詞句庫擴展系統1之搜尋模組12可根據存於詞句庫11中之至少一第一關聯字，於搜尋引擎2中搜尋高度相關聯之第二關聯網頁。處理模組13根據文字向量方法計算第二關聯網頁以產生至少一第二關聯字，並將至少一第二關聯字存入詞句庫11中，以擴展並更新詞句庫11。於實際應用中，當第一操作型定義字詞為咖啡，以此為種子點進行擴展，第一關聯字可能包含有：咖啡豆、咖啡的產地、咖啡館......等，而將第二關聯字以咖啡館作為種子點擴展，則可能包含：星巴克、伯朗咖啡館、cama現烘咖啡......等。因此，本發明之詞句庫擴展系統1可以讓咖啡擴展到星巴克。其中，前述之詞句庫11中的詞句(包含但不限於操作型定義字詞、第一關聯字及第二關聯字)皆可作為種子點進行詞句擴展。

其中，處理模組13更包含斷詞組件131及詞頻分析組件132，斷詞組件131耦接詞頻分析組件132。所謂的詞頻即為詞句出現的頻率。前述之文字向量方法可由斷詞組件131將第一關聯網頁進行斷詞以產生第一斷詞組。接著，由詞頻分析組件132分析第一斷詞組中之第一斷詞之詞頻。當詞頻超過閾值時，也就是第一斷詞餘所分析的第一關聯網頁中出現的頻率超過一個預設數值時，則處理模組13將第一斷詞作為至少一第一關聯字並存入詞句庫11中。

於實際應用中，第一操作型定義字詞利用搜尋引擎2搜尋到複數個第一關聯網頁。斷詞組件131會將複數個第一關聯網頁之網頁內容先進行斷詞，以產生第一斷詞組。接著，詞頻分析組件132將對第一斷詞組中的每一個斷詞進行詞頻分析。所謂的詞頻分析係針對第一斷詞組中，當詞頻超過設定的閾值時，處理模組13將會將第一斷詞視為第一關聯字並存入詞句庫11中，以擴展並更新詞句庫11。於另一實施例中，亦可將不同的斷詞在複數個第一關聯網頁中相對出現的頻率進行排名，並設定於一定排名內之第一斷詞，處理模組13都會將其視為第一關聯字，並存入詞句庫11中。於再一實施例中，由於搜尋引擎2本身將針對相關度、流行度等進行排序，因此，第一關聯網頁可選定為搜尋引擎2所搜尋出的前10至100件關聯網頁，進而提高第一關聯字的流行度，並確保更新的關聯詞為最新之詞句。

於圖1之實施例中，詞句庫擴展系統1更包含有分類模組14耦接詞句庫11。其中，詞句庫11中具有複數個分類別以分類操作型定義字詞組。當第一操作型定義字詞為分類別中的第一分類別，分類模組14將與第一操作型定義字詞高度相關聯之至少一第一關聯字分類為第一分類別。於實際應用中，咖啡與咖啡館，甚至是星巴克可能會被分類於同一個類別。

請參閱圖2，圖2為本發明之一具體實施例之詞句庫的功能方塊圖。如圖2所示，本發明之詞句庫11係連接詞句庫擴展系統1。詞句庫11係建立於電信用戶資訊分類系統3。詞句庫11包含接收模組111、資料庫112以及比對模組113。接收模組111用以接收至少一關鍵字。資料庫112耦接詞句庫擴展系統1，用以儲存複數個關聯字。比對模組113耦接接收模組111、資訊庫112及詞句庫擴展系統1。比對模組113係用以根據至少一關鍵字比對資料庫112是否有與至少一關鍵字相符之第一關鍵關聯字。其中，當比對模組113無法比對到與至少一關鍵字相符之第一關鍵關聯字時，比對模組113將至少一關鍵字提供予詞句庫擴展系統1。詞句庫擴展系統1根據關鍵字產生至少一第一關聯字，並將第一關聯字作為第一關鍵關聯字儲存於資料庫112中，以即時擴展並更新資料庫112。

此外，於實際應用中，關聯字可分類成複數個分類別。當比對模組113比對到關鍵字與資料庫112中之第一關鍵關聯字相符時，比對模組113將關鍵字分類成第一關鍵關聯字所屬之第一分類別。將關鍵字進一步分類，係為了讓電信用戶資訊分類系統3可以根據電信用戶所瀏覽的網頁中所包含的關鍵字之分類，進一步定義瀏覽網頁的分類，進而推測出電信用戶的分類別。

於實際應用上，前述之搜尋模組12、處理模組13、分類模組14及比對模組113可建立於電腦或伺服器之中央處理器或系統處理晶片，而詞句庫11及資料庫112可建立於電腦之資料庫中。

請參閱圖3，圖3為本發明之一具體實施例之詞句庫擴展方法的步驟流程圖。如圖3所示，本發明之詞句庫擴展方法，其包含以下步驟：步驟S1：提供操作型定義字詞組，操作型定義字詞組包含有第一操作型定義字詞；步驟S2：以搜尋引擎搜尋與第一操作型定義字詞高度相關聯之複數個第一關聯網頁；步驟S3：以文字向量方法計算第一關聯網頁，以產生至少一第一關聯字，並將至少一第一關聯字儲存至詞句庫中，以擴展並更新詞句庫。其中，詞句庫擴展方法可以用前述之詞句庫擴展系統達成，因此，與前述相同之內容，在此將不再贅述。

為了將操作型定義字詞組能夠以樹狀圖向外延伸擴大，讓詞句庫得以囊括更多高度相關詞句，本發明之詞句庫擴展方法利用第一操作型定義字詞所相關之第一關聯字作進一步的延伸。請參閱圖4，圖4為圖3之詞句庫擴展方法之進一步的步驟流程圖。如圖4所示，於步驟S3之後更包含以下步驟：步驟S4：以搜尋引擎搜尋與至少一第一關聯字高度相關聯之複數個第二關聯網頁；步驟S5：以文字向量方法計算第二關聯網頁，以產生至少一第二關聯字，並將至少一第二關聯字儲存至詞句庫中，以擴展並更新詞句庫。

前述之文字向量方法係包含以下子步驟：步驟S31：將這些第一關聯網頁進行斷詞，以產生第一斷詞組；步驟S32：分析第一斷詞組中之第一斷詞之詞頻；步驟S33：當詞頻超過閾值時，則將第一斷詞作為至少一第一關聯字並存入詞句庫中。詳細來說，第一關聯網頁係以經由搜尋引擎進行過關聯度及流行度的篩選及排名。而本發明之文字向量方法則是基於這些已做過關聯度及流行度的篩選及排名的第一關聯網頁下，進一步將第一關聯網頁之內容進行斷詞，進而得到複數個斷詞所組合成的第一斷詞組。將此第一斷詞組中之斷詞進行詞頻分析，分析這些斷詞在這些第一關聯網頁中所出現的頻率。當第一斷詞之詞頻超過所設定之閾值時，則將第一斷詞定義為第一關聯字並存入詞句庫。於另一實施例中，將第一斷詞組中的斷詞，以詞頻進行排名，並將所設定的名次內的第一斷詞定義為第一關聯字並存入詞句庫。本發明之詞句庫擴展方法利用兩階段的篩選及排名，來確保各個第一關聯字與第一操作型定義字詞為高度相關聯。

請參閱圖6，圖6為本發明之另一具體實施例之詞句庫擴展方法的步驟流程圖。如圖6所示，於步驟S3之後，更包含步驟S6：將第一關聯字分類於第一操作型定義字詞於詞句庫中的第一分類別中。將第一關聯字與第一操作型定義字詞分成同一類是為了讓詞句庫能更有系統。

相較於現有技術，本發明之詞句庫擴展系統及其方法係針對一個詞句於目前主流及次流行中所有相關之關聯字，跳脫以往以同義詞的方式進行擴展。例如：以往同義詞的方式僅能將「關懷」與「關心」關聯，但本發明之詞句庫擴展系統及其方法可以將「關懷」與「社會局」、「關懷生命協會」以及「關懷專線」等關聯。因此，連結有詞句庫擴展系統的詞句庫將可包含有各種包羅萬象的詞句，且隨時在更新最新的詞句。對於電信業者來說，為了分析各電信用戶所瀏覽之網頁以對此電信用戶進行分類，本發明之詞句庫擴展系統讓詞句庫能隨時更新，確保不會因時間而導致一些舊詞新用的詞句發生過期的問題，進而讓電信業者的分析結果能夠更加精準。

藉由以上具體實施例之詳述，係希望能更加清楚描述本發明之特徵與精神，而並非以上述所揭露的具體實施例來對本發明之範疇加以限制。相反地，其目的是希望能涵蓋各種改變及具相等性的安排於本發明所欲申請之專利範圍的範疇內。