TWM523901U

TWM523901U - 可語意分析關鍵字的搜尋引擎裝置

Info

Publication number: TWM523901U
Application number: TW105200042U
Authority: TW
Inventors: 劉宏明; 蕭政華
Original assignee: 信義房屋仲介股份有限公司
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2016-06-11

Description

可語意分析關鍵字的搜尋引擎裝置

本創作關於一種搜尋引擎裝置，特別是關於一種可語意分析關鍵字並提供推薦清單的搜尋引擎裝置。

隨著網際網路的普及，搜尋引擎已成為人們日常工作、生活中不可或缺的一項技術，其中「Google Suggest」這個技術更受到廣泛矚目。「Google Suggest」是當用戶輸入查詢關鍵字後，在進行搜尋之前，搜尋引擎會自動產生一個框體來顯示其他常用的相關關鍵字，以做為推薦清單供使用者進一步點選。此技術不但提醒用戶其他高度相關的關鍵字，更能幫助用戶快速找到想要找的資訊，提高搜尋效率。

由於網路搜尋的便利性，頗具規模的房地產仲介業者也開始投入房地產搜尋引擎的研發，以便使用者能快速地從成千上萬筆房地產資料中找到所需的資訊，「Google Suggest」的技術也開始成為房地產搜尋引擎的重要部份。由於房地產物件名、建案名以及所屬社區名稱多樣化，房地產業界基於交易方便、溝通習慣或約定俗成等原因，經常對房地產物件賦予一個具代表性的物件簡稱來識別。但是，若用戶想要在房地產業者的搜尋引擎上輸入地址、社區名或物件名，在推薦清單上不見得會出現對應的物件簡稱，或者是即使輸入了物件簡稱，卻不見得會出現對應的其他關鍵字，使得原本為了方便而存在的物件簡稱，在網路搜尋時卻造成不便。例如，在某房地產仲介業者網站的搜尋引擎中輸入「南港」，推薦清單卻出現「南港區」、「南港國宅」而沒有「南港國宅」的物件簡稱「南宅」，即使「南宅」與「南港國宅」實際上就是高度相關的關鍵字，搜尋引擎卻無法將其列入推薦清單。

因此，如何針對房地產物件關聯文本進行語意分析，以產生更具關聯性與精確性的推薦清單，成為本領域刻不容緩的問題。

本創作申請人鑑於習知技術中的不足，經過悉心試驗與研究，並一本鍥而不捨之精神，終構思出本創作「可語意分析關鍵字的搜尋引擎裝置」，且能夠克服先前技術的不足，以下為本創作之簡要說明。

本創作的目的在於針對房地產物件關聯文本，辨識高度相關之物件名、社區名、地址以及物件簡稱等關鍵字，並將這些關鍵字組成核心推薦群，讓用戶可藉由輸入查詢關鍵字來產生更相關且精確的推薦清單，以便搜尋所欲之房地產物件資料。即使在房地產物件關聯文本中的資訊不足(例如缺少物件名、社區名、地址或物件簡稱)，而使核心推薦群有欠缺的情況下，也可以藉由與資料庫的比對，以及對關鍵字字串的進一步擷取，補足核心推薦群所缺少的關鍵字並賦予關聯，剔除低相關與不具代表性之關鍵字，以便產生更相關且精確的推薦清單，提高搜尋效率。

本創作提供一種可語意分析關鍵字的搜尋引擎裝置，包括：一關鍵字資料庫，儲存有複數筆關鍵字，每個關鍵字彼此具有一語意相關度；一斷詞抽出模組，利用一斷詞演算法，從一房地產物件關聯文本中擷取複數筆關鍵字，並儲存至該關鍵字資料庫，其中該複數筆關鍵字至少包括選自一物件名、一社區名、一地址以及一物件簡稱所組成的群組中至少其二；一搜尋模組，以該複數筆關鍵字搜尋該關鍵字資料庫，以獲得各筆關鍵字間的一出現次數，來計算該些筆關鍵字間之該語意相關度，並根據該語意相關度為每筆關鍵字建立一關鍵字關聯序列，並在該關鍵字關聯序列中，將特定該物件名、該社區名、該地址以及該物件簡稱做為一核心推薦群，其中當該核心推薦群中之該物件簡稱不存在時，以該物件名及/或該社區名之複數個字元為依據，不改變該些字元之前後順序來擷取並組合而產生複數筆物件簡稱候補，列入該核心推薦群；一通訊模組，接收來自一用戶所輸入之一查詢關鍵字；以及一篩選模組，接收來自該通訊模組之該查詢關鍵字，並搜尋該查詢關鍵字出現在該核心推薦群中時，而篩選出該查詢關鍵字出現次數最高之該核心推薦群，將該核心推薦群中之該物件名、該社區名、該地址以及該物件簡稱傳送至該通訊模組，推薦給該用戶點選。

1‧‧‧搜尋引擎裝置

10‧‧‧關鍵字資料庫

11‧‧‧地理資料庫

12‧‧‧斷詞詞庫

13‧‧‧擴充詞庫

20‧‧‧斷詞抽出模組

30‧‧‧搜尋模組

40‧‧‧通訊模組

50‧‧‧篩選模組

X₀~X_n、Y₀~Y₂‧‧‧關鍵字

D‧‧‧語意距離

第一圖是本創作之一實施例之搜尋引擎裝置之示意圖。

第二圖是本創作之一實施例之關鍵字關聯序列之示意圖。

第三圖是本創作之一實施例之核心推薦群部分重疊狀況的示意圖。

有關本創作之技術內容、特點及功效，藉由以下較佳實施例的詳細說明將可清楚的呈現。

請參閱第一圖，第一圖是本創作之一實施例之搜尋引擎裝置1之示意圖。搜尋引擎裝置1包含：關鍵字資料庫10、斷詞抽出模組20、搜尋模組30、通訊模組40以及篩選模組50。

本創作之斷詞抽出模組20，是在用戶輸入查詢關鍵字前，事先利用一斷詞演算法，比對關鍵字資料庫10，從房地產物件關聯文本中擷取複數筆關鍵字。所謂的房地產物件關聯文本，是來自網際網路或儲存裝置，關聯於房地產物件之網頁、文書處理檔或純文字檔，在房地產物件關聯文本中，通常包括物件名、社區名、地址、樓層、坪數、屋齡、物件說明以及物件簡稱等房地產物件資訊。斷詞抽出模組20是從這些房地產物件資訊中，以斷詞演算法比對關鍵字資料庫10，擷取有意義的關鍵字。

更詳細來說，本創作之關鍵字資料庫10更包括：地理資料庫11、斷詞詞庫12以及擴充詞庫13。地理資料庫11是用來記錄一地理名詞，其中該地理名詞包括：縣名、市名、鄉名、鎮名、區名、里名、街道路名、知名地標名、公共設施名、已知社區名以及已知物件簡稱，以做為斷詞抽出模組20之斷詞依據。詳細來說，斷詞抽出模組20比對地理資料庫11後，擷取出與該已知社區名之字元及順序完全一致之字串做為社區名，並擷取出與該已知物件簡稱之字元及順序完全一致之字串做為物件簡稱，並儲存至關鍵字資料庫10。也就是說，當房地產物件關聯文本中出現「台北市南港區福德街南港國宅」之字串時，斷詞抽出模組20根據地理資料庫10所記載資訊，將其擷取為「台北市」、「南港區」、「福德街」以及「南港國宅」之複數筆關鍵字。因此，斷詞抽出模組20比對了地理資料庫11後所得到的關鍵字必然包括社區名、物件簡稱及地址。斷詞詞庫12是用來記錄一常用斷詞詞彙，以做為斷詞抽出模組20之斷詞依據。也就是說，當房地產物件關聯文本中出現「誠意出售山景綠意美居」之字串時，斷詞抽出模組20根據斷詞詞庫12所記載資訊，將其擷取為「誠意」、「出售」、「山景」、「綠意」以及「美居」之複數筆關鍵字。

至於擴充詞庫13，是用來記錄常見錯別字以及對應該常見錯別字之一正確關鍵字。這是因為不論在用戶輸入關鍵字，或是房地產物件關聯文本中的關鍵字時，都偶有出現錯別字的狀況，因此根據擴充詞庫13，斷詞抽出模組20可將常見錯別字與正確關鍵字一起選出。

當斷詞抽出模組20完成斷詞後，將擷取出來的複數筆關鍵字儲存至關鍵字資料庫10。搜尋模組30以該複數筆關鍵字搜尋關鍵字資料庫10，以獲得各筆關鍵字間的一出現次數，來計算該些筆關鍵字間之語意相關度。語意相關度的計算方法，可採用習知之KL散度(Kullback-Leibler Divergence)或正規化Google距離(Normalize Google Distance)等方式來計算。茲以正規化Google距離來舉例說明，其語意距離公式如下。

上述語意距離公式中，共同出現次數X係在搜尋總數為N筆的該房地產物件關聯文本中，搜尋任兩筆關鍵字A、B，獲得在同一筆房地產物件關聯文本中共同出現A、B的結果數，個別出現次數Y、Z係在N筆的該房地產物件關聯文本中，分別搜尋該兩筆關鍵字A、B，獲得A、B在該房地產物件關聯文本中出現的二搜尋結果數。也就是說，若要計算關鍵字「南港」(A)與「南宅」(B)的語意距離D，則經由搜尋模組30搜尋記錄在關鍵字資料庫10中，從總數為8,058,044,651(N)筆房地產關聯文本中分別出現「南港」的次數46,700,000(Y)與「南宅」的次數12,200,000(Z)，並檢索共同出現「南港」與「南宅」的次數2,630,000(X)，經過上述公式計算則獲得兩關鍵字的語意距離D為0.44305。當語意距離D的數值越大則代表兩筆關鍵字的語意相關度越低，D數值越趨近於零則代表兩筆關鍵字相關度越高，兩筆關鍵字幾乎都是同時出現。此外，若搜尋結果數(Y或Z)接近搜尋總數N，則代表此關鍵字不具代表性，故搜尋模組30會預先除去該搜尋結果數接近該搜尋總數之關鍵字，不計算其語意距離。

搜尋模組30重複上述方式，可計算出每兩筆關鍵字間的語意相關度，並根據語意相關度為每筆關鍵字建立一關鍵字關聯序列。請參閱第二圖，第二圖是本創作之一實施例之關鍵字關聯序列之示意圖。從第二圖可以看到兩個關鍵字關聯序列X₀~X_n以及Y₀~Y₂不相連，這代表搜尋模組30所檢索到的關鍵字群也會有彼此完全不相關的狀況，故分別屬於不同關鍵字關聯序列。在關鍵字關聯序列中，任兩關鍵字皆有其語意距離，關鍵字X₀與X₁的語意距離為D(X₀,X₁)，關鍵字X₀與X₂的語意距離為D(X₀,X₂)，關鍵字X₀與X_n的語意距離為D(X₀,X_n)，以此類推。為了簡化圖示內容，在此並不列出所有的語意距離。此外，雖然在第二圖中，關鍵字關聯序列為一直列，但這只是一種顯示狀態，實際上並不拘泥於任何排列方式，只要能表示各關鍵字間的語意距離即可。搜尋模組30可將關鍵字關聯序列 X₀~X_n中，「語意距離較接近」(語意相關度較高)的物件名、社區名、地址以及物件簡稱(即X₀~X₃)做為核心推薦群，核心推薦群係必須列入推薦清單推薦給用戶之關鍵字。需要特別指出的是，雖然第二圖顯示在關鍵字關聯序列中，核心推薦群為一個，但通常為複數個。因為所謂的「語意距離較接近」是指語意距離小於一預設距離閾值的狀況，故在一個關鍵字關聯序列中，語意距離小於預設距離閾值的物件名、社區名、地址以及物件簡稱通常有複數個。預設距離閾值可由熟悉本領域技藝人士適當設定，例如可設定為0.5~1.0間的任一數值做為預設距離閾值。再者，即使是不同的核心推薦群，因為所具備的關鍵字有部分相同，也可能會有部分重疊的情況。

請參閱第三圖，第三圖是本創作之一實施例之核心推薦群部分重疊狀況的示意圖。為了簡化圖示，與第二圖不同，不以一直列來表示關鍵字關聯序列，且省略各關鍵字間大部分的語意距離線段。在第三圖中，第一核心推薦群包含關鍵字X₁、X₁₂、X₂及X₃，第二核心推薦群包含關鍵字X₁、X₁₂、X₁₃及X₁₄，兩核心推薦群在關鍵字X₁與X₁₂是相同的，故會有重疊的狀況。舉例來說，在複數個房地產關聯文本中，有物件名及社區名皆為「德安家康」之物件，地址卻分別是「台北市文山區興順街」與「新竹市武陵路」的情況，由於部分關鍵字相同，若根據這些文本產生關鍵字關聯序列時，其所包含的兩核心推薦群會有部分重疊。

此外，搜尋模組30為了確認同時出現的關鍵字是否為社區名及其所對應的地址，以進一步設定社區名與地址的語意相關度，需要利用地理資料庫11來進行。本創作之地理資料庫11更記錄該已知社區名所對應之一地理位置資訊，該地理位置資訊包含選自市名、縣名、鄉名、鎮名、區名以及街道路名所成群組。當搜尋模組30檢索該複數筆關鍵字時，根據地理資料庫11所儲存的資訊，比對共同出現的地址與社區名是否分別與地理位置資訊及對應之已知社區名一致，若為一致，則搜尋模組30賦予該地址與該社區名最高的語意相關度。舉例來說，當關鍵字關聯序列中有「台北市南港區福德街」的字串時，搜尋模組30除了可據以判定這是屬於地址關鍵字之外，更可以將同時出現的「南港國宅」賦予最高的語意相關度，若同時出現的關鍵字中沒有「南港國宅」，則自動將「南港國宅」與「台北市南港區福德街」賦予最高的語意相關度，以便進一步列入核心推薦群。

通常在房地產物件關聯文本中，物件名相當多樣化，有些會包含建案名或社區名，甚至包含物件周邊的公共設施名，除此之外，物件名也常包含用來描述物件的房地產描述性用語，諸如超值、景觀、透天、別墅、豪宅、樓中樓、黃金店面、綠蔭、優質、典雅、翠綠、朝南宅等不勝枚舉，若是這些都被列入核心推薦群，必然造成關鍵字過於複雜多樣，影響用戶搜尋效率。為了維持核心推薦群中關鍵字的精確性，像這些房地產描述性用語，會做為常用斷詞詞彙儲存於斷詞詞庫12。搜尋模組30在核心推薦群儲存於關鍵字資料庫10前，可根據斷詞詞庫12，自核心推薦群預先除去房地產描述性用語。之所以不由斷詞抽出模組20就先行排除，是因為避免影響到搜尋引擎裝置1的搜尋能力，而過度減少推薦清單中的推薦關鍵字。換句話說，即使搜尋模組30已將這些房地產描述性用語自核心推薦群中除去，但房地產描述性用語依然在關鍵字關聯序列中，故仍有機會被推薦。

需要注意的是，並非每個房地產關聯文本中都會出現物件簡稱。由於物件簡稱通常來自於社區名或物件名(例如建案名)，且房地產物件並非一定有其所屬的社區，所以比較常見的狀況是反而是只有物件名與地址共同出現在同一筆房地產關聯文本中，故搜尋模組30需再從房地產關聯文本中擷取出簡稱候補。也就是說，當核心推薦群中不存在對應物件名、地址之物件簡稱時，搜尋模組30根據物件名及/或社區名之複數個字元，不改變該些字元之前後順序來擷取並組合而產生複數筆物件簡稱候補，列入該核心推薦群。舉例來說，假設屬於物件名稱的「南港國宅」的物件在關鍵字資料庫中沒有記錄對應的物件簡稱時，搜尋模組30會根據「南」、「港」、「國」及「宅」四個字元，產生「南港」、「南國」、「南宅」、「港國」、「港宅」、「國宅」等物件簡稱候補，搜尋模組30將已產生的物件簡稱候補列入核心推薦群，記錄至關鍵字資料庫10。

又，由於搜尋模組30所產生的物件簡稱候補過多，會使得核心推薦群內可能會列入太多語意相關度低的關鍵字，導致搜尋效率低落，因此需要由篩選模組50進行篩選，以減少核心推薦群中的語意相關度低的關鍵字。在關鍵字資料庫10中，關鍵字具有一屬性資料，該屬性資料至少包含有一被點選次數、一被搜尋次數與關聯數量。被點選次數是指用戶點選搜尋引擎裝置1所推薦的特定關鍵字的次數，被搜尋次數是指用戶搜尋特定關鍵字的次數。篩選模組50可根據關鍵字資料庫10所記錄的關鍵字之被點選次數或被搜尋次數，從複數筆物件簡稱候補中去除被點選次數或被搜尋次數低於預定閾值之物件簡稱候補。也就是說，篩選模組50會根據用戶以往的搜尋記錄(或稱用戶日誌)，把過去較少被用戶搜尋甚至從未被搜尋的關鍵字排除，來進一步篩選物件簡稱候補，提高搜尋效率。關聯數量則是特定關鍵字相關於多少筆物件，亦即使用特定關鍵字搜尋時可以被找出來的物件數量。

再者，由於房地產物件的物件名，通常包含靠近哪些知名地標或公共設施，這會使得不同核心推薦群間的精確性降低，因此篩選模組50也可以根據該地理資料庫11，除去核心推薦群中出現之知名地標名及公共設施名，維持核心推薦群的精確性。舉例來說，在房地產物件關聯文本中出現與「南港公園」有關的關鍵字關聯序列中，由於「南港公園」本身必然是公共設施名稱，且非指物件本身或是可產生相關簡稱之物件名，所以也當然是文本中關於物件描述的部分，例如指靠近南港公園的物件。因此，篩選模組50可將「南港公園」排除於核心推薦群之外，但仍處於關鍵字關聯序列中。雖然如此一來導致「南港公園」仍有可能被推薦，卻不會因為「南港公園」周邊的物件過多，導致不同核心推薦群容易因具有相同關鍵字而失去區辨性。不過，如果「南港公園」等知名地標或公共設施名稱，就是用戶所輸入之查詢關鍵字時，名地標或公共設施名稱仍然屬於核心推薦，群篩選模組5就不會根據該地理資料庫11，除去核心推薦群中出現之知名地標名及公共設施名。

在搜尋模組30完成關鍵字關聯序列，並將特定關鍵字列入核心推薦群，則搜尋引擎裝置1處於可接受用戶輸入關鍵字的狀態。當用戶經由通訊模組40輸入之查詢關鍵字，通訊模組40會將查詢關鍵字傳送到篩選模組50，搜尋該查詢關鍵字是否出現在核心推薦群中。當該查詢關鍵字出現在核心推薦群中時，篩選出該查詢關鍵字出現次數最高之核心推薦群，並將該核心推薦群中之物件名、社區名、地址以及物件簡稱傳送至該通訊模組40，推薦給該用戶點選。舉例來說，在用戶輸入查詢關鍵字「南港」的時候，篩選模組50搜尋查詢關鍵字「南港」出現在包含「南港國宅」、「南宅」及「南港區福德街」的第一核心推薦群、包含「南港區東新街」的第二核心推薦群以及出現在包含「威京尊龍」及「南港區南港路」的第三核心推薦群中，並篩選南港出現次數最多的第一及第三核心推薦群，將第一及第三核心推薦群中的「南港國宅」、「南宅」、「南港區福德街」、「威京尊龍」及「南港區南港路」等關鍵字列入推薦清單，推薦給用戶進一步點選。

若是篩選模組50搜尋該查詢關鍵字未出現在該核心推薦群中時，則根據儲存於關鍵字資料庫10的關鍵字關聯序列，搜尋與該查詢關鍵字之該語意相關度最高之前複數筆推薦關鍵字傳送至該通訊模組，推薦給該用戶點選。舉例來說，若用戶輸入查詢關鍵字「挑高」，由於此關鍵字屬於房地產描述性用語，故不會出現在核心推薦群中，則篩選模組50會從關鍵字關聯序列中搜尋與「挑高」之語意相關度最高之前複數筆關鍵字「挑高樓中樓」、「挑高四米二」、「挑高五米二」及「挑高樓店」等來推薦，至於推薦的關鍵字的筆數為預設數值，可由本領域人士依實際需要設定。

此外，如果用戶輸入的查詢關鍵字(例如強尼戴普)與關鍵字關聯序列中的關鍵字完全不相關時，則篩選模組50不提供推薦，並將無關之該查詢關鍵字與其對應的被查詢次數記錄傳送到關鍵字資料庫10記錄，以供未來由搜尋引擎裝置的管理者進一步處理，例如可檢討被查詢次數過高的無關關鍵字是否能做為擴充詞彙列入擴充詞庫13。這是防止本創作的搜尋引擎裝置1可能會有預想外且具有特定意涵的關鍵字出現，卻無法進行搜尋與推薦的狀況。又，前面有提到斷詞抽出模組20可根據擴充詞庫13將常見錯別字與正確關鍵字一起選出，所以搜尋模組30根據擴充詞庫13，可預先將常見錯別字與正確關鍵字設定成具有最高語意相關度，以便於將該常見錯別字與該正確關鍵字一起列入該關鍵字關聯序列中。如此一來，即使用戶輸入錯別字，搜尋引擎裝置1仍然能夠提供從關鍵字關聯序列中提供正確關鍵字來推薦。

綜上所述，本創作能針對房地產物件關聯文本，辨識高度相關之物件名、社區名、地址以及物件簡稱等關鍵字，並將這些關鍵字組成核心推薦群，讓用戶可藉由輸入查詢關鍵字來產生更相關且精確的推薦清單，以便更快速地搜尋房地產物件。此外，即使房地產物件關聯文本中的資訊不足(例如缺少物件名、社區名、地址或物件簡稱)，而使核心推薦群有欠缺的情況下，也可以藉由與關鍵字資料庫的比對，以及對關鍵字字串的進一步擷取，補足核心推薦群所缺少的關鍵字並賦予關聯，剔除低相關與不具代表性之關鍵字，以便產生更相關且精確的推薦清單，提高搜尋效率。

以上所述者，僅為本創作之較佳實施例，不能以此限定本創作實施之範圍，凡依本創作申請專利範圍及說明書內容所作之簡單的等效變化與修飾，皆仍屬本創作所涵蓋之範圍內。