TW201516718A

TW201516718A - 調整大量資料檢索結果的方法

Info

Publication number: TW201516718A
Application number: TW102139006A
Authority: TW
Inventors: Yi-Zhen Wu; Shuo-Bin You; Jian-Qin Weng; Yan-Fu Ye; Pei-Zhen Jiang
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2015-05-01

Abstract

一種調整大量資料檢索結果的方法，其主要係由使用者發出檢索字詞需求後，檢索字詞輸入介面將檢索字詞傳送至字詞檢索相似度評分模組做字元拆字，並與目標字詞資料庫內之目標字詞進行比對然後依字元正確率的評分等級給予分數，接著將檢索字詞與目標字詞之字串字元位置和順序相比對後，依符合程度比例的評分等級給予評分，此時，將比對字元正確率及比對字元位置順序所得之評分進行加總平均後取得相似度數值，之後，再由熱門度指標評分模組找出目標字詞的熱門度數值，並將相似度數值及熱門度數值加乘運算後得到資料回傳檢索結果之先後順序並傳送給使用者。

Description

調整大量資料檢索結果的方法

本發明係一種資料檢索方法，尤指一種無須事先儲存類似詞彙、詞庫或特殊分類資料庫，且可提高目標字詞的命中機率，同時減輕大量資料建檔的人力成本負擔之調整大量資料檢索結果的方法。

大部分廣泛應用於網際網路上針對文字搜尋的服務技術，都須預先建置與花費人力在彙整/儲存/維護一套或數套檢索字詞與目標字詞間的配對關係、產出類似詞庫或經過特殊分類的資料(庫)，所以，企業主不僅須承擔日益增加不減的人力資源支出成本，還須不間斷地投入資金在維護軟硬體儲存設備上。

中華民國公開第201317814號專利申請案「搜索結果排序方法及設備、搜索方法及設備」，此案係一般大量資料搜尋機制，必須事先建立關鍵字詞庫，也就是預先儲存搜索關鍵字與搜索結果的對應關係，然而，此一對應關係通常需要與被搜尋資料之領域具備相關性(Domain Specific)，並以人工加以介入編輯維護此一關鍵字詞庫，因此必須耗費大量的人力、時間和軟硬體設備成本。

另外，中華民國公開第201316191號專利申請案「資訊查詢方法和裝置」，此案係先獲取查詢詞的類目點擊率和發佈資訊的類目點擊率後，再根據查詢詞的類目點擊率和發佈資訊的類目點擊率計算查詢詞與發佈資訊之間的相似度，當計算得到的相似度大於第一預定閾值時，將發佈資訊作為匹配成功的查詢結果進行返回，惟，當運用此案查詢標的鎖定在企業內部大量的資料以及網際網路上的海量資料時，在資料量基準值極大的情況下，以少量字數的檢索字詞進行查詢檢索時，往往會得到過多但不絕對精確的匹配成功結果。

本發明之主要目的係在於提供一種不須事先預置和儲存由各方面蒐集而來與彙整類似詞彙、詞庫或特殊分類的資料庫，並可立即且快速運算出檢索結果之調整大量資料檢索結果的方法。

本發明之次要目的係在於提供一種在短時間內快速比對出匹配的資料結果，再搭配熱門度數值以提高目標字詞命中機率之調整大量資料檢索結果的方法。

本發明之再一目的係在於提供一種可減輕大量資料建檔的人力成本負擔，同時減少因人為因素導致缺失客訴回報案件之調整大量資料檢索結果的方法。

為達上述目的，本發明之調整大量資料檢索結果的方法，其主要係將檢索字詞傳送至字詞檢索相似度評分模組，透過字詞檢索計算分級評分模組將檢索字詞做字元拆字後，先與目標字詞資料庫內之目標字詞進行比對，並依檢索字詞與目標字詞的比對字元正確率進行評分，而後將檢索字詞進行字元位置與順序比對，再依照比對符合比例進行評分，此時，將比對字元正確率及比對字元位置順序所得之評分進行加總平均後即可取得相似度數值，然後，再透過熱門度指標評分模組找出目標字詞的熱門度數值，將相似度數值及熱門度數值加乘運算後，將乘積結果作為資料回傳檢索結果之先後順序並傳送至使用者介面。

1‧‧‧字詞檢索相似度評分模組

2‧‧‧熱門度指標評分模組

3‧‧‧目標字詞資料庫

11‧‧‧字詞檢索計算分級評分模組

12‧‧‧字詞檢索位置順序評分模組

101‧‧‧使用者透過使用者介面之檢索字詞輸入介面發出檢索字詞需求

102‧‧‧檢索字詞輸入介面將檢索字詞傳送至字詞檢索相似度評分模組

103‧‧‧字詞檢索相似度評分模組透過字詞檢索計算分級評分模組將檢索字詞做字元拆字後，與目標字詞資料庫內之目標字詞進行比對

104‧‧‧字詞檢索計算分級評分模組將檢索字詞與目標字詞的字串值做字元比對，並依字元正確率的評分等級給予分數

105‧‧‧字詞檢索相似度評分模組將檢索字詞透過比對檢索字詞與目標字詞之字串字元位置和順序的符合程度比例後，並依符合程度比例的評分等級給予評分

106‧‧‧字詞檢索相似度評分模組將比對字元正確率及比對字元位置順序所得之評分進行加總平均後取得相似度數值

107‧‧‧字詞檢索相似度評分模組將與檢索字詞比對過之目標字詞傳送至熱門度指標評分模組

108‧‧‧熱門度指標評分模組由熱門度指標資料庫中找出目標字詞的熱門度數值

109‧‧‧字詞檢索相似度評分模組將相似度數值及熱門度數值加乘運算後，將乘積結果作為資料回傳檢索結果之先後順序

110‧‧‧字詞檢索相似度評分模組將資料回傳檢索結果傳送至使用者介面

第1圖為架構本發明整大量資料檢索結果的方法之系統架構圖；第2圖為本發明整大量資料檢索結果的方法之流程圖。

請參閱第1圖，本發明之調整大量資料檢索結果的方法係架構於一字詞檢索相似度評分模組1、一熱門度指標評分模組2及一目標字詞資料庫3上之檢索方法，其中該字詞檢索相似度評分模組1包括一字詞檢索計算分級評分模組11及一字詞檢索位置順序評分模組12，該字詞檢索計算分級評分模組11係將輸入的檢索字詞字串與目標字詞字串值，做字元比對，並依比對字元正確率進行評分，該字詞檢索位置順序評分模組12係分析檢索字詞字串與目標字詞字串之字元位置和順序符合程度比例，然後依比對結果予以評分，該熱門度指標評分模組2係依目標字詞歷史上被查詢次數進行分級評分，該目標字詞資料庫3內儲存有大量的目標字詞。

請參閱第2圖，本發明之調整大量資料檢索結果的方法，其主要係當使用者4發出檢索字詞需求後，透過字詞檢索相似度評分模組1、熱門度指標評分模組2及目標字詞資料庫3，比對檢索字詞與目標字詞資料庫3內之目標字詞，產生相似度數值及熱門度數值後，並依相乘之乘積結果排列為資料回傳檢索結果之先後順序，再提交給使用者4，其步驟流程如下：步驟一、使用者透過使用者介面之檢索字詞輸入介面發出檢索字詞需求101；步驟二、檢索字詞輸入介面將檢索字詞傳送至字詞檢索相似度評分模組102；步驟三、字詞檢索相似度評分模組透過字詞檢索計算分級評分模組將檢索字詞做字元拆字後，與目標字詞資料庫內之目標字詞進行比對103；步驟四、字詞檢索計算分級評分模組將檢索字詞與目標字詞的字串值做字元比對，並依字元正確率的評分等級給予分數104；步驟五、字詞檢索相似度評分模組將檢索字詞透過比對檢索字詞與目標字詞之字串字元位置和順序的符合程度比例後，並依符合程度比例的評分等級給予評分105；步驟六、字詞檢索相似度評分模組將比對字元正確率及比對字元位置順序所得之評分進行加總平均後取得相似度數值106；步驟七、字詞檢索相似度評分模組將與檢索字詞比對過之目標字詞傳送至熱門度指標評分模組107；步驟八、熱門度指標評分模組由熱門度指標資料庫中找出目標字詞的熱門度數值108；熱門度數值係依目標字詞的歷史被查詢累計次數，區分為1~10之等級數值；步驟九、字詞檢索相似度評分模組將相似度數值及熱門度數值加乘運算後，將乘積結果作為資料回傳檢索結果之先後順序109；步驟十、字詞檢索相似度評分模組將資料回傳檢索結果傳送至使用者介面110。

請參閱表一所示，為本發明之調整大量資料檢索結果的方法中，依字元正確率的評分等級給予分數、依符合程度比例的評分等級給予評分與熱門度數值之評分方式均是將比對結果或被查詢次數依階梯式排列順序，並給予不同等級分數，以依符合程度比例的評分等級給予評分為例，表一之等級標示1係指檢索字詞與目標字詞之字元排列順序完全相同，因此區分之等級分數為10分，而該等級標示3~10則依目標字詞之字串長度、比對字元之順序、字元間之字串長度不同，而予以不同之等級評分。

以下透過數個實施範例進行說明：

範例一、以「三總」為檢索字詞進行大量資料檢索，假設大量資料中，符合「三總」資料檢索條件字元而被檢索出來的結果有：「三軍總醫院」、「中華郵政公司內湖三總郵局」、「新北市稅捐稽徵處三重分處-自動總機語音系統」、「杏一醫療用品公司-台北三總店」、「新北市稅捐稽徵處三重分處-人工總機」、及「內政部警政署保安警察第三總隊-第二大隊第二中隊」等結果標的，透過熱門度指標評分模組取得之熱門度數值分別為「三軍總醫院」：10、「中華郵政公司內湖三總郵局」：5、「新北市稅捐稽徵處三重分處-自動總機語音系統」：9、「杏一醫療用品公司-台北三總店」：4、「新北市稅捐稽徵處三重分處-人工總機」：7、及「內政部警政署保安警察第三總隊-第二大隊第二中隊」：3，再以「三總」資料檢索字詞與被檢索出來的結果進行相似度比對評分，其相似度數值之評分結果分別為：「三軍總醫院」：4、「中華郵政公司內湖三總郵局」：8、「新北市稅捐稽徵處三重分處-自動總機語音系統」：4、「杏一醫療用品公司-台北三總店」：8、「新北市稅捐稽徵處三重分處-人工總機」：4、及「內政部警政署保安警察第三總隊-第二大隊第二中隊」：8，然後將熱門度數值，及其相似度數值加以相乘，並以乘績結果作為資料回傳之先後順序，可以得到最後傳回資料之順序為：「三軍總醫院」：10*4=40、「中華郵政公司內湖三總郵局」：5*8=40、「新北市稅捐稽徵處三重分處-自動總機語音系統」：9*4=36、「杏一醫療用品公司-台北三總店」：4*8=32、「新北市稅捐稽徵處三重分處-人工總機」：7*4=28、及「內政部警政署保安警察第三總隊-第二大隊第二中隊」：3*8=24，因此，資料回傳檢索結果之先後順序為三軍總醫院→中華郵政公司內湖三總郵局→新北市稅捐稽徵處三重分處-自動總機語音系統→杏一醫療用品公司-台北三總店→新北市稅捐稽徵處三重分處-人工總機→內政部警政署保安警察第三總隊-第二大隊第二中隊。

範例二：以「清大」為資料檢索字詞進行大量資料檢索，檢索所得資料再依正規化之熱門度數值，及其相似度評分數值加以相乘，並以乘績結果作為資料回傳之先後順序，可以得到最後傳回資料之順序為：「國立清華大學」：9*4=36、「信義房屋-新竹清大店」：4*8=32、「中華郵政公司清華大學郵局」：7*4=28、「新竹市私立清大文理短期補習班：3*8=24」、「國立清華大學-創新育成中心」：4*4=16、「全家便利商店-清大店」：2*8=16、及「國立清華大學-體育組：3*4=12」。

範例三：以「清華」為資料檢索字詞進行大量資料檢索，檢索所得資料再依正規化之熱門度數值，及其相似度評分數值加以相乘，並以乘績結果作為資料回傳之先後順序，可以得到最後傳回資料之順序為：「國立清華大學」：9*8=72、「清華鎖匙行」：7*9=63、「中華郵政公司清華大學郵局」：7*8=56、「清華診所」：6*9=54、「清華鎖匙刻印行」：5*9=45、「鍋大爺-清華店」：5*8=40、及「清華鐘錶眼鏡行」：4*9=36。

由上所述，本發明之調整大量資料檢索結果的方法具有以下之特點與功效：

1.本發明係以相似度評分數值及正規化之熱門度數值等，依其計算結果數值排列其資料回傳順序，可以在大量資料檢索所得結果中，將使用者最可能想要的資料優先傳回，使用者無須在回傳的大量資料中搜尋真正想要的資料。

2.在大量資料範圍中，若資料檢索字詞較短，則其檢所得資料將更多，透過本發明可自動將使用者最可能想要的資料優先傳回，並且無須事先建立及維護詞庫，例如「三總->三軍總醫院」、「清大->國立清華大學」、或「清華->國立清華大學」等，可以節省大量詞庫維護成本。

Claims

一種調整大量資料檢索結果的方法，其步驟流程包括：步驟一、使用者透過使用者介面之檢索字詞輸入介面發出檢索字詞需求；步驟二、檢索字詞輸入介面將檢索字詞傳送至字詞檢索相似度評分模組；步驟三、字詞檢索相似度評分模組透過字詞檢索計算分級評分模組將檢索字詞做字元拆字後，與目標字詞資料庫內之目標字詞進行比對；步驟四、字詞檢索計算分級評分模組依檢索字詞與目標字詞的比對字元正確率進行評分；步驟五、字詞檢索相似度評分模組將檢索字詞透過字詞檢索位置順序評分模組，進行字元位置與順序比對，並依照比對符合比例進行評分；步驟六、字詞檢索相似度評分模組將比對字元正確率及比對字元位置順序所得之評分進行加總平均後取得相似度數值；步驟七、字詞檢索相似度評分模組將與檢索字詞比對過之目標字詞傳送至熱門度指標評分模組；步驟八、熱門度指標評分模組由熱門度指標資料庫中找出目標字詞的熱門度數值；步驟九、字詞檢索相似度評分模組將相似度數值及熱門度數值加乘運算後，將乘積結果作為資料回傳檢索結果之先後順序；步驟十、字詞檢索相似度評分模組將資料回傳檢索結果傳送至使用者介面。
如請求項1所述之調整大量資料檢索結果的方法，其中該字詞檢索計算分級評分模組係將檢索字詞與目標字詞的字串值做字元比對，並依字元正確率的評分等級給予分數。
如請求項1所述之調整大量資料檢索結果的方法，其中該字詞檢索位置順序評分方法模組係透過比對檢索字詞與目標字詞之字串字元位置和順序的符合程度比例後，並依符合程度比例的評分等級給予評分。
如請求項1所述之調整大量資料檢索結果的方法，其中該熱門度數值係依目標字詞的歷史被查詢累計次數，區分為1~10之等級數值。