TW202247002A

TW202247002A - 用以去除資料庫之重複興趣點的方法及系統

Info

Publication number: TW202247002A
Application number: TW111102659A
Authority: TW
Inventors: 徐雯潔; 顯奕陳; 約蘇亞Ｍ馬拉納沙
Original assignee: 新加坡商格步計程車控股私人有限公司
Priority date: 2021-01-26
Filing date: 2022-01-21
Publication date: 2022-12-01
Also published as: US20230306004A1; EP4229517A1; WO2022164387A1; EP4229517A4

Abstract

一種去除電腦實施資料庫之重複興趣點的自動化電腦實施方法，其包括：使一對記錄之資料標準化，其中具有不同拼寫之等效字組可正規化為一單一拼寫；將該對記錄分類為預定義位址類別中之一類別；實行非重複之一類別特定判定且未能判定該對記錄可為一特定非重複類別；將該對記錄之該資料符記化為一對符記化記錄；藉由計算交叉資訊及距離之得分來判定該對記錄之核心字組係連結的；以及判定該等得分是否超過一預定臨限值。本揭露內容之一態樣係關於一種電子資料處理系統、一種資料處理設備、一種非暫時性電腦可讀媒體及一種用於去除電腦實施資料庫之重複興趣點的電腦可執行程式碼。

Description

用以去除資料庫之重複興趣點的方法及系統

發明領域

本揭露內容之一態樣係關於一種去除電腦實施資料庫之重複興趣點的自動化、電腦實施方法。本揭露內容之另一態樣係關於一種用於去除電腦實施資料庫之重複興趣點的電子資料處理系統。本揭露內容之另一態樣係關於一種儲存電腦可執行程式碼之非暫時性電腦可讀媒體。本揭露內容描述例如可在物流、商品運輸及約車中使用的資料庫技術之改良。

發明背景

興趣點(POI)可指實體位置，例如可由緯度及經度以及名稱或位址表達位置之實體。POI資料庫為基於位置之服務的主結構。

POI資料集可經由多個來源獲得，諸如自供應商購買或由人類地圖操作員策展。當來自不同來源之POI資料集組合成一個單一資料庫時，非常可能存在重複記錄。去除POI資料庫之重複項為識別POI資料庫中涉及同一真實世界位置之類似記錄且隨後將其合併在一起的過程。POI資料集常常含有表示相同位置之不同記錄。

去除POI資料庫之重複項的現有方法仍具有大量錯誤肯定。因此，構想一種改良方法。

發明概要

本揭露內容之一態樣係關於一種去除電腦實施資料庫之重複興趣點的自動化、電腦實施方法。該方法可由電子資料處理系統實行。該方法可包括使一對記錄之資料標準化，其中標準化可包括將具有不同拼寫之等效字組正規化為一單一拼寫。該方法可包括將該對記錄分類為預定義類別中之一類別，例如，該等預定義類別可包括點位址及實體中之一者或兩者。該方法可包括進行非重複之類別特定判定，及判定該類別特定判定是否為肯定(因此判定該對記錄為非重複的，亦即，涉及相異POI)。該方法可包括未能判定該對記錄為一特定非重複類別。該方法可包括將該對記錄之該資料符記化為一對符記化記錄。該方法可包括藉由計算該對記錄之交叉資訊及距離之得分來判定該對記錄之核心字組係連結的。該方法可進一步包括判定交叉資訊及距離之得分是否超過預定交叉資訊得分臨限值。

本揭露內容之一態樣係關於一種用於去除電腦實施資料庫之重複興趣點的電子資料處理系統。該電子資料處理系統可包括用以使一對記錄之資料標準化的標準化器，該標準化器可經組配以例如藉由替換操作將具有不同拼寫之等效字組正規化為單一拼寫。該電子資料處理系統可包括用以將該對記錄分類為預定義類別中之類別的分類器，例如該等預定義類別可包括點位址及實體中之一者或兩者。該電子資料處理系統可包括用以判定該對記錄是否可為特定非重複類別之類別特定判定器。該電子資料處理系統可包括符記化器，以在該類別判定器未能判定該對記錄為一非重複類別的情況下，將該對記錄之該資料符記化為一對符記化記錄。該電子資料處理系統可包括一評分器。該評分器可經組配以計算該對符記化記錄之交叉資訊及距離之得分，且判定該對記錄中之該等核心符記是否連結及該對記錄為重複抑或不重複。

本揭露內容之一態樣係關於一種資料處理設備，其經組配以實行去除電腦實施資料庫之重複興趣點的電腦實施方法。

本揭露內容之一態樣係關於一種儲存電腦可執行程式碼之非暫時性電腦可讀媒體，該電腦可執行程式碼包括用於根據去除電腦實施資料庫之重複興趣點之電腦實施方法而去除電腦實施資料庫之重複興趣點的指令。

本揭露內容之一態樣係關於一種電腦可執行程式碼，其包括用於根據去除電腦實施資料庫之重複興趣點之電腦實施方法而去除電腦實施資料庫之重複興趣點的指令。

較佳實施例之詳細說明

以下詳細描述參考藉助於說明而展示可實踐本揭露內容之具體細節及實施例的隨附圖式。足夠詳細地描述此等實施例以使得熟習此項技術者能夠實踐本揭露內容。在不脫離本揭露內容之範圍的情況下，可使用其他實施例，並且可進行結構及邏輯改變。各種實施例未必相互排斥，此係因為一些實施例可與一或多個其他實施例組合以形成新實施例。

在系統或方法中之一者之上下文中所描述的實施例對於其他系統或方法類似地有效。類似地，在方法之上下文中所描述的實施例對於系統類似地有效，且反之亦然。

描述於實施例之上下文中的形貌體可對應地適用於其他實施例中之相同或類似形貌體。即使未在此等其他實施例中明確描述，描述於實施例的上下文中的特徵亦可對應地適用於其他實施例。此外，如在實施例之上下文中針對形貌體所描述之添加及/或組合及/或替代物可對應地適用於其他實施例中之相同或類似形貌體。

在各種實施例之上下文中，關於形貌體或元件所使用的冠詞「一(a/an)」及「該」包括對形貌體或元件中之一或多者的引用。

如本文中所使用，術語「及/或」包括相關聯所列項目中的一或多者中的任一者以及所有組合。

根據各種實施例，描述去除電腦實施資料庫之重複POI記錄之自動化電腦實施方法。如本文中所使用且根據各種實施例之自動化可意謂所有步驟係藉由計算系統自動地實行，且每一步驟係在無需手動干預之情況下藉由計算系統自動地實行，除例如指示計算系統用特定資料庫實行方法且必要時設定諸如臨限值之預定參數以外。圖1中出於說明目的展示根據各種實施例之例示性方法。該方法可由電子資料處理系統實行。該方法可包括使一對記錄之資料標準化100，其中標準化可包括將具有不同拼寫之等效字組正規化為一單一拼寫。該對記錄最初可儲存於POI資料庫10中。該方法可包括將該對記錄分類200為預定義類別中之一類別，例如，該等預定義類別可包括點位址及實體中之一者或兩者。該方法可包括判定類別特定判定是否為肯定。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異位址，且因此涉及相異POI。該方法可包括未能判定該對記錄為一特定非重複類別。該方法可包括將該對記錄之該資料符記化400為一對符記化記錄。該方法可包括藉由計算該對記錄之交叉資訊及距離之得分來計算交叉資訊得分600。該方法可進一步包括判定700該得分是否超過預定交叉資訊得分臨限值。如本文中所使用且根據各種實施例，為簡單起見，交叉資訊及距離之得分亦稱為交叉資訊得分。

根據各種實施例，興趣點(POI)可定義為具有實體位置(例如，由緯度及經度以及名稱或位址表達)之任何實體。POI資料集可經由多個來源獲得，諸如自供應商購買或由人類地圖操作員策展。

如本文中所使用且根據各種實施例，資料庫及/或資料集可儲存於電腦記憶體中，例如儲存於雲端或伺服器中，其中實體儲存器可例如在RAM、HDD、SSD、其他或其組合中。

如本文中所使用且根據各種實施例，POI資料庫可包括例如由自多個POI資料集添加記錄形成之多個(2個或更多個，例如，100000個或更多) POI資料集。如本文所使用且根據各種實施例，待去除重複之POI資料庫具有重複記錄，例如，POI資料庫可包括涉及位址1之第一記錄、涉及位址2之第二記錄、涉及實體1之第三記錄、涉及實體1之第四記錄、涉及位址1之第五記錄、涉及實體3之第六記錄。在該實例中，第一記錄與第五記錄(一對記錄)為重複位址，且第三記錄與第四記錄(另一對記錄)為重複實體。序號僅用作記錄之間的區別，但未必表示記錄之任何次序或順序。

如本文中所使用，且根據各種實施例，去除POI資料庫之重複項為識別POI資料庫中涉及同一真實世界POI (諸如實體或位址)之類似記錄，且隨後例如藉由自POI資料庫刪除記錄中之一者(或不將其帶入至新的經去除重複POI資料庫)來將其合併在一起的過程，若待刪除記錄具有額外資訊，則可將此額外資訊合併至記錄中以保留。該系統及方法允許大資料集在短時段內之快速且可靠的去除重複，舉例而言，典型系統可處理超過1000個記錄/分鐘，這在人工去除重複中是不可能的。

根據各種實施例，選自用於檢查重複之POI資料庫的一對記錄可基於其地理距離而選擇，例如兩個記錄之地理散列可彼此比較，且緯度及經度可用以篩選隔開達某一距離(例如，50米)之記錄以用於去除重複檢查。根據各種實施例，該方法可包括可針對資料庫之兩個記錄之任何組合執行且選擇該對記錄用於去除重複檢查的此類地理篩選(例如，距離計算)。由於用現代電腦來進行地理散列之比較極其快速(例如，其可花費10毫秒或更少)，因此地理篩選並不會減慢該過程，而實際上提高了去除重複之速度，此係因為僅比較相隔達某一距離之記錄，從而大幅度減少記錄組合之可能數目。

如本文中所使用且根據各種實施例，符記資訊得分(在本文中亦簡單地命名為符記得分)可藉由使用現有國家特定POI資料庫加以計算。符記出現的頻率愈小，符記得分愈高(符記含有的資訊愈多)。本文中例如結合符記得分字典解釋其他細節。國家特定資料庫可包括地理塊(geo tile)資訊。在同一國家存在多於一種語言的情況下，對於同一國家，可能對於每一語言存在一個國家資料庫。

根據各種實施例，該方法可包括使一對記錄之資料標準化100，其中標準化可包括將具有不同拼寫之等效字組正規化為一單一拼寫。出於說明之目的，標準化之實例展示於圖2中。圖2展示具有非標準化資料之行及標準化資料之行的表。舉例而言，第一記錄可包括可經標準化為「ST」之術語「STREET」，第二記錄可包括可經標準化為「GANG 2」之術語「GANG II」，且第三記錄可包括可經標準化為「6 AVE」之術語「SIXTH AVENUE」。根據各種實施例，標準化可根據可儲存於標準化字典中的標準化規則來實行。標準化字典可選擇為區域特定的，例如特定於國家及/或語言。根據各種實施例，使該對記錄之資料標準化可基於以下各者中之一或兩者：國家特定字典及語言特定字典。標準化可替代地以電腦程式碼實施。根據各種實施例，經去除重複之記錄(及經去除重複之POI資料庫)可保持標準化格式，藉此提供允許更容易進一步自動化處理之較佳經格式化記錄。

該方法可進一步包括在將該對記錄分類200為一類別之前，剖析90一對記錄之資料，其中剖析可包括將資料剖析成可比較之組分。組分可為預定義組分，包括例如：對門牌號碼之參考(例如「HOUSE_NO」)、對街道名稱之參考(例如「STREET」)。圖3展示具有未剖析資料之行及經剖析資料之行的表。在該實例中，未剖析資料可為可為字串「28 SIN MING LN」，其可剖析為「HOUSE_NO: 28, STREET: SIN MING LN」。根據各種實施例，經去除重複之記錄(及經去除重複之POI資料庫)可保持剖析格式，藉此提供允許更容易進一步自動化處理之較佳經格式化記錄。

例示性資料可呈字元字串之格式，出於說明之目的，圖式展示大寫字元，然而，本揭露內容不限於此。字元字串可以電腦可讀格式(例如，以二進位格式)儲存於電腦記憶體中，且可由處理器處理。本文中所說明之實例係以人類表示說明以易於解釋，然而，在根據各種實施例之系統或方法中並不需要至人類可讀格式(例如，在行動電話顯示器上)之轉換，且轉換可例如僅在存取經去除重複POI資料庫之資料以供人類使用時發生。

根據各種實施例，實行非重複之一類別特定判定可包括判定該對記錄屬於同一類別。根據各種實施例，實行非重複之類別特定判定可包括將該對記錄分類為一類別，例如判定該對記錄屬於哪一類別。

根據一些實施例，實行非重複之類別特定判定可包括判定該對記錄中之至少一個記錄屬於非點位址類別，在此情況下，該對記錄被分類為非點位址類別，且非重複之類別特定判定可包括判定該對記錄是否涉及同一實體或判定該對記錄涉及同一實體，如將作為實例在下文進一步解釋。

根據各種實施例，類別可為點位址類別。點位址可包括例如街道標記及門牌號碼。如本文中所使用且根據各種實施例，街道標記可包括特定名稱，且可進一步涉及街道類型，非限制性實例為：道路、通道、車道、交通路線、坡道、公園、大街、路、車道、駕駛路線、其組合。點位址POI可指具有POI名稱之彼等POI，包括例如僅由位址資訊組成，例如「93, JALAN SIDAKARYA」及「28 SIN MING LN」。非重複之類別特定判定300可包括判定該對記錄(亦命名為點位址記錄)是否涉及同一街道之同一門牌號碼或判定該對記錄(亦命名為點位址記錄)涉及同一街道之同一門牌號碼。該方法可包括判定點位址是否具有不同門牌號碼或不同街道標記。若該對門牌號碼或該對街道標記中之任一者不同，則非重複之類別特定判定為肯定。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異位址，且因此涉及相異POI。該方法可包括未能判定該對點位址記錄並不複製，因此未能判定該對記錄為一特定非重複類別。如本文中所使用且根據各種實施例，表述「未能判定」可意謂判定之結果為否定的。

根據各種實施例，類別可為非點位址類別，且非重複之類別特定判定300可包括判定該對記錄(亦命名為實體位址記錄)是否涉及同一實體，例如具有相同實體標記或判定該對記錄(亦命名為實體位址記錄)涉及同一實體，例如具有相同實體標記。該方法可包括判定點位址是否具有不同實體標記，若實體標記不同，則非重複之類別特定判定為肯定。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異實體，且因此涉及相異POI。該方法可包括未能判定該對點位址記錄並不複製，因此未能判定該對記錄為一特定非重複類別。實體POI可指所有非點位址POI，例如「ATM BANK ABANK」及「MARINA ONE」。類別分類允許根據各種實施例之方法的類別特定最佳化，使得該對記錄可經類別特定分析，其產生更精確的去除重複。根據各種實施例，非點位址類別檢查可包括連鎖店檢查。舉例而言，若連鎖店存在於一個實體記錄中且不存在於另一實體記錄中，則其必然不重複。特定針對連鎖店之檢查可改良總體方法，此係因為連鎖店名稱中之符記將具有低得分(歸因於許多次出現)且重要性將低於其他符記，此可在簡單地使用核心符記得分用於判定重複時引起錯誤肯定。

圖4A展示根據各種實施例的用於將一對記錄分類300為類別之例示性流程圖。該對記錄可用標準化及/或剖析步驟100進行處理。在此實例中，預定義類別包括點位址及實體。在決策步驟305處檢查該對記錄是否為點位址(「點位址？」)，若檢查返回該對記錄屬於點位址，則該過程以門牌號碼及街道檢查檢查步驟310繼續(圖4B，下文)。若返回該對記錄並不屬於點位址，則該過程以實體檢查步驟320 (圖4C，下文)。

根據一些實施例，替代在決策步驟305處檢查一對記錄是否為點位址(「點位址？」)，檢查該對記錄中之至少一個記錄是否為非點位址。若判定該對記錄中之至少一個記錄為非點對點位址，則該過程以實體檢查步驟320繼續，否則該過程以門牌號碼及街道標記檢查步驟310繼續。根據一些實施例，該方法可進一步包括檢查320'以檢查為點位址之記錄是否為非點位址記錄的重複(或檢查為點位址之記錄為非點位址記錄的重複)，例如，記錄A'可為點位址，該點位址為記錄B'中之實體的位址。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異實體，且因此涉及相異POI。若判定該對記錄為重複的，則此意謂非重複之類別特定判定未能判定該對記錄為非重複的，流程圖可繼續進行至符記化器400。

參考圖5A展示將記錄對分類為一類別之實例，其中出於說明之目的，展示具有該對資料記錄之資料(資料行)及各別類別(類別行)的例示性表。對於第一對記錄，判定兩個記錄均為點位址，例如「93, JALAN SIDARKARYA」及「28 SI MING LN」兩者均具有街道標記及門牌號碼。對於第二對記錄，判定兩個記錄皆涉及實體，例如「ATM BANK ABANK」及「MARINA ONE」不具有街道標記及門牌號碼。

圖4B展示用於判定該對記錄是否屬於不同相同點位址之例示性流程圖310。在決策步驟312 (「≠門牌號碼？」)中，若判定門牌號碼不同(312之「是」)，則流程圖在314處結束，此係由於判定出該對記錄並不形成重複且為特定非重複類別，亦即，該對記錄中之每一記錄涉及唯一點位址。若判定該對記錄並不具有不同門牌號碼(312之「否」)，則決策步驟316 (「≠街道?」)檢查街道標記是否不同，若判定街道標記不同 (316之「是」)，則流程圖在317處結束，此係由於判定出該對記錄並不形成重複且為特定非重複類別，亦即，該對記錄中之每一記錄涉及唯一點位址。若判定該對記錄並不具有不同街道標記(316之「否」)，則此意謂非重複之類別特定判定未能判定該對記錄為非重複的，流程圖可繼續進行至符記化器400。儘管圖4A及圖4B展示類別分類及非重複類別特定判定之一個實例，但根據各種實施例，其變化係可能的，例如可按相反次序檢查門牌號碼及街道標記，或可檢查兩者，且邏輯比較可判定該對記錄中至少一者是否不同。舉例而言，若兩個點位址記錄之門牌號碼不同，則其必然不重複。在一些國家中，例如新加坡，不同道路標記指示不同道路，諸如「BENCOOLEN STREET」及「BENCOOLEN LINK」。因此，針對此國家執行街道標記檢查。根據各種實施例，街道標記檢查可為國家特定的。

參考圖5B展示街道標記檢查之實例，其中例示性表展示為具有作為標記檢查結果的列「記錄1」、「記錄2」(其形成記錄對)以及列「結果」。展示2對記錄之實例，在具有第一對記錄之實例1中，記錄1包括「BENCOOLEN STREET」，且記錄2包括「BENCOOLEN LINK」，將街道標記判定為不同的(「不同道路」)。在具有第二對記錄之實例2中，記錄1包括「HILL」，且記錄2包括「LEONIE HILL ROAD」，街道標記亦判定為不同的(「不同道路」)。涉及不同街道之街道標記符記之實例可為街道類型，諸如：道路、通道、車道、交通路線、坡道、公園、大街、路、車道、駕駛路線、其組合及其他。

圖5C展示用於判定該對記錄是否屬於不同實體之例示性流程圖320。在決策步驟322 (「≠實體？」)中，比較實體(例如藉由比較實體標記)，若判定實體標記不同(322之「是」)，則流程圖在321處結束，此係由於判定出該對記錄並不重複，亦即，該對記錄中之每一記錄涉及唯一實體。若判定該對記錄並無不同(例如，涉及同一實體)(322之「否」)，則此意謂非重複之類別特定判定未能判定該對記錄為非重複的，流程圖繼續進行至符記化器400。儘管圖4C展示根據各種實施例的非重複之類別特定判定之一個實例，但根據各種實施例，其變化係可能的。

參考圖5C實體檢查之實例，其中例示性表展示為具有列「記錄1」、「記錄2」，其形成例示性記錄對。在該實例中，記錄1具有「FASTFOODCS BEAUTY WORLD」，且記錄2具有「BEAUTY WORLD」。類別特定判定結果為，兩個記錄表示不同實體，因為記錄1表示連鎖店FastfoodCS，而記錄2並不表示連鎖店FastfoodCS。

返回參考圖4A至圖4C，若該方法已判定該對記錄為特定非重複類別，則流程圖300可結束，其中判定該對記錄為非重複的(314、317、321)，亦即，該對記錄中之記錄涉及相異POI。否則，若非重複之類別特定判定未能判定該對記錄為非重複類別，則該方法繼續進行至符記化400。

根據各種實施例，該對記錄之符記化400可意謂將資料(例如，呈字串形式)分裂成個別符記。根據各種實施例，符記化400可為國家特定及/或語言特定的。分裂可藉由使用標點符號及空格作為符記分裂器(例如，二進位中之32作為符記分裂器)而執行。對於不使用空格來分離字組之一些國家(例如，泰國)，可利用語言特定符記化器。根據各種實施例，符記化可為國家及/或語言特定的，且符記化器可為國家及/或語言特定符記化器。根據各種實施例，在符記化400之後的記錄對亦可命名為符記化記錄對。根據各種實施例，符記化可用電腦字串操縱功能來實施。符記化器將記錄之資料(例如，作為字串)分裂成個別符記(例如，字組)，符記化記錄可以電腦格式儲存及處理，例如個別符記可藉由二進位碼分隔符定界、具有個別記憶體指標或指標偏移等。符記化準備資料，從而允許在例如連結之記錄間進行電腦逐符記分析。

根據各種實施例，連結500可包括連結該對符記化記錄中之共同符記510，且可進一步包括連結該對符記化記錄中之類似符記530。

根據各種實施例，連結共同符記可包括將出現在該對符記化記錄之兩個記錄中的符記標示為連結，例如藉由在該對符記化記錄之符記陣列中之每一者中用「*」替換共同符記，藉此提供共同連結記錄對。

共同連結之實例用圖6說明，其展示具有例示性資料之表。圖6的表包括形成記錄對之記錄1及記錄2。在一個行(「連結之前的符記」)中，該對符記化記錄對於各別記錄1及2具有資料[「JL」,「BRIGJEN」,「KATAMSO」]及[「JL」,「BRIGADIR」,「JENDRAL」,「KATAMSO」]。行「連結之後的符記」展示由共同連結產生的共同連結記錄對，其中「JL」與「KATAMSO」連結，從而得出[「*」,「BRIGJEN」,「*」]及[「*」,「BRIGADIR」,「JENDRAL」,「*」]。星號(「*」)僅用作實例，且可根據各種實施例使用另一符號或另一連結方式。

圖7展示用於連結類似符記之流程圖530，其中考慮符記之間的變化。根據各種實施例，連結類似符記530可包括檢查串接532。替代地或另外，連結類似符記530可包括檢查複合字組534。根據各種實施例，連結類似符記530可包括計算編輯距離536及基於編輯距離判定538核心字組係連結的(538之「是」)，或判定核心字組不連結(538之「否」)且因此並非重複(結束539)。根據各種實施例，連結類似符記530可經組配以對兩個記錄之間的符記進行評分、比較，以供識別及連結複合符記，此可包括計算類似性得分。該等規則可為國家特定的，因此，該方法可包括判定國家及應用國家特定規則。在一實例中，該等規則可提供於記憶體中，在連結530類似符記得分時可存取該記憶體。根據各種實施例，連結類似符記530可經組配以比較兩個記錄之間的符記以供識別及連結串接符記。在實例中，可藉由Levenshtein及/或Jaro-Winkler類似性識別串接。若判定核心字組係連結的(538之「是」)，則該方法可繼續進行至計算交叉資訊得分600。圖7說明根據一個實例之連結，然而，根據各種實施例，變化亦為可能的，例如檢查串接與複合字組可以相反次序或甚至一起實行。Levenshtein類似性及Jaro-Winkler類似性可實施為電腦程式碼，例如，作為遞歸演算法，或更高效地，運用矩陣操縱演算法。

舉例而言，對於印度尼西亞，用於複合符記之規則可包括採用連續字組之前3個字母來製作複合字組。對於特定國家，規則可不同。根據各種實施例，對於許多國家起作用的預設規則可包括檢查類似性得分是否為1.0。

如本文中所使用且根據各種實施例，類似性得分可意謂記錄對中之不同記錄的符記之間的類似性得分。類似性得分可指Levenshtein類似性，在此情況下，其可包括兩個值：一者為將字串A (一個記錄之符記)改變為字串B (另一記錄之符記)所需的編輯距離，此值為整數；另一者為值在[0, 1] 之間的經正規化編輯距離，其可例如正規化為兩個字串(符記)中之較大者之長度。

根據各種實施例，連結類似符記530可包括檢查串接532。串接可為聯合且縮短之字組。在一實例中，發現「BRIGJEN」為「BRIGADIR」與「JENDRAL」之複合字組。應注意，在圖6之實例中，類似符記均在符記集合之位置2處。

根據各種實施例，連結類似符記530可包括檢查複合字組534。複合字組可例如在無分隔符之情況下與連字符一起書寫，或其可例如藉由空格間隔開書寫。舉例而言，符記集合[「MARKET」，「PLACE」]與[「MARKETPLACE」]可指同一位置。

根據各種實施例，計算編輯距離536自符記化記錄對判定符記中之類似符記之間的編輯距離，該等符記可能先前已藉由共同連結處理。可藉由計算編輯距離536之結果判定類似性得分，例如，類似性得分計算可包括於計算編輯距離536中。用於判定編輯距離之方法之實例為Jaro-Winkler距離(其中計算轉置)及Levenshtein (其中計算替代)或其混合。

根據各種實施例，連結類似符記之條件可為，一個符記至少具有另一較長符記之長度的一半，且其類似性得分應超過預定類似性臨限值。根據各種實施例，符記之長度可量測為字元之計數。舉例而言，在[「Aeonmall」,「*」,「*」]及[「Aeonmall」,「*」,「*」]中，「Aeonmall」與「Aeonmall」將作為類似符記而連結。

根據各種實施例，連結類似符記530可包括將出現在該對符記化記錄(例如，該對共同連結記錄)之兩個記錄中的符記標示為連結，例如藉由在符記陣列中之每一者中用「*」替換類似符記，藉此提供類似性連結記錄對。星號(「*」)僅用作實例，且可根據各種實施例使用另一符號或另一連結方式。

出於說明之目的，結合圖8展示類似連結之實例。獲得圖6的共同連結記錄對，即為[「*」,「BRIGJEN」,「*」]之記錄1及為[「*」,「BRIGADIR」,「JENDRAL」,「*」]之記錄2，檢查串接及/或複合字組分別得出[「*」,「BRIGADIR」,「JENDRAL」,「*」]及[「*」,「BRIGADIR」,「JENDRAL」,「*」]。在實行類似符記之連結之後，所得陣列分別為[「*」,「*」,「*」]及[「*」,「*」,「*」,「*」]，從而判定538核心字組經連結(538之「是」)。類似性得分之計算可導致類似性得分，在此實例中為[1.0]，其高於預定類似性臨限值，因此該對記錄經判定為重複。在另一實例中，當並非所有核心字組經連結時，藉由返回「否」判定538核心字組未能連結，此導致該對記錄被判定為並非重複(結束539)，亦即為唯一記錄。

根據各種實施例，判定538核心字組是否連結可用於實體比較。根據各種實施例，判定538核心字組是否連結可包括判定一個記錄之符記中的任一者(例如，前兩個符記中之任一者)是否已連結至另一記錄中之符記，例如，兩個記錄中之符記中的任一者(例如，前兩個符記中之任一者)是否為「*」。在一個實例中，給定符記陣列[「ORTO」]及[「LOBBY」,「ORTO」,「YISHUN」]，「ORTO」連結至「ORTO」。第一符記「LOBBY」未連結，然而，其具有低於「ORTO」之得分，此意謂「LOBBY」提供的資訊較少。在此情況下，「LOBBY」之連結為可選的。接著，此記錄對通過核心字組連結檢查，且該方法可繼續進行至計算交叉資訊得分600。

出於說明之目的，參考圖10。圖10說明根據一個實例計算交叉資訊得分，然而，根據各種實施例，變化亦係可能的。該方法可包括計算符記陣列之交叉資訊得分600。根據各種實施例，計算交叉資訊得分600可包含計算交叉資訊的得分610。計算交叉資訊得分600可包括計算編輯距離620及/或比率630之得分。該方法可進一步包括判定700交叉資訊得分是否超過預定交叉資訊得分臨限值(或在本文中簡單地命名為交叉資訊臨限值)。若未超過交叉資訊得分臨限值，則該對記錄並不重複。若超過交叉資訊得分臨限值，則該對記錄為重複的。在出於說明之目的而展示的圖10之實例中，若未超過交叉資訊得分臨限值(700之「否」)，則該對記錄並不重複(「非重複」)，且該方法繼續進行至結束720。若超過交叉資訊得分臨限值(700之「是」)，則該對記錄為重複的(「重複」)，且該方法可繼續進行至結束710。

根據各種實施例，符記得分字典20可包括國家及/或語言特定符記及其得分。符記字典可儲存於電腦記憶體中，該電腦記憶體可由評分器(例如，電子處理器(例如，CPU))存取以用於計算交叉資訊得分600。符記得分字典將在下文進一步更詳細地解釋。

根據各種實施例，一或多個(例如三個)距離度量可用以量測一對記錄之間的類似性。根據各種實施例，該等距離度量可選自：交叉資訊得分、Levenshtein距離及Levenshtein比率。交叉資訊得分可用以量測記錄對之間的交互資訊。根據各種實施例，所有三個距離度量、交叉資訊得分(info_score)、Levenshtein距離(edit_dist)及Levenshtein比率(edit_ratio)可用以量測一對記錄(該對記錄包括記錄A及記錄B)之間的類似性。

交叉資訊得分(info_score)可界定為：

	等式(1)
	等式(2)
	等式(3)

其中： com表示記錄對中之兩個記錄之共同符記集合； sim _A 表示具有與記錄B連結之類似符記的記錄A中之符記； sim _B 表示具有與記錄A連結之類似符記的記錄B中之符記；sim_score( t)表示經連結類似符記之類似性得分； TA表示記錄A之符記集合； TB表示記錄B之符記集合。

在以上等式中，

及

分別表示記錄A及記錄B中的交互資訊。交叉資訊得分為

與

之混合。混合函數之實例包括調和平均或最大函數，諸如：

	等式(4)
	等式(5)

根據各種實施例，判定交叉資訊得分是否超過交叉資訊臨限值可包括使用info_score、edit_dist及edit_ratio中之一或多者，例如全部，來與交叉資訊臨限值進行比較以決定一對記錄是否重複。交叉資訊臨限值可為複合的(在本文中稱為「複合得分」)，亦即包括以下各者中之一或多者：info_score臨限值(th ₁)、edit_dist臨限值(th ₂)及edit_ratio臨限值(th ₃)。舉例而言，當info_score＞th ₁或(edit_ratio＞th ₂且＜th ₃)時，交叉資訊得分可超過交叉資訊臨限值，其中info_score的計算可根據等式(1)至等式(5)，但不限於此。若未超過交叉資訊臨限值，則該對記錄並不重複。若超過交叉資訊臨限值，則該對記錄為重複的。在另一實例中，複合得分可根據其因數負載而加權，且可基於C ₁×info_score+C ₂×edit_ratio，其中C ₁及C ₂為恆定因數。交叉資訊得分之計算允許符記之電子比較(藉由機器)，且可以用於電腦之指令的形式實施。

根據各種實施例，符記得分字典(或簡稱字典)可包括多個條目，每一條目用於一符記，且可包括關於與該符記相關聯之各別國家及得分的資訊。舉例而言，字典可涵蓋已出現在POI資料庫中的符記超過2次，次數可為可組配的。符記得分字典看起來可包括呈格式{(country_id,符記): token_score}之多個條目，其中關鍵字為諸如(「SG」，「st」)之元組(country_id，符記)，且值為諸如0.00001之浮點數的token_score。本文中，「country_id」表示國家識別碼，且「token_score」表示符記得分。根據各種實施例，不頻繁符記及未見過的符記可接收預設得分，該預設得分可指派給符記，假定符記僅出現一次。

根據各種實施例，符記得分(例如，token_score)可在建立字典時計算，及/或可在添加或更新條目至字典時計算。符記得分字典可用以計算兩個符記陣列之交叉資訊得分。

符記得分反映符記中表達的資訊之量。得分愈高，符記提供之資訊愈多。按照國家將符記得分界定為：

等式(6)

其中：

為一個國家特定POI資料庫中POI的總數，其中 N可為預定義的；

為國家特定POI資料庫中含有項 t的記錄的數目；

為本地記錄之總數，例如，地理塊

中的記錄總數；且

為含有項

的本地記錄(例如，地理塊

中的記錄)之數目。國家特定POI資料庫可包括地理塊資訊。索引 l可指地理塊，且索引 g可指全球。在同一國家存在多於一種語言的情況下，對於同一國家，可能對於每一語言存在一個國家特定POI資料庫。國家特定POI資料庫可為預先存在之資料庫。

之實例為：

等式(7)

其中

為混合全球及局部逆文件頻率的權重，且可取[0, 1]中的值。在一些實施例中，符記得分可為全球逆文件頻率與本地文件頻率之混合。加權和為混合函數之實例。引入本地逆文件頻率允許在空間上下文內正確地估計符記之資訊。

舉例而言，給定記錄「Premium Outlet Phuket Ecco」，最具資訊性的字組應為「Ecco」。然而，符記[「Premium」, 「Outlet」, 「Phuket」]在除此購物中心區域外之其他泰國地區可能幾乎看不到，且該等符記亦可能具有高資訊得分且重要性高於核心字組「Ecco」。藉由添加本地逆頻率組分，因為存在許多含有彼等字組之本地POI，所以[「Premium」, 「Outlet」, 「Phuket」]之資訊得分將減小。

在一比較實例中，展示實體檢查之重要性。參考圖9，其中例示性表展示為具有列「記錄1」、「記錄2 」(其形成記錄對)，且列展示未連結之符記(「未連結符記」)。行展示針對每一記錄之符記及其相關聯得分。在該實例中，記錄1具有[「FASTFOODCS」, 「BEAUTY」, 「WORLD」]，且記錄2具有符記[「BEAUTY」, 「WORLD」]。[「FASTFOODCS」, 「BEAUTY」, 「WORLD」]之符記得分為[5.2, 6.2, 6.2]。連結共同符記及比較類似性得分將得出表示名為FastfoodsCS之速食連鎖店的符記「FASTFOODCS」並未連結。因為「FASTFOODCS」之符記得分([5.2])比「BEAUTY」之符記得分([6.2]]小，因此「FASTFOODCS」將不被視為核心符記，且其連結係可選的。因此，類別特定比較(諸如，實體檢查)允許將兩個實體識別為分離的POI，否則，兩個符記之交叉資訊得分將超過交叉資訊臨限值，且兩個記錄皆將被決定為重複。

根據各種實施例，描述一種用於去除電腦實施資料庫之重複興趣點的電子資料處理系統。該電子資料處理系統可包括用以使一對記錄之資料標準化100的標準化器，該標準化器可經組配以例如藉由替換操作將具有不同拼寫之等效字組正規化為單一拼寫，例如如先前所描述。電子資料處理系統可包括分類器以將該對記錄分類200為預定義類別中之類別，例如如先前所描述。在實例中，預定義類別可包括點位址及實體中之一者或兩者。電子資料處理系統可包括類別特定判定器以判定300該對記錄是否可為特定非重複類別，例如如先前所描述。電子資料處理系統可包括符記化器，以在類別判定器未能判定該對記錄為非重複類別的情況下，將該對記錄之資料符記化400為一對符記化記錄，例如如先前所描述。該電子資料處理系統可包括一評分器。該評分器可經組配以計算該對符記化記錄之交叉資訊及距離之得分，且判定700該對記錄中之核心符記是否可連結及該對記錄為重複抑或不重複，例如如先前所描述。

根據各種實施例，分類器可經組配以判定該對記錄屬於同一類別。根據各種實施例，分類器可經組配以將該對記錄分類為一類別，例如，判定該對記錄屬於哪一類別。

根據各種實施例，類別可為點位址類別，且類別特定判定器可經組配以判定該對記錄(亦命名為實體位址記錄)是否涉及同一街道之同一門牌號碼或判定該對記錄(亦命名為實體位址記錄)涉及同一街道之同一門牌號碼。類別特定判定器可經組配以判定點位址是否具有不同門牌號碼或不同街道標記，如先前所解釋。若該對門牌號碼或該對街道標記中之任一者不同，則非重複之類別特定判定為肯定。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異位址，且因此涉及相異POI。未能判定該對點位址記錄並不複製導致未能判定該對記錄為特定非重複類別。

根據各種實施例，類別可為非點位址類別，且類別特定判定器可經組配以判定該對記錄(亦命名為實體位址記錄)是否涉及同一實體，例如具有相同實體標記或判定該對記錄(亦命名為實體位址記錄)涉及同一實體，例如具有相同實體標記。類別特定判定器可經組配以判定點位址是否具有不同實體標記，若實體標記不同，則非重複之類別特定判定為肯定。若非重複之類別特定判定300為肯定，則該對記錄為非重複的，亦即，涉及相異實體，且因此涉及相異POI。未能判定該對點位址記錄並不複製導致未能判定該對記錄為特定非重複類別。

類別分類允許根據各種實施例之更為最佳化之電子資料處理系統，其中該對記錄可經類別特定分析。根據各種實施例，非點位址類別檢查可包括連鎖店檢查，且類別特定判定器可相應地經組配。舉例而言，若連鎖店存在於一個實體記錄中且不存在於另一實體記錄中，則其必然不重複。特定針對連鎖店之檢查可改良系統之總體結果，此係因為連鎖店名稱中之符記將具有低得分(歸因於許多次出現)且重要性將低於其他符記，且此可在簡單地使用核心符記得分用於判定重複時引起錯誤肯定。

根據各種實施例，該電子資料處理系統可進一步包括連結器以連結該對符記化記錄之符記。

根據各種實施例，該連結器可經組配以連結該對符記化記錄之共同符記。根據各種實施例，連結器可經組配以連結該對符記化記錄之類似符記。舉例而言，連結類似符記可在連結共同符記之後執行。

根據各種實施例，連結器可經組配以使得連結共同符記可包括將出現在該對符記化記錄之兩個記錄中的符記標示為連結，如先前所解釋，例如藉由在該對符記化記錄之符記陣列中之每一者中用「*」替換類似符記，藉此提供共同連結記錄對。星號(「*」)僅用作實例，且可根據各種實施例使用另一符號或另一連結方式。

根據各種實施例，連結器可經組配以檢查串接532。替代地或另外，連結器可經組配以檢查複合字組534。檢查串接及複合字組可改良連結步驟，因為在連結時亦考慮串接及/或複合字組。

根據各種實施例，連結器可經組配以自符記化記錄對判定符記中之類似符記之間的編輯距離，該等符記可能先前已藉由共同連結處理。可藉由計算編輯距離536之結果判定類似性得分，例如，類似性得分計算可包括於計算編輯距離536中。用於判定編輯距離之方法之實例為Jaro-Winkler距離(其中計算轉置)或Levenshtein (其中計算替代)或其混合。

根據各種實施例，連結類似符記之條件可為，兩個類似符記在較長符記之長度的一半內，且其類似性得分應超過預定類似性臨限值。根據各種實施例，符記或符記陣列之長度可量測為字元之計數。

根據各種實施例，連結器可經組配以使得連結類似符記530可包括將出現在該對符記化記錄(例如，該對共同連結記錄)之兩個記錄中的符記標示為連結，例如藉由在符記陣列中之每一者中用「*」替換類似符記，藉此提供類似性連結記錄對。星號(「*」)僅用作實例，且可根據各種實施例使用另一符號或另一連結方式。

根據各種實施例，使該對記錄之資料標準化可基於以下各者中之一或兩者：國家特定字典及語言特定字典。

圖11展示根據各種實施例之流程圖之一個實例。以一對記錄80開始，該方法可包括剖析該對記錄90及/或使該對記錄標準化100。該方法可進一步包括將該對記錄分類為點位址或實體。若分類得出點位址，則該方法可繼續進行對於其中檢查該對記錄是否具有不同街道標記或不同門牌號碼的點位址310的非重複類別特定判定，若此等記錄中之任一者不同，則該對記錄被視為非重複，否則，若未能判定該對記錄為特定非重複類別，則該方法繼續進行至400。若分類得出非點位址，則該方法可繼續進行對於其中檢查記錄對是否涉及不同實體的實體的非重複類別特定判定320，若是，則該對記錄被視為非重複，否則，若未能判定該對記錄為特定非重複類別，則該方法繼續進行至400。在符記化器400中，該對記錄中之每一者的字串經符記化，因此提供一對符記化記錄，該等符記在410中針對共同符記經連結且在530中針對類似性在該對符記化記錄之間連結。在538中，檢查核心字組是否連結，若並非所有核心字組連結，則該對記錄並不重複，否則，若所有核心字組連結，則該方法繼續進行至計算交叉資訊得分600。在700中檢查所計算之交叉資訊得分以判定交叉資訊得分是否超過交叉資訊臨限值，若是，則記錄對被視為重複，否則不重複。

圖12展示例示性電腦800，其可用於實施根據各種實施例之系統或方法。舉例而言，系統或方法可實施於電腦800上。電腦800包括匯流排870，裝置可經由匯流排870彼此通訊。在圖12之實例中，展示以下裝置連接至匯流排870：微處理器(CPU) 810；主記憶體820，例如RAM；儲存裝置830，例如硬碟機、固態驅動器及/或快閃驅動器；通訊裝置840，例如用於有線或無線通訊，例如乙太網路；顯示介面850，及其他使用者介面860，例如用於使用者輸入。然而，本揭露內容不限於此，且更多或更少裝置可包括於電腦中，且電腦及/或電腦匯流排可具有除所說明之架構外的其他架構。

所描述為一種用於去除POI資料庫之重複項的方法及系統，其可組合編輯距離方案及符記加權方案，該等方案利用處置拼寫錯誤及縮寫中之編輯距離的強度，且亦利用符記加權方案在識別核心符記(含有最多資訊之符記)時的強度。該方法及系統允許跨越一對記錄連結共同及類似符記、在考慮本地上下文情況下計算符記資訊得分及計算一對記錄之交互資訊。

在連結共同及類似符記時，Levenshtein及Jaro-Winkler編輯距離可用以選擇連結候選者，且此選擇在本文中展示為對拼寫錯誤或縮寫係穩健的。可基於連結之符記對及符記資訊得分計算交互資訊。每一符記對可依據其資訊得分加權，該資訊得分可基於國家上下文及本地(諸如地理散列)上下文來計算。

本揭露內容描述例如可在物流、商品運輸、人員運輸及約車中使用的資料庫技術之改良。本文中揭露之所展示方法及系統中之每一者描述POI資料庫之增強的去除重複，其結果可在使用者正搜尋POI時(例如，在約車期間)使用，從而提供相當好的搜尋結果且降低選擇錯誤POI之風險，藉此改良應用程式之總體效率，例如，改良約車公司之效率。

儘管已參考具體實施例特別地展示及描述本揭露內容，但熟習此項技術者應理解，在不脫離由隨附申請專利範圍界定之本發明的精神及範圍之情況下，可對本揭露內容之形式及細節進行各種改變。因此，本發明之範疇由所附申請專利範圍指示，且因此意欲涵蓋申請專利範圍之等效物的涵義及範圍內出現之所有改變。

10:POI資料庫 20:符記得分字典 90:記錄 100,200,300,305,310,312,314,316,317,320,320',321,322,400,500,510,530,532,534,536,538,539,600,610,620,630,700,710,720:步驟 800:電腦 810:微處理器(CPU) 820:主記憶體 830:儲存裝置 840:通訊裝置 850:顯示介面 860:其他使用者介面

當結合非限制性實例及隨附圖式考慮時，參考詳細描述將更好地理解本發明，在隨附圖式中： - 圖1展示根據各種實施例之例示性方法； - 圖2展示根據各種實施例的具有標準化實例的表； - 圖3展示根據各種實施例之具有剖析實例的表； - 圖4A至圖4C展示根據各種實施例的用於將一對記錄分類300為類別之例示性流程圖； - 圖5A展示根據各種實施例的將該對記錄分類為類別之實例300； - 圖5B展示根據各種實施例之街道標記檢查的實例； - 圖5C展示根據各種實施例之實體檢查之實例； - 圖6說明根據各種實施例之共同連結之實例； - 圖7展示根據各種實施例的用於連結類似符記之流程圖530； - 圖8說明根據各種實施例之類似連結之實例； - 圖9展示具有比較實例之表，其中不實施實體檢查；以及 - 圖10說明根據各種實施例的用於計算交叉資訊得分的例示性流程圖600； - 圖11展示根據各種實施例之流程圖之一個實例；以及 - 圖12展示例示性電腦800，其可用於實施根據各種實施例之系統或方法。

10:POI資料庫

20:符記得分字典

90:記錄

100,300,400,500,510,530,600,700,710:步驟

Claims

一種去除電腦實施資料庫之重複興趣點記錄的自動化電腦實施方法，其包含：使一對記錄之資料標準化(100)；將該對記錄分類(200)成預定義類別中之一類別；實行非重複之一類別特定判定(300)且未能判定該對記錄為一特定非重複類別；將該對記錄之該資料符記化(400)成一對符記化記錄；藉由計算交叉資訊及距離之一得分來判定該對記錄之核心字組被連結(600)；以及判定(700)交叉資訊及距離之該得分是否超過一預定臨限值。
如請求項1之方法，其中該類別為一點位址類別，且非重複之該類別特定判定包含判定該對記錄具有相同街道標記(316)，且非重複之該類別特定判定包含判定該對記錄具有相同門牌號碼(310)。
如請求項1或請求項2之方法，其中該類別為一非點位址類別，且非重複之該類別特定判定包含判定該對記錄涉及同一實體(322)。
如前述請求項中任一項之方法，其進一步包含連結該對符記化記錄之符記，其中連結包含：連結該對符記化記錄之共同符記(510)；以及連結該對符記化記錄之類似符記(530)。
如請求項4之方法，其中連結類似符記(530)包含：檢查串接；及/或檢查複合字組。
如請求項4或請求項5之方法，其中連結類似符記(530)包含計算編輯距離。
如前述請求項中任一項之方法，其中判定核心字組被連結(538)係基於該距離。
如前述請求項中任一項之方法，其中使該對記錄之資料標準化係基於以下中之一或兩者：一國家特定字典，及一語言特定字典。
一種用於去除電腦實施資料庫之重複興趣點的電子資料處理系統，其包含：一標準化器，其用以使一對記錄之資料標準化(100)，其中具有不同拼寫之等效字組經正規化為一單一拼寫；一分類器(200)，其用以將該對記錄分類成預定義類別中之一類別；一類別特定判定器，其用以判定該對記錄是否為一特定非重複類別，一符記化器，其用以在該類別判定器未能判定該對記錄為非重複類別的情況下，將該對記錄之該資料符記化(400)成一對符記化記錄；以及一評分器，其用以計算該對符記化記錄之交叉資訊及距離之一得分，且判定(700)該對記錄中之核心符記是否被連結及該對記錄為重複抑或不重複。
如請求項9之電子資料處理系統，其中該類別為一點位址類別，且判定該對記錄是否為一特定非重複類別包含：判定該對記錄是否具有不同街道標記，及/或判定該對記錄是否具有不同門牌號碼。
如請求項9或請求項10之電子資料處理系統，其中該類別為一非點位址類別，且判定該對記錄是否為一特定非重複類別包含判定該對記錄是否涉及不同實體。
如請求項9至11中任一項之電子資料處理系統，其進一步包含一連結器用以連結該對符記化記錄之符記，該連結器包含：一共同連結器，其用以連結該對符記化記錄之共同符記；以及一類似性連結器，其用以連結該對符記化記錄之類似符記。
如請求項12之電子資料處理系統，其中連結共同符記包含以下各者中之一或兩者：一串接檢查器，其經組配以檢查串接字組；一複合檢查器，其經組配以檢查複合字組。
如請求項12或請求項13之電子資料處理系統，其中連結共同符記包含計算編輯距離。
如請求項9至14中任一項之電子資料處理系統，其中連結類似符記包含核心字組被連結包含基於一編輯距離來判定核心字組被連結。
如請求項9至15中任一項之電子資料處理系統，其中使該對記錄之資料標準化係基於以下中之一或兩者：一國家特定字典，及一語言特定字典。
一種資料處理設備，其經組配以實行如請求項1至8中任一項之方法。
一種儲存電腦可執行程式碼之非暫時性電腦可讀媒體，該電腦可執行程式碼包含用於根據如請求項1至8中任一項之方法去除電腦實施資料庫之重複興趣點的指令。
一種電腦可執行程式碼，其包含用於根據如請求項1至8中任一項之方法去除電腦實施資料庫之重複興趣點的指令。