TWI426399B

TWI426399B - 用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法及裝置

Info

Publication number: TWI426399B
Application number: TW095143201A
Authority: TW
Inventors: Anthony Scriffignano; Kevin Nedd; Julian N N Prower; Nicholas Teoh; Masayuki Okada; Mayako Kasai; Sarah Lu; Jeremy Sy; Sim-Peng Gan; Warwick Matthews; Pei-Hsin Shao
Original assignee: Dun & Bradstreet Corp
Priority date: 2005-11-23
Filing date: 2006-11-22
Publication date: 2014-02-11
Also published as: CN101542475A; DE602006016846D1; HK1121266A1; KR101276602B1; CA2630683C; AU2006318417A1; EP1952285B1; WO2007062156A3; TW200809549A; JP5274259B2; EP1952285A2; US7584188B2; ATE480827T1; WO2007062156A2; KR20090014136A; JP2009524852A; CN101542475B; EP1952285A4; US20070162445A1; CA2630683A1

Description

用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法及裝置

發明領域

本發明係論及資料之搜尋與匹配，以及更明確地說，其係論及一個內含非語音、語義、或表意文字內容之資料的搜尋與匹配。

發明背景

有效率之資料庫存取和搜尋能力，就資料庫內之資料的有效利用而言係很重要。對此目標至關緊要的，是要能有效地檢索一個在運作上為找出一個匹配之工具所搜尋到的正確資料之能力，而不必非要搜尋Reference Universe中所儲存之每個資料元素不可。

彼等搜尋與匹配系統係屬習見，以及可提供有用之方法，使自一個資料庫檢索出有關之資料，以供多種用途利用。舉例而言，在徵信業中，一個在以信用為考量之即定營利事業方面的信用歷史記錄資訊，通常係透過一個在商業上可用之資料庫來加以處理。一個使用者可將一個公司名稱，輸入進一個被連接至上述資料庫之處理器內，後者接著可在上述資料庫內找出該給定之營利事業，以及可檢索出其信用歷史記錄資訊。其他之應用範例係包括：一個使用者希望在其中整合來自眾多不同來源之資訊，藉以供客戶或供應商共同觀看。一種用於搜尋輸入資料及使與儲存資料相匹配之範例性方法與系統，係揭示在美國專利申請案第10/702,114號，公佈為美國專利申請公開第2004/0220918 A1號，其全文係藉由參照而合併進此說明書中。其基本解決方案，係包括三個依序執行之程序，彼等係顯示在第1圖中：1.淨化、剖析、和標準化。此程序包含之步驟有：a)識別詢問資料之關鍵字成分；b)名稱、地址、和城市資料之規格化；以及c)地址資料之標準化。

2.候選對象檢索。此包含之步驟有：a)基於詢問中所提供之資料來選擇關鍵字，b)最佳化關鍵字，藉以提昇檢索品質和速率，和c)自一個參考資料庫，搜集最佳可能匹配之候選對象。

3.評價和判定。此步驟係牽涉依據一些利用一致性、可再現式匹配品質回饋之一致性標準來評價匹配，藉以將另類之主觀判定，轉譯成客觀標準，諸如信用指數(matchgrade)樣式，藉以將個別之屬性判定和一個有關結果之整體層化的置信度碼(confidence code)，反映成眾多其他利益中之類似品質的群組。此等處理可促成自動判定。

Prior Asian(前亞洲)匹配回饋資訊，係受限於一些在其中可將匹配詢問結果分類成A、B、或C之層次。此回饋級別，在不具區分A或B級別匹配內之結果的能力之下，在個別之級別下，係不甚理想，因為每個類別內之匹配的數目，特別是在B類別中者，或許將會相當大，以及在沒有說母語者之人工干預下，彼等將斷不能被區分。

解析A、B、和C匹配是有可能，但昂貴之處在於，其係一種高度人工密集之程序，而需要有人為之互動來查證匹配。

該等匹配之類別係說明如下。“A”匹配係指明一個高可能性之匹配，但可能包含有重複匹配或錯誤匹配。“B”匹配係指明一個可能之匹配，但係屬需要人工研究來解析者。“C”匹配係指明一個可能之錯配，其亦可能源於詢問資料中之不足。

上文所述之環境中的自動判定有關之議題，係粗粒之缺乏。在該等匹配之品質方面缺乏有進一步的回饋下，一個使用者係無法選擇最佳之匹配，而使在眾多之“B”匹配中做出一個抉擇。甚至是在該等A匹配之中，在缺乏人工檢閱每個匹配之下，是無能為力來改善置信度的。

上述先存技藝式匹配系統之簡圖，係顯示在第2圖中。

在本系統中，為進一步區分一些具有不同匹配級別之詢問結果，高級別之匹配回饋，係使有更大之粗粒，以及係使映射至一個對應之置信度碼。目標置信度碼(“CC”)，較佳地係使在上述範圍之保守端處被選定。後繼之調整可強化此種映射的分佈。此種映射之範例，係顯示在第3圖中。

在一個7或以上之置信度碼下，有許多在市場交易中之客戶，會將一個系統設定為自動判定，其係歸功於一種不需人工干預便可接收該等匹配之能力。並非所有之置信度碼7的匹配，將會屬完全匹配，故最好的是仔細考慮上述自動判定之臨界值。反之，若使用低於7之置信度碼，將會有許多良好之匹配被忽略。所以，7便為其品質臨界值之保守端，特別是就一些類似日語等複雜語言中之匹配而言。

一個在5與7之間的置信度，係指明其中仍有可得之"良好"匹配，特別是在輸入資料稀少之情況中。此置信度碼範圍內之結果，係經常需要仔細檢驗來做確認，在日語字符之範例中，此係肇因於所用母語和多重書寫系統之固有複雜性。某些錯誤之匹配，亦可能因重複性而存在。

一個4之置信度碼，通常係許多程序甚至將要考慮顯示之最低置信度碼。此等匹配“未必”是正確之匹配，以及通常不應該被使用，除非該詢問資料係十分稀少，或者有其他緩和之情況可被引用。

然而，誠如以上範例所顯示，縱使一個資料組，諸如一個營利事業之身份證明和聯絡資訊，可密切匹配至足以被視為“7或以上”之置信度碼匹配，其並非表示該匹配之資料係屬完全正確。同理，“5至6”置信度碼匹配，並非全係具有相同之匹配級別。準確度係一個最能說明獨一之商業運用的術語。

信用指數樣式，係展示不同級別之個別屬性匹配。該等信用指數結果中之“A”符號，係指明該項在該客戶資訊與上述匹配之紀錄間的資料屬性中之高置信度匹配。“B”係指明類似性，但非相對於“A”所指明之類似性的級別。“F”符號係指明該客戶資料和上述匹配之紀錄兩者，就一個即定之屬性而言，係具有不同之資料。“Z”係指明該客戶資訊和/或該資料庫紀錄，並未包含有任何有關一個即定欄位之資訊。彼等評價不僅是基於字符對字符之比較，而且是基於語義、語音、詞位變化、和其他因素。此外，此等指定在完成上，並非整體在詢問級別下，而係針對個別之屬性級別，以便增加粗粒以及促成自動判定。

一個置信碼接著可被指定給每個不同之信用指數字串，藉以容許彼等結果之層化。上文所說明之每個成分程序，係進一步被切割成一些如第4圖中所顯示之功能區域。

使用強化之回饋，一個使用者可致能商業法則，諸如一個細分“5－6”置信度碼匹配者，而舉例而言，接收該等具有完整之名稱和城市者，以及安排查找彼等具有正確之縣府(市或省)但缺乏城市者，以及忽視彼等具有該名稱上面之低品質匹配者。結果，該回饋係可促成自動化判定。

資料庫中之匹配，引起了額外之挑戰，其中，該程序不僅是取決於彼等內含音標字母之書寫系統，諸如英語、法語、和希臘語，所提供的差異。在一些類似漢語和日語等語言中，書寫系統係具現語義，以及係由表意字符所構成，彼等對搜尋及匹配，呈現了一種獨特之挑戰。此外，一些使用此等書寫系統之國家，經常會任意結合其他書寫系統，後者係屬語音系，而可容許出現外國語詞或新語詞。表意文字系統中之評價有關的挑戰，係該書寫文字之語義性質。一些基於拼字法來評分之傳統方法，將不足以獨自在一種充份能區分“類似”與“相同”之級別下辨明意義，其係屬本發明之信用指數程序的中心。

因此，在此係存在有改善現有之搜尋和匹配系統與方法的需要，特別是藉由提供一種評價非語音書寫系統中之匹配結果的品質之額外標準。在此亦需要有一種系統與方法，使在眾機器匹配間做區分，而不需要在資料中有昂貴之人工干預，此係整體或部份地出現在一個表意文字文本中；因而容有一致性和可量測性。在此亦需要有一種可用來應付非語音、表意字符書寫系統之挑戰的完全自動化之搜尋和匹配的系統與方法。

發明概要

本發明提供了一種可用以搜尋和匹配之系統與方法，其可提供資料匹配有關之品質回饋，亦即，強化之亞洲語言(例如，雙位元組)匹配回饋。

本發明亦提供了一種用以搜尋輸入資料及使與儲存之資料相匹配的電腦化方法。此種方法包含之步驟有：接收一個由具有多個元素之搜尋字串所組成的輸入資料；將該等多元素之一個子集，轉換成一組語詞；由該組語詞產生多個最佳化之關鍵字；基於該等對應於最有可能與輸入資料相匹配之候選對象的最佳化之關鍵字，來檢索儲存之資料；以及自多個匹配候選對象，選出一個最佳之匹配。

該等元素至少有某些構成了部份之表意文字書寫系統。上述將該等元素之一個子集轉換成一組語詞，係使用至少一個選自多語標語義排歧、Hanzee(簡體漢字)縮略語擴充、Kanji(日語漢字)縮略語擴充、和商業詞彙辨識所組成之群組的方法。

在此亦提供有一種強化之亞洲語言匹配回饋系統，其係包括一些在詢問紀錄與儲存之參考紀錄間的匹配品質之量度。此系統係反映一些使用為亞洲書寫系統之獨特特徵而訂製之方法的非表意字符書寫系統有關的先存技藝。一個對應於一個資料庫紀錄內之資料子集的眾多匹配值之信用指數樣式或字串，係使映射至一個現有之結構，亦即，該詢問資料紀錄內所包含之資料，以及係反映一個名稱之個別品質，其係包含有地址成分、電話號碼、和其他資訊。一個置信度碼，舉例而言，由1與10之間的整數指定的，在設置上係使對應於該信用指數樣式，以及係藉由使信用指數樣式層化成一些可促成商業法則之應用的範圍，來反映保守之匹配品質。此種方法亦包含之步驟有：使詢問紀錄與非語音或表意字符語言中所儲存之參考紀錄相匹配。

圖式簡單說明

第1圖係一個先存技藝式記錄匹配方法之方塊圖；第2圖係一個先存技藝式記錄匹配系統之方塊圖；第3圖係一個可顯示置信度碼對匹配結果之映射的列表；第4圖係一個可顯示上述先存技藝式資料匹配方法之成分程序的方塊圖；第5圖係一個可顯示日本營利事業之參考紀錄內的一個信用指數樣式之映射的列表；第6圖係本發明之強化型匹配系統的方塊圖；第7圖係一個可表示一個信用指數樣式矩陣的列表；第8圖係一個可顯示一種用以檢索候選對象列表之方法的方塊圖；第9圖係一個導自英語公司名稱之疊碼(shingling)的範例之例示圖；第10圖係一個依據本發明之方法導得的簡體漢字疊碼(“shingles”)之範例的例示圖；第11圖係一個依據本發明之方法導得的“黏著性簡體漢字”之範例的例示圖；第12圖係一個依據本發明之方法導得的“啞性簡體漢字”之範例的例示圖；第13圖係一個依據本發明之方法用以移除或縮寫結構性指示符的範例之例示圖；第14圖係部份之商業名稱所包含的額外結構性指示符之範例的例示圖；第15圖係一個“簡體漢字縮略語”之範例的例示圖；第16圖係一個簡體和繁體之範例；第17圖係顯示一些可表示一個依據本發明之演算法有關的預測評分之計算的列表；第18圖係一個依據本發明之方法指定一個信用指數字串給一個紀錄的方法之方塊圖；第19圖係一個信用指數樣式的例示圖；第20圖係一個可顯示一些依據本發明之方法指定給參考名稱的信用指數碼之列表；第21圖係一個可顯示一些依據本發明之方法指定給參考記錄匹配候選對象的置信度碼之列表；第22圖係一個可顯示依據本發明之方法如何呈現匹配的結果之信用指數回饋報告的範例；第23圖係一個可顯示依據本發明之方法的全文索引和名稱日語漢字疊碼之範例的流程圖；第24圖係一個依據本發明之方法有關唯一性的信用指數演算法之範例；第25圖係例示依據本發明之方法的相對對絕對之唯一性；第26圖係例示一個依據本發明之方法有關多語標語義排歧的範例性演算法；而第27圖則係例示一個依據本發明之方法的工業評分之代表。

較佳實施例之詳細說明

本發明之系統與方法係包括：1)淨化、剖析、和標準化，2)候選對象檢索，和3)評價和判定。評價和判定，係涉及依據一致性標準來評價匹配，以及係包括：建立一個信用指數樣式，藉以建立粗粒回饋；指定一個可促成自動判定之置信度碼；以及係包含有一個有關額外資訊之匹配資料量變曲線。所有程序係被強化，使在運作上具有表意字符書寫系統所呈現之挑戰。

上述強化之亞洲語言匹配回饋系統和方法，係包含有三種匹配品質度量：1)信用指數評分，亦即，信用指數，係使映射至一個現有之資料結構，以及係反映一個名稱、特定之地址成分、電話號碼、和其他資訊之個別品質；2)置信度碼，舉例而言，由一些類似3、5、和7等數字所指定的，藉以促成結果之層化；以及3)一個匹配資料量變曲線在設置上，亦使其包含上述被用來達成結果之特定元資料上面的額外資訊，以及可進一步區分匹配結果，特別是"5－6"置信度碼匹配結果。

此外，可得(或可導得)之資訊，係可使映射進酷似世界其他部分內之當前回饋的更為堅固耐用之通訊有關的解決方案內。此種映射在一個日本匹配解決方案的範例，係顯示在第5圖中。

本發明之強化型匹配系統所執行的方法係說明如下。本發明之系統的實施例之簡圖，係顯示在第6圖中。此種新系統可取代當前之資料匹配系統，或者可作用來強化當前之字符結構式系統。此種系統係屬模組型，其係足以加至當前之工作流程序，而作為一組額外之成分和工作流階段。

淨化、剖析和標準化(CPS)

一個強化之匹配方法，係利用上述強化之匹配系統，其開始之第一步驟，是上述輸入之詢問資料的淨化、剖析和標準化(CPS)。

在一個實施例中，上述輸入之搜尋資料的淨化、剖析和標準化(CPS)，係使用外部軟體。該程序之輸出，係進一步被強化來評定推導出之資訊，使縮略語擴充，以及考慮其他已知用法之挑戰。此種擴充係使用某些適合亞洲書寫法則之方法，諸如第13、14、15、和16圖中所說明者。

該系統係包含有一個搜尋資料之使用者或一個管理此系統之使用者所登入的資料有關之各種欄位。第一組欄位，係包含有許多“工作設定值”，彼等在建立上可便一個使用者，鍵入各種資料，藉以控制上述搜尋工作之處理。此等多種類型之資料，可使呈現為一個“工作意願”使用者界面(UI)中之不同欄位。該工作意願界面，可能包含有下列諸欄位：(a)處理批號：此將可假定為自動產生，以及只是由使用者來確認。該工作編號可唯一地識別出上述之工作，以及亦可能包含有一個屬該編號之一部分的客戶ID(見下文)。該系統亦可建立工作批號，以及此可被用作一種替代選擇。

(b)客戶ID：此最好係一個可識別客戶之數字。此種客戶ID可經由一個查表來檢索，以及該系統係包含有一種設備，使在不存在客戶ID時，建立一個新的客戶ID。此最好不是全部的客戶關係管理(CRM)，而只是“標記”通過此系統之資料所需要者。

(c)自動判定臨界值：此值係基於上述工作有關之一個預定的臨界置信度碼。該置信度碼臨界值，舉例而言，1－10，可使該系統自動匹配一個DUNS標識符，亦即，一個唯一之商業標識符(假定該等處理和打破僵局(tie－breaking)邏輯不會產生重複)。此種能力最好是在工作意願視窗中。

(d)詢問/參考SQL(結構化查詢語言)列表：在此等列表中，一個使用者可明訂內含該等詢問資料和/或參考資料之伺服器、資料庫、和列表。在一個實施例中，上述之外部軟體，可建立其處理之每個工作有關的列表，此將會是該(等)詢問資料列表。

(e)報告工作：該工作設定值界面，亦可包含有事先明訂該等希望之報告和要寫入彼等之位置的能力。

該系統亦可能包含有一個可存取內含一個信用指數樣式矩陣之資料的管理界面，其一個範例係顯示在第7圖中，信用指數樣式和彼等相對置信度碼之映射，可藉由其儲存進一個系統資料庫中。該系統可經由一個基本圖形使用者介面(GUI)來搜尋及編輯。該管理界面亦可能包括存取被儲存之打破僵局法則，彼等將在下文有更明確之說明，以及彼等係可促成自一個以類似方式成層之潛在結果的群組，選出一個最終之最佳匹配。該等打破僵局規則，最好係加以模組化，而使彼等不僅僅是被“硬編碼”進該等系統程式製品內，因而容許進行中之調制。在一個實施例中，每個客戶打破僵局法則組，係儲存在彼等之個別檔案上面，而使上述使用者之打破僵局法則，依內定值而自動出現。在另一個實施例中，該UI可就該工作、或該等法則之位置，亦即，列表，來選擇打破僵局法則。較佳的是，該等法則係使儲存為腳本(script)，或另一種可編輯式格式，而使彼等法則可被強化、移除、或添加，而不需要該系統之新版本。

一個使用者可輸入各種用以識別一個要被搜尋之被希望的實體之資料。上述表示使用者之詢問的資料，係被稱作詢問資料，其係儲存在一個被稱作詢問記錄之紀錄內。此等程序詢問資料，係包含有一個使用者所輸入之資料，其係表示該實體有關之資訊，為其，該使用者會試圖自上述之參考資料庫，找出一個最佳之匹配。此種資料係包含有商業名稱資料、地址資料、和電話號碼資料，彼等全係在上文所說明之淨化、剖析、和標準化(CPS)常式中被處理。輸入可為一些包括亞洲和羅馬字體之混合字符集。地址資料會被該等CPS常式處理，而產生被導出之地址代碼，以及接著進一步加以分割以供評價。電話號碼資料會被該等CPS常式標準化，藉以基於當地之國家約定，使分割成一些子欄位。

額外之資料亦可隨使用者輸入資料一起加以儲存，其中係包含有：一個隨進入之資料一起儲存的批號，藉以使存在於該系統中之工作始終被唯一識別；和一個紀錄編號，其可唯一地識別該工作內之每個詢問資料記錄。該紀錄編號可僅為一個序號。

該使用者輸入之詢問資料的處理，可產生許多資料元素和編碼。該系統可利用一些演算法，來評價所有在範圍內之資料元素，其方式可產生一些類似下文所指定之檢索關鍵字和評價屬性。大部份此等演算法在構成方式上，可促成其中包括語音和表意字符兩者書寫體之多樣字體的同時處理。該等資料元素、關鍵字、和屬性，係使儲存在每個詢問紀錄有關之資料庫內。該等資料元素可使提供在語音內，或者在非語音或表意字符語言內，或者彼等之組合內。該等紀錄係包括：a)淨化之商業名稱(在CPS之後)。此為一個演算法所應用至之標準化名稱。在一個範例中，一個演算法係包含有回傳碼剖析，其中，該回傳碼之第一位元組，係供商業名稱評價使用。額外之轉換係包括縮略語之擴充，和已知別名之處理，加上被觀察之亞洲書寫約定的處理，諸如第13、14、15、和16圖中所說明者。

b)有額外之資訊可被推斷出及增補，諸如日本之縣府名稱。

c)有地址代碼輸入進該系統內，或者可被計算或檢索自一個外部模組。該系統可使用演算法來推導或剖析代碼，藉以檢索一個內含街道號碼、街道名、城市、省(縣府)、和/或郵遞區號之資料。舉例而言，在日本，一個戶籍地代碼，係包含有多至實際街道號碼之數值資訊，以及可藉由挑選彼等在跨越多樣書寫系統之日本字體中的各種表現形式中之關鍵字，諸如bldg、大樓、樓層、FL、房間、RM、套房、等等，來識別及移除大樓樓層和房間號碼。

其他代碼，諸如經度/緯度，亦可被該系統執行。此種代碼之剖析，可能會導致衍生出額外之屬性。

d)有電話區碼提供，其係直接輸入進該系統內，以及係經由CPS處理而使更具意義。有一個客戶演算法被建立，藉以執行CPS及剖析上述輸入之電話號碼。此電話號碼在可能之情況中，係被剖析成一個子成分。其接著係使儲存在該詢問紀錄上面。

候選對象檢索

在淨化、剖析、以及標準化詢問資料之後，該系統勢必要檢索一個有關評價之候選對象列表。此目標係為構造一個候選對象列表，其係很有可能包含有來自上述參考資料庫之最佳可用的匹配，同時極小化要被考慮之候選對象集區和檢索該候選對象集區之計算複雜性。候選對象勢必為來自上述參考資料之“最佳”候選對象，亦即，一些與該詢問紀錄最具類似性之參考紀錄，其考慮到的不僅是字符類似性，而且是音調、表意字符內容、和其他亞洲書寫系統專有之特徵。換言之，該程序應考慮所有可用及推斷出之資訊，而傳回一個最有可能之候選對象的列表。

候選對象檢索，通常係取決於一些可區別該資料庫內與上述詢問紀錄相類似之紀錄的方法。該等被使用之演算法，可在預測性與性能之間做公平處理，亦即，前者係該演算法究有多大可能檢索出一組內含上述預期之匹配的紀錄，後者係有關：究有多少紀錄被檢索、上述推導檢索關鍵字之計算複雜性、和因而該候選對象列表究能多快被處理。

為容許納入進行中之綑緻化，其中係提供有一種候選對象檢索之非確定性方法，其可容許使用多重演算法，以及基於計算之複雜性、演算法之預測性、和檢索之候選對象的被預期之集合的唯一性、和被觀察或被推斷出之亞洲資料集獨有的候選對象分佈之特徵，而就每個詢問選出該等演算法之最佳子集。此種方法之典型步驟，和一個範例，係顯示在第8圖中。此種方法係包括自該詢問資料中之可用資訊，產生有效之關鍵字，諸如關鍵字組，簡體漢字或日語漢字縮略語(Hacronyms、Kacronyms)和電話號碼。所有之有效關鍵字的交集，亦即，該詢問記錄內與一個參考紀錄內之匹配關鍵字的頻率計數，係檢索自先前計算出之參考組。選擇性地，該等可產生出多於一個預設頻率極限之候選對象的關鍵字，會受到節制或抑制。其他技術亦可被應用來框窗取樣上述建議之檢索佇列。基於一個或多個因素，諸如檢索時間、交集時間、預測性、和計算上之前置處理，就有效之關鍵字交集而言，會有一個成本函數產生出。該等關鍵字交集，係基於計算之複雜性、預測性、潛在被檢索之候選對象的數目之乘積，依增加成本之順序，而加以重新安排；候選對象列表，係依關鍵字交集乘積之順序，相應地自該資料庫檢索出。此方法可容許隨著詢問之處理，而即時最佳化該解決方案。

在語音語言中，該等用來考慮綴字變體之演算法，為一種知名為“疊碼”之方法，藉此，一些大小和差距值已知之綴字節段，係藉由該詢問字串之置換來加以選擇，以及係使與一些可指明該等相同之節段在上述資料庫內之已知紀錄中究有多大獨特性的指標相比較。適當之關鍵字，係該等表示不常被觀察到之節段的節段。“Shell Oil Company”之名稱的疊碼之範例，係顯示在第9圖中。在疊碼(就語音語言而言)之具現體中，疊碼被採用之時，是當其中可有識別出之“唯一性”疊碼(亦即，較不常發生之疊碼)時，其由計算流量之觀點而言，將有可能既可預測且有效率。

在非語音語言中使用疊碼方面之挑戰是，符號變體係甚具意義。此等語言是不太可能有“拼錯”發生，不過，其中的確有些情況是，有字符被省略及/或重新排列，同時仍保留有意義。由於亞洲語言輸入方法編輯器之錯綜複雜所致，其將亦有可能輸入類似之發音符號，一項進一步之挑戰來自的事實是，有某些符號在與其他符號相連結時，將會呈現新的意義，其係僅由該等字符之組合來表示－此等結合之複合群組，勢必要加以細心對待，以便在以演算法處理之期間，不會使彼等分離，否則內含之意義將會失去或改變。

本發明提供了一種匹配詢問資料之節段的方法，其係以一種適用於亞洲語言之方式，來管理符號之操控。此種方法係使某一定之符號群集在一起，而成為一些“黏著性”(sticky)疊碼，其在非語音語言中，係具有一個在被群集時之更高層的意義。額外之推論係取自所觀察到的黏著性疊碼之間和之中(在簡體漢字中稱為“簡體漢字疊碼”，以及在日語漢字稱為“日語漢字疊碼”)所產生的變遷。第10－12圖係顯示此種方法應用至中國語言的一個實施例，不過，此種方法係有用於任何一個非語音語言或通訊系統中。外插法亦可被應用來考慮同一資料屬性中之混合式書寫系統(例如，日本語中之結合式日語漢字和片假名)。

第9圖係“疊碼”的一個範例。為針對中國書寫系統之簡體漢字中的疊碼，此種方法係利用“簡體漢字疊碼”，其係是Hanzee－shingling之縮寫。第10圖係簡體漢字疊碼或簡體漢字疊碼(此等簡體漢字疊碼係2個字符長，以及因而可被稱為“Huples”(Hanzee Duples(二聯體))的一個範例。簡體漢字疊碼，保留了上述可使搜尋字串之子節段相交疊的觀念，同時考慮某一定簡體漢字疊碼或hingles係呈“黏著性”，因為彼等係加以群集化，藉以傳達某些更高層之意義。此等“黏著性簡體漢字疊碼”，係一個可被利用來明顯提昇候選對象檢索之表意字符書寫體的特點。簡體漢字字符既非字母亦非字組，而係一些語義元素。就此而論，字符之意義於“黏著”在一起時，係如第11圖中所顯示，會有劇烈之改變。所以，上述表示“Shanghai”(上海)之字符組，如第11圖中所示，將會被標記為特殊，以及將會在某一定之操控期間使保持在一起。觀察逐簡體漢字疊碼(或逐huple)之變遷，該候選對象檢索方法，可推論出上述輸入字串之高度預測性子成分。

許多“黏著性簡體漢字疊碼”，亦為“擾亂性簡體漢字疊碼”，其係意謂彼等發生的如此頻繁，彼等就候選對象檢索而言係屬不可用。就技術上而論，彼等係“無關緊要”。反之，“有關係”之簡體漢字疊碼係屬不常發生者，以及因而就候選對象檢索而言，係呈高度預測性。

除簡體漢字疊碼和黏著性簡體漢字疊碼而外，本發明係可區分“擾亂性簡體漢字疊碼”或一些經常會一起發生以致就候選對象檢索而言屬不可使用之簡體漢字疊碼，以及因而係屬“無關緊要”。該方法亦可識別及利用“啞性簡體漢字疊碼”，彼等係一些被觀察屬毗連參考資訊之表意字符的群組，但彼等在被檢視時，係不具隱含意義。此等“啞性簡體漢字疊碼”之發生，係不具語義意義，但被發現在候選對象檢索方法中，係屬有力的預報因子。一個啞性簡體漢字疊碼之範例，係提供在第12圖中。

因此，該方法包含之步驟有：分析該資料庫，以及側列(sideline)所有之“擾亂性簡體漢字疊碼”，使進入一個特定之檔案內。此等擾亂性簡體漢字疊碼，係不被用來建立參考列表，以及在詢問輸入方面係可被忽略。此種方法係極具預測性。

所有以上之術語和方法，可使擴充至日本書寫體有關之日語漢字。該等產生出之“日語漢字疊碼”、“黏著性日語漢字疊碼”、“啞性日語漢字疊碼”、和有關/無關之配對(parings)，係具有類似之功能性；然而，由於日語詢問資料，亦包含有散置之片假名、Romanji(羅馬拼音)、與平假名字符，表意文字演算法，勢必要使富集先存之語音方法，藉以產生可預測之結果。

該方法包含之步驟亦有：分析發生在非語音語言中之名稱的額外特徵。在一個顯示在第13圖內的實施例中，該系統可縮寫或忽略常會發生之指示符，諸如結構性指示符。誠如第13圖中所示，該系統可識別“D&B Taiwan”之簡體漢字名稱有關的結構性指示符，後者係論及D&B公司之台灣分公司。在此範例中，該系統可移除或側列上述表示“American business”(美商)之簡體漢字疊碼，以及可縮寫及/或側列上述表示“TaiwaneSe corporate structure”(台灣公司結構)之簡體漢字疊碼。因此，彼等表示D&B之字符的不常見之組合，主要地可被用於匹配之目的(連同任何預測之啞性簡體漢字疊碼)。誠如第14圖中所示，一個名稱內之其他結構性指示符，可被用於搜尋或側列，諸如一個公司名稱內之分部或分公司的標誌。在另一個實施例中，舉證說明在第15圖中，“Hacronynms”，亦即，簡體漢字縮略語，係與一個公司名稱相隔離，藉以反映一些常被用來說明一家公司之縮略語，而可容許該系統搜尋及檢索一些具有即定之簡體漢字縮略語的候選對象。該系統亦可反映一個非語音語言之簡體和繁體中的差異，正如第16圖中所示之範例。最後，該解決方案之類似但以語音方式強化的版本，係為日本漢字縮略語而存在，稱為“Kacronyms”(日語漢字縮略語)，其亦可如上文所注意到的，被觀察係具有內嵌之語音書寫體。

該系統亦可藉由彼等之信用指數和置信度碼來分級候選對象。較佳地，該系統首先係依彼等之信用指數來分級候選對象。以及接著係進一步基於商業打破僵局法則，來分辨最高之等級階層。該等信用指數和置信度之指定，和打破僵局法則之應用，係進一步詳細說明在下文中。

在此亦提供有一種程序，其係用來評價上述候選對象檢索演算法之預測性，其係包括上述整體程序有關之簡體漢字疊碼和其他演算法。就一個與非判定性候選對象檢索有關之匹配環境，該系統可挑選每個詢問紀錄有關之最有用的演算法。一個演算法(A)之計算複雜性CC(A)，係該等計算迭代：彼等元素輸入或步驟數目或算術運算，係需要解決一項計算上之問題。預測性P(A)係等於預期結果之數目除以被觀察之結果的數目。若採用上述之方法，上述預期之產率Y(A)，係等於傳回之紀錄的數目。該程序首先係包括基於下列之公式：AC(A_n )＝CC(A_n )×P(A_n )，來計算每個演算法之演算常數(AC(A))。此演算常數接著係乘以上述預期之產率，藉以產生最終之評分X(A)：AC(A_n )×Y(A_n )＝X(A_n )。此等計算之範例，係顯示在第17圖中。該等可產生最低之最終評分的演算法，係較佳地被使用在該匹配系統內。

評價和判定

在選出及採用適當之候選對象檢索方法以後，該等候選對象接著係以信用指數(“MG”)字串之計算來評分。就一個信用指數字串之每個元素而言，輸入和候選對象資料之對應屬性，係指定一個A、B、F、或Z之編碼。此程序係顯示在第18圖中。上述指定MG編碼給每個編碼成分之結果，係一個如第19圖中所顯示之信用指數字串或信用指數樣式。在一個實施例中，在一個信用指數樣式中，會有多達11個項目(位元組)。

彼等信用指數碼，係包含有一個“A”匹配，其係指明該詢問主題資料元素，可被對待為與該參考資料“相同”，以及一個“B”匹配係指明，該詢問主題資料元素，係與該參考資料“相類似”，但是不相同。此等編碼亦包含有一個“F”匹配，其係指明該詢問主題資料元素，係不同於該參考資料，以及一個“Z”匹配，係指明該詢問主題資料元素，在該詢問紀錄或該參考資料記錄內不存在。

各種信用指數碼之範例，係例示在第20圖之列表中，其係顯示就“Mitsubishi Trading Corp vs.Mitsubishi Trading”之範例而言，對照於詢問資料有關參考結果之信用指數碼。為建立亞洲語言有關之A/B/F的推論，評分方法不僅是考慮逐字符之比較，而且亦考慮音調(就漢語)，拼音或假名譯音、詞位變化、筆劃複雜性、和其他專屬表意字符書寫系統之參數。

某些專屬性演算法，已被開發來考慮亞洲書寫系統和當地約定之細微差別。舉例而言，唯一性(11個信用指數元素中的一個)勢必要考慮亞洲所見之極大城市與日本縣府和中國省之結構間的相互關係(第24和25圖)。相對對絕對之唯一性，業已被提出來適應亞洲商業人口統計狀況中被觀察到之特徵。

亞洲語言需要特別處理之另一項信用指數元素是工業分類，其勢必要透過一個被稱為多語標語義排歧(第26－27圖)之新程序來推斷。此程序係採用詢問字串遞歸縮減之方法，而被納入考慮的事實是，亞洲詢問(特別是在日本)經常係包括表意字符和語音書寫系統之一種組合。此種遞歸縮減法在完成方式上，可就該信用指數字串內之子分類，標記出最有可能之工業相關性關鍵字。

在導出該信用指數字串之後，一個置信度碼(“CC”)，如第21圖中所顯示，接著係基於上述導出之信用指數字串，被指定給該參考或檢索資料紀錄。在一個實施例中，該置信度碼係一個數字，最好是一個在1與10之間的整數。此項指定係意使將資料層化為一些群組，藉以促成商業法則之應用。較佳地，該CC係檢索自一個如第7圖中所顯示之樣式矩陣。該MG樣式矩陣，最好係使儲存進一個SQL列表內，而使每個元素在一個單獨之欄位內。

在該系統之性能的評價和判定之步驟中，若所有就一個即定之詢問實體檢索出之匹配候選對象，有超過一個具有最高之置信度碼的候選對象被檢索出，打破僵局法則便勢必要加以使用。置信度碼連同打破僵局法則，可在自動判定中，使依據工作設定值和商業法則而自動判定，若有一個最佳之候選對象可被識別出，以及若該候選對象具有至少一個臨界置信度碼，以便保證一個商業應用，便會有一個匹配自動地被接收。該臨界置信度碼，可由一個使用者預先選定。若使用彼等打破僵局法則，該系統將會記錄，何者法則被用來打破任一詢問紀錄有關之最終僵局，以及該最終之比較結果，為何種資料值。

一組打破僵局法則之範例係說明如下。該等法則係依序被處理，直至有一個候選對象凌駕所有其他者為止。級別係表示為整數，以及一個較高之級別，係對應於一個較低之整數值。唯有最高級別之候選對象(若其中有多於一個)，可前進至次一法則。

法則1－“A”匹配：商業名稱、街道號碼、街道名、城市、省/縣府、和郵遞區號MG樣式，係全為“A”，以及公司類型係相同。0－是，1－否。

法則2－商業名稱方面之信用指數：依據商業名稱方面之信用指數碼，來分級候選對象。0－A、1－B、2－F。

法則3－公司類型：依據相照於詢問資料之公司類型(依據編碼)，來分級候選對象。0－相同，1－不同。

法則4－省/縣府方面之信用指數：依據狀態方面之MG編碼，來分級候選對象。0－A、1－F、3－Z。

法則5－城市方面之信用指數：依據城市方面之信用指數碼，來分級候選對象。0－A、1－F、2－Z。

法則6－街道名方面之信用指數：依據街道名方面之信用指數碼，來分級候選對象。0－A、1－B、2－F。

法則7－街道號碼方面之信用指數：依據街道號碼方面之信用指數碼，來分級候選對象。0－A、1－B、2－Z、3－F。

法則8－OOB(破產)指示符：依據狀態是否發生交換(OOb)，來分級候選對象。0＝活動，1＝不活動(OOb)。

法則9－HQ/BR(總部/分部)狀態。依據實體類型，來分級候選對象。0＝HQ、1＝單一位置、2＝分部、3＝子公司。

法則10－電話號碼方面之“A”信用指數。依據電話號碼方面之“A”信用指數編，來分級候選對象。0－A、1－所有其他。

法則11－公司名稱中之“公司類型”位置。依據相照於詢問資料之“公司類型”位置指示符(依據編碼)，來分級候選對象。0－相同，1－不同。

法則12－電話號碼方面之信用指數。依據電話號碼方面之信用指數編，來分級候選對象。0－A、1－B、2－Z、3－F。

法則13－郵遞區號方面之信用指數。依據郵遞區號方面之信用指數，來分級候選對象。0－A、1－B、2－Z、3－F。

法則14－TSR(貿易模式記錄)碼。依據TSR碼之存在/不存在，來分級候選對象。0－TSR碼存在，10－TSR碼不存在。

法則15－存在資料旗標。依據“COM”旗標之值，來分級候選對象。0－旗標不存在(更新之資料)，1－旗標存在(舊資料)。

法則16－記錄更新日期。依據一個系統資料庫內之主要更新日期，來分級候選對象，最新的至最舊的。

法則17－DUNS編號。此為最終之打破僵局器。以DUNS編號來分級候選對象，亦即，依遞減之順序的唯一性公司標識符。

信用指數結果，接著會呈現給該使用者。所呈現之資訊，可能包含有一個或多個下列諸項：所用之信用指數樣式(每元素一個欄位)、置信度碼、匹配資料量變曲線、處理日期、處理批號、客戶ID、匹配之參考紀錄的DUNS編號、詢問紀錄編號、和所用之最後打破僵局法則。該等結果可基於不同之置信度碼和其他觀察到或推斷出之屬性，來加以分類。

有額外之能力可提供給使用者，以便瀏覽及檢閱可能不匹配之資料。該使用者亦可能有能力瀏覽任何資料，其中包括自動匹配之資料。其他能力可能包括：過濾輸出(藉由置信度碼、信用指數樣式、所使用之打破僵局法則)、手動匹配、和重新匹配。該系統亦可能包括重新處理選定之紀錄的手動起始能力之性能，該系統可藉由其來響應一個使用者之請求，而重新執行該等選定之紀錄有關的整個程序。

較佳地，該等結果係作為一項報告，而呈現給該使用者。較佳地，該等結果係使成為一個來自如第22圖中所顯示之結果資料的非可編輯式報告之形式。在另一個實施例中，其係可能不需要重新編譯該系統，而加入、修改、及/或刪除報告。報告可以XML/XSL(可擴展標示語言/可擴展樣規語音)來編碼，以及最初可使產生為HTML，接著係使轉換成一種不可編輯之格式。該等可應用之報告，可就一個工作事先加以選擇，其接著會變為該工作有關之內定集合。報告可以英語或母語基層本文來產生。

該系統可將當前之信用指數樣式和彼等之對應置信度碼的矩陣，儲存進一個“信用指數主列表”。其中如第7圖中所示，每個獨一之信用指數樣式係僅有一列。此種列表可能包含有：成字串之信用指數樣式、附加至該樣式之置信度密碼、上述成一個單獨之行而最好為11個信用指數樣式的每個位元組、每個登錄項之上次改變有關的版本、和/或該登錄項改變時自動產生出之更新日期－時間。保留編輯歷史記錄，可容許現行之品質保證和連續之程序改進。

無論何時，上述信用指數主列表內，有一個登錄項因任何理由而被改變，舉例而言，該置信度碼被改變或使有效；該系統較佳地係將先前之登錄項，儲存進一個“信用指數歷史記錄列表”內。此種列表係具有一個與該信用指數主列表相同之結構，除外的是每個信用指數樣式有多重之登錄項。

對該信用指數主列表之每次改變，需要使最新版本數字遞增。此或為一個“小項”改變(例如，0.2>>0.3)或一個“大項”改變(0.3>>0.4)。上述信用指數主列表內受到該項改變之影響的每個登錄項，將會戳記其最新版本。然而，其係有可能使一個版本遞增且鍵入一個評注，而不需對該信用指數資料做任何改變。

此等改變有關之資訊，可使儲存在一個“信用指數版本列表”中，其可能包含有：版本數字，其係上述新版本之數字；做成改變之人員的使用者ID；評注；和/或日期。該評注係所做改變和緣由之說明。此欄位勢必要在任何改變處理之前被填入。更新日期係上述進入改變時所標示之自動產生式日期/時間欄位。

在一個實施例中，該方法進一步係包括：比較非語音字符之字串，諸如簡體漢字、繁體漢字、或日語字符；以及產生一個可表示彼等究有多少類似性之數值評分。該輔助性資訊可被用來建立屬性－平等信用指數指定，以及用以輸入啞性疊碼、黏著性二聯體、和其他構造。下文所討論之方法和程式庫，在一個實施例中，係應用至簡體漢字字符，但亦可應用至任何一種非語音語言或通訊系統。

上述之類似性計算，係在數條軸線上面完成，其中包括綴字、語音、和詞位變化，加上透過多使用者遮眼測試，來客觀地評價對該演算法推論之說母語者反應。

除之上文所說明之評分外，在以日語和漢語為例之表意字符書寫體中的額外特徵，係被採用在評價和判定程序中。較佳地，上文所說明之簡體漢字疊碼程序，亦被用來決定一個置信度碼或其他表示一個匹配品質之評分。

本發明之強化型匹配系統和方法，可就漢語、日語、和其他非語音或表意字符語言資料匹配系統，提供優異之資料匹配和更詳細之回饋。該系統係能夠就資料淨化和匹配，使用更多之資料元素，能夠在多於先存技藝可能之方式中匹配資料，以及可針對該匹配程序，提供更明智和更粗粒之回饋。此種粗粒回饋可致能一個經由電腦系統之商業程序的自動化，其否則便屬不可能。

本發明之強化型匹配系統，諸如日語強化型匹配系統(JEMS)，係比先前之系統，使用更多之客戶輸入檔案中的資料元素，以及係在利用亞洲書寫系統之表意字符性質的方法中，使資料匹配。該系統和方法，亦具有相照於先存技藝式系統之額外的現有資料元素與新資料元素之比較方案的特徵。

理應瞭解的是，本說明書所說明之揭示內容的各種替代方案、組合、和修改，係可被本技藝之專業人員策劃出。本發明係意圖涵蓋所有落在本說明書所說明之揭示內容的範圍內之此等替代方案、修飾體、和變體。

Claims

一種用於搜尋輸入資料及使與儲存資料相匹配的電腦化方法，該方法包含之步驟有：接收一個包含一具有多個元素之搜尋字串所組成的輸入資料，至少一些該等元素形成了部份之表意字符書寫系統；將該等多個元素之一個子集，轉換成一組語詞，其係使用至少一個選自多語標語義歧義消除、簡體漢字縮略語擴充、日語漢字縮略語擴充、和商業詞彙辨識所組成之群組的一個方法；由該組語詞產生多個最佳化之關鍵字；基於對應於最有可能與輸入資料匹配之多個候選對象而加以最佳化的關鍵字，來檢索儲存資料；以及自匹配之該等候選對象，選出一個最佳之匹配，其中該檢索步驟進一步包含：就多個關鍵字中傳回超越一個預定之臨界值的計數之某些關鍵字來限制匹配之該等候選對象；產生一個用以選擇多個有交集之關鍵字之一成本函數；根據該成本函數將該等有交集之關鍵字排出優先順序；及依該等關鍵字交集之順序檢索匹配之該等候選對象。
如申請專利範圍第1項之方法，其中，該項檢索步驟係使用至少一種選自黏著性簡體漢字疊碼、黏著性日語漢字疊碼、啞性簡體漢字疊碼、啞性日語漢字疊碼、和橫跨多個書寫系統之本文索引所組成的群組之方法。
如申請專利範圍第1項之方法，其中，該項轉換步驟係包括：將該搜尋字串分割成多個交疊之子節段。
如申請專利範圍第3項之方法，其中，該項轉換步驟係進一步包括：識別該等包含在表意字符書寫系統內具有語意意義之子節段之黏著性子節段。
如申請專利範圍第4項之方法，其中，該項轉換步驟係進一步包括：移除擾亂性子節段。
如申請專利範圍第5項之方法，其中，該項轉換步驟係進一步包括：識別該等包含在表意字符書寫系統內不具語意意義之相鄰元素之啞性子節段；以及輸入來自該等啞性子節段之預測性。
如申請專利範圍第6項之方法，其中，該項產生步驟係包括：使用該等黏著性子節段和啞性子節段，來產生多個最佳化之關鍵字。
如申請專利範圍第1項之方法，其中，該項轉換步驟係包括：規格化該表意字符書寫系統之繁體和簡體版本。
如申請專利範圍第1項之方法，其中，該表意字符書寫系統，係至少一個選自日本漢字、繁體字、和簡體字所組成之群組。
如申請專利範圍第1項之方法，其中，該等元素係由亞洲和羅馬字符所組成。
如申請專利範圍第1項之方法，其中，該項轉換步驟係包括：剖析該等多個元素以識別該組語詞，其中包括：名稱元素、電話號碼元素、和地址元素；透過多語標方法，推斷出業務部門，以地址元素來交叉檢查電話號碼元素；以及識別表意文字書寫系統之習語和辭句，以及使該等習語和辭句保持在一起以維持意義。
如申請專利範圍第11項之方法，其中，該項轉換步驟係進一步包括：識別一個名稱元素內之結構指示符和縮略語。
如申請專利範圍第11項之方法，其中進一步包含之步驟有：基於該地址元素，以及透過有彈性之亞洲定址約定的推論，來建立經線和緯線資訊。
如申請專利範圍第1項之方法，其中，該項檢索步驟係進一步包括：基於匹配度產生一個信用指數、一個置信度碼、和每個匹配候選對象之一匹配資料量變曲線。
如申請專利範圍第14項之方法，其中，該置信度碼係至少部份基於該搜尋字串之語義意義和推斷內容被決定。
如申請專利範圍第14項之方法，其中進一步包含之步驟有：基於該置信度碼，提供一個選定之匹配候選對象的有序列表。
如申請專利範圍第16項之方法，其中進一步包含之步驟有：將該有序列表內之每個候選對象，指定給多個匹配級別中的一個。
如申請專利範圍第17項之方法，其中進一步包含之步驟有：依該等置信度碼之順序，分級匹配之該等候選對象，來決定匹配級別之分配，繼而進一步基於使用者界定之平局法則，來區分最高之分級程度。
一種用以搜尋輸入資料使與儲存資料相匹配之電腦化裝置，該裝置包含：用以接收一個包含具有多個元素之搜尋字串之輸入資料的構件，該等元素至少一些形成了部份之表意字符書寫系統；用以使用至少一個選自多語標語義歧義消除、簡體漢字縮略語擴充、日語漢字縮略語擴充、和商業詞彙辨識所組成之群組的一個方法，將該等多個元素之一個子集轉換成一組語詞之構件；用以從該組語詞產生多個最佳化之關鍵字的構件；用以基於該等對應於最有可能與輸入資料相匹配之候選對象而加以最佳化的關鍵字來檢索儲存之資料之構件；以及用以自匹配之該等候選對象選出一個最佳之匹配之構件，其中用以檢索該等儲存資料之構件，包含：用以限制匹配之該等候選對象以回報計算出超過一預定臨界值之多個關鍵字的某些關鍵字之構件；用以對選擇多個有交集之關鍵字產生一成本函數之構件；用以根據該成本函數將該等有交集之關鍵字排出優先順序之構件；及用以依該等關鍵字交集之順序檢索匹配之該等候選對象之構件。