TWI724237B - 名稱匹配方法及裝置 - Google Patents
名稱匹配方法及裝置 Download PDFInfo
- Publication number
- TWI724237B TWI724237B TW106131720A TW106131720A TWI724237B TW I724237 B TWI724237 B TW I724237B TW 106131720 A TW106131720 A TW 106131720A TW 106131720 A TW106131720 A TW 106131720A TW I724237 B TWI724237 B TW I724237B
- Authority
- TW
- Taiwan
- Prior art keywords
- name
- matched
- matching
- standard
- detection
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Alarm Systems (AREA)
Abstract
本發明實施例公開了一種名稱匹配方法及裝置。所述方法包括:獲得待匹配名稱;確定用於與所述待匹配名稱匹配的標準名稱集合;對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同;根據檢測結果,確定所述待匹配名稱的匹配結果。利用本發明實施例,可以提高匹配精確度,降低風險控制系統的誤報機率。
Description
本發明涉及電腦軟體技術領域,尤其涉及一種名稱匹配方法及裝置。
人名匹配是風險控制領域非常重要的技術。例如,風險控制系統在黑名單中記錄已確定的各非法用戶的人名,之後在進行風險控制時,針對當前進行業務的每個使用者,通過掃描將每個使用者的人名與黑名單中的各人名進行匹配,若匹配成功,則可以認為該用戶是非法用戶並拒絕其業務,以防止風險。 人名匹配具體可以分為人名精確匹配和人名模糊匹配,相比而言,人名模糊匹配更具技術難點,因為難以把握合適的模糊程度。 在現有技術中,通常採用字串匹配演算法進行人名模糊匹配,則字串匹配度閾值決定了模糊程度,而字串匹配度閾值全憑經驗設定,為了減少遺漏,字串匹配度閾值往往設定得較低,從而容易導致匹配精確度較低,風險控制系統的誤報機率偏高。
本發明實施例提供一種名稱匹配方法及裝置,用以解決如下技術問題:現有技術中採用字串匹配演算法進行人名模糊匹配的匹配精確度較低,系統誤報機率偏高。 為解決上述技術問題,本發明實施例是這樣實現的: 本發明實施例提供的一種名稱匹配方法,包括: 獲得待匹配名稱; 確定用於與所述待匹配名稱匹配的標準名稱集合; 對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同; 根據檢測結果,確定所述待匹配名稱的匹配結果。 本發明實施例提供的一種名稱匹配裝置,包括: 獲得模組,獲得待匹配名稱; 確定模組,確定用於與所述待匹配名稱匹配的標準名稱集合; 檢測模組,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同; 匹配模組,根據檢測結果,確定所述待匹配名稱的匹配結果。 本發明實施例採用的上述至少一個技術方案能夠達到以下有益效果:所述名稱可以包括人名,實際應用中的待匹配人名可能由於資料錄入時的時效性、不確定性以及人名的多變性,導致待匹配人名與實際人名有出入,這也是進行模糊匹配的原因,本發明的方案針對該原因,對待匹配人名進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同,並根據檢測結果確定人名匹配結果,相比於現有技術中僅局限於通過憑經驗設定的字串匹配度閾值控制模糊程度,更有利於提高對模糊程度的控制準確程度,可以提高匹配精確度,降低風險控制系統的誤報機率,因此,可以部分或全部地減少現有技術中的問題。
本發明實施例提供一種名稱匹配方法及裝置。 為了使本技術領域的人員更好地理解本發明中的技術方案,下面將結合本發明實施例中的圖式,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。 如前所述,實際應用中的待匹配人名可能由於資料錄入時的時效性、不確定性以及人名的多變性,導致待匹配人名與實際人名有出入(主要指人名的“形(也即,字元)”發生變化)。為了便於理解,以英文人名為例,英文人名常見變化類型及實例,如下表1所示。其中,若只採用字串匹配的方法匹配人名,可能對於個別字母“錯拼”的變化類型尚能夠嘗試匹配(實際上也是靠誤打誤撞,沒有完美的根據),但是對於其他變化類型,匹配精確度很低。 而本發明的方案針對上述其他變化類型,可以進行諸如縮寫檢測、稱謂詞檢測、多語言檢測、別稱檢測等特定檢測,從而可以比較全面地考慮人名匹配時同義而字元不全相同(也即,同義而不同形)情況,進而可以提高匹配精確度。需要說明的是,“不同形”可以指由於錯拼而導致“有誤”的不同形,但在下面的實施例中更主要是指由於上述其他變化類型所導致的“合理無誤”的不同形。 本發明的方案不僅適用於人名匹配,也適用於人名以外的其他名稱的匹配,比如,地名、物名等。 下面對本發明的方案進行詳細說明。 圖1為本發明實施例提供的一種名稱匹配方法的流程示意圖。執行該流程的程式可搭載的設備包括但不限於:個人電腦、大中型電腦、電腦叢集、手機、平板電腦、智慧型可穿戴設備、車機,等等。該流程通常可以在風險控制領域使用,具體由風險控制系統或相關系統執行。 圖1中的流程可以包括以下步驟: S101:獲得待匹配名稱。 在本發明實施例中,對待匹配名稱所屬的具體語言並不做限定,可以是英文、俄文、西班牙文等,也可以是中文等。為了便於描述,下面的實施例主要以待匹配名稱所屬的語言是英文為例進行說明。 S102:確定用於與所述待匹配名稱匹配的標準名稱集合。 在本發明實施例中,標準名稱集合可以是從一個更大的名稱集合中篩選出來的子集,也可以直接是所述更大的名稱集合本身,為了便於描述,可以將此處的篩選稱為“初篩”。比如,在背景技術的場景下,所述更大的名稱集合可以是風險控制系統所掌握的黑名單。 在前一種情況下,子集可以是只包含與待匹配名稱相似的名稱的集合,此處的“相似”可以不是那麼嚴格,因為後續還有一系列進一步地確定相似性的操作,相當於後續還要進行“細篩”。通過初篩可以快速縮小匹配範圍,進而可以減少後續細篩的工作量,提高細篩的針對性,有利於提高本發明的方案的效率。 S103:對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 在本發明實施例中,所要檢測判定的“同義而字元不全相同”主要是由表1中的一種或多種變化類型導致的,所述檢測具體可以包括:縮寫檢測、稱謂詞檢測、多語言檢測、別稱檢測等檢測中的至少一種,後面會一一詳細說明。 在本發明實施例中,當所述檢測包括多種時,可以按照一定的順序依次執行多種檢測,若在檢測過程中已經可以確定待匹配名稱的匹配結果,也可以不執行剩餘的檢測。當然,為了提高執行效率,也可以並行地執行多種檢測,再匯總檢測結果。 S104:根據檢測結果,確定所述待匹配名稱的匹配結果。 在本發明實施例中,通過執行步驟S103,若判定待匹配名稱與標準名稱集合中至少一個名稱同義而字元不全相同,則根據所述情況可以直接確定待匹配名稱的匹配結果,在這種情況下,步驟S103中的檢測過程實際上也就是對待匹配名稱的整個匹配過程。 而若判定待匹配名稱不滿足:與所述標準名稱集合中至少一個名稱同義而字元不全相同;則可以進一步地採用其他匹配方式對待匹配名稱進行匹配,以確定待匹配名稱的匹配結果。 通過圖1的方法,所述名稱可以包括人名,實際應用中的待匹配人名可能由於資料錄入時的時效性、不確定性以及人名的多變性,導致待匹配人名與實際人名有出入,這也是進行模糊匹配的原因,本發明的方案針對該原因,對待匹配人名進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同,並根據檢測結果確定人名匹配結果,相比於現有技術中僅局限於通過憑經驗設定的字串匹配度閾值控制模糊程度,更有利於提高對模糊程度的控制準確程度,可以提高匹配精確度,降低風險控制系統的誤報機率,因此,可以部分或全部地減少現有技術中的問題。 基於圖1的方法,本發明實施例還提供了該方法的一些具體實施方案,以及擴展方案,下面進行說明。 在本發明實施例中,不同的待匹配名稱的複雜程度可能不同,包含的資訊也可能不同,對於某些信息量過於小或者資訊特徵過於簡單的待匹配名稱,即使對其進行匹配,所獲得的匹配結果的價值也難以達到預期。比如,過於簡單通用的名稱如英文人名“Jim”、“Jimmy”、“David”、“John”、“Mike”等,即使匹配成功也難以特定到一個人。 為了防止這種情況導致用於名稱匹配的處理資源白白浪費,可以在獲得待匹配名稱後先對其進行一次過濾,以判決是否繼續匹配。另外,若待匹配名稱包含在白名單上,則也存在類似問題,也可以採用這種方式進行處理。 具體地,對於步驟S101和S102,所述獲得待匹配名稱後,確定用於與所述待匹配名稱匹配的標準名稱集合前,還可以執行:獲得預定的無需匹配名稱集合;確定所述待匹配名稱是否包含在所述無需匹配名單集合中;若是,則繼續執行後續步驟;否則,可以不對所述待匹配名稱進行匹配。 在本發明實施例中,以步驟S102的一種具體實施方案(對應於上述“初篩”的情況)為例展開說明。對於步驟S102,所述確定用於與所述待匹配名稱匹配的標準名稱集合,具體可以包括:確定可用於與所述待匹配名稱匹配的第一名稱集合;通過將所述待匹配名稱包含的各詞與所述第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與所述待匹配名稱匹配的標準名稱集合。 如何進行相似性匹配也有多種具體實施方案,可以進行對待匹配名稱進行分詞匹配,也可以對待匹配進行全文本匹配,等等。 以分詞匹配為例,所述通過將所述待匹配名稱包含的各詞與所述第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與所述待匹配名稱匹配的標準名稱集合,具體可以包括:獲得所述第一名稱集合包含的各名稱的索引,所述名稱的索引為該名稱包含的任一詞;以及對所述待匹配名稱進行分詞,獲得所述待匹配名稱包含的各詞;分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配,獲得由匹配成功的各索引所索引的名稱構成的所述第一名稱集合的子集;根據各所述子集,確定用於與所述待匹配名稱匹配的標準名稱集合。 上例中的索引是預先建立的,基於索引進行分詞匹配的優點是:可以有效加快在匹配過程中對集合中所需的名稱的獲取速度。若不基於索引,仍可以實現分詞匹配(比如,在儲存集合的資料表中直接用Select語句查詢所需的名稱以用於分詞匹配等),只是效率上可能受到影響。 進一步地,所述分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配,具體可以包括:採用字串匹配演算法,分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配;所述字串匹配演算法可以包括一種或多種,比如,首碼樹匹配演算法、字典樹匹配演算法、字串相似度匹配演算法、發音相似匹配演算法等。這裡,採用字串匹配演算法只是一種較優的方式,也可以採用文本匹配演算法等其他可以用於實現相似性匹配的演算法。 所述根據各所述子集確定用於與所述待匹配名稱匹配的標準名稱集合,也可以有多種具體實施方案。比如,若採用N種字串匹配演算法,對於分詞得到的M個詞中的每個詞,分別採用每種字串匹配演算法將該詞與各索引進行匹配,對應得到N個子集,然後取N個子集的並集;共得到M個並集,取在M個並集中出現總次數超過設定閾值的各名稱,確定為標準名稱集合。又比如,得到N個子集,然後取N個子集的交集確定為標準名稱集合。 上面對“初篩”過程進行了說明,為了便於理解,本發明實施例還提供了一種實際應用場景下,名稱匹配方法中初篩的一種具體實施方案的流程簡圖,如圖2所示。 在該實際應用場景下,假定第一名稱集合為某英文人名名單,預先設定了該名單中各名稱的索引(通過索引還可以索引得到對應名稱以外的相關資訊),索引具體為其對應的名稱中的詞,各索引包含在以索引對應的詞為主鍵建立的索引表中,待匹配名稱為英文人名“Kit Wai Jackson Wong”,以空格作為分隔符號對該人名進行分詞,分詞結果如下表2所示。在圖2中,M=4,分詞結果具體為{Kit,Wai,Jackson,Wong},採用首碼樹匹配演算法、字典樹匹配演算法、字串相似度匹配演算法(比如Simstring演算法等)、發音相似匹配演算法(比如metaphone演算法等)分別對分詞得到的每個詞與各索引分別進行匹配,輸出單個詞通過這四種匹配演算法得到的索引對應的名稱集合,匹配結果1、2、3、4; 將每個詞的匹配結果取並集,得到每個詞的綜合匹配結果; 取至少包含在兩個綜合匹配結果中的名稱構成集合,作為產生的初篩結果。 在本發明實施例中,確定標準名稱集合後,可以對待匹配名稱進行檢測。不過,在檢測之前,還可以進行一項或多項預處理,預處理有利於提高後續檢測結果的可靠性。所述預處理可以包括對齊處理、大小寫統一處理、簡繁體處理等。 以對齊處理為例。對於步驟S103,所述對所述待匹配名稱進行檢測前,還可以執行:根據所述標準名稱集合中名稱包含的各詞與所述待匹配名稱包含的各詞的相似度,對所述標準名稱集合中名稱包含的各詞與所述待匹配名稱包含的各詞進行對齊處理。 在實際應用中,基於相似度進行對齊處理的具體原理可以是:基於相似度最大化原則,即將相似度最大的詞所在的名稱位置對齊。 例如,假定待匹配名稱為“Kate Lee Smith”,標準名稱集合中的某名稱為“Smith Catherine Lee”對齊結果如下表3所示。進一步地,在進行了對齊處理的情況下,對於步驟S103,所述對所述待匹配名稱進行檢測,具體可以包括:根據對齊後的所述標準名稱集合,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 在本發明實施例中,步驟S103中的檢測是提高人名模糊匹配的匹配準確度的關鍵部分。具體地,對於步驟S103,所述對所述待匹配名稱進行檢測,具體包括: 對所述待匹配名稱進行縮寫檢測、稱謂詞檢測、多語言檢測、別稱檢測中的至少一種,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。下面分別對這幾種檢測進行說明。 在本發明實施例中,縮寫檢測中最常見的一種是首字母縮寫檢測,除此之外還有部分詞省略縮寫檢測等。在一種具體實施方式下,所述對所述待匹配名稱進行縮寫檢測,具體可以包括:獲得預定的縮寫對照組合資料,每個所述縮寫對照組合反映至少一個詞與其縮寫詞的縮寫對應關係;根據所述縮寫對照組合資料,檢測所述待匹配名稱包含的詞與所述標準名稱集合中的名稱包含的詞是否具有所述縮寫對應關係;根據檢測結果,判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 例如,若預先確定了英文人名“Ben Williams”可縮寫為“B. Williams”,則可以將“Ben Williams”與“B. Williams”作為一個縮寫對照組合,若檢測出待匹配名稱與標準名稱集合中的某個名稱即為該縮寫對照組合,則可以確定存在同義而字元不全相同的情況。 在本發明實施例中,所述對所述待匹配名稱進行稱謂詞檢測,具體可以包括:獲得預定的稱謂詞資料;根據所述稱謂詞資料,檢測所述待匹配名稱是否包含所述稱謂詞,所述稱謂詞被認為不影響包含該稱謂詞的名稱之義;根據檢測結果,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 就人名而言,稱謂詞一般是通用尊稱(比如,Mr.或Miss.等)、頭銜(Dr.、Prof.等)等附加於至少部分原始人名的詞。在人名匹配的環境下,稱謂詞並不會影響其所對應的所述至少部分原始人名之義。因此,若確定待匹配名稱中包含有稱謂詞,且除了稱謂詞的其他部分與標準名稱集合中的某個名稱可以匹配,則可以判定待匹配名稱與標準名稱集合中至少一個名稱同義而字元不全相同。 在本發明實施例中,所述對所述待匹配名稱進行別稱檢測,具體可以包括:獲得預定的別稱對照組合資料,每個所述縮寫對照組合反映至少一個詞與其別稱的別稱對應關係;根據所述別稱對照組合資料,檢測所述待匹配名稱包含的詞與所述標準名稱集合中的名稱包含的詞是否具有所述別稱對應關係;根據檢測結果,判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 在實際應用中,別稱可以包括其對應的名稱的暱稱(比如,表1中的Mick是Mikey的暱稱等)、或其對應的名稱在不同領域下的同義名稱。對於後者,不同領域具體可以是不同地域(比如,不同國家、不同省份等)、不同語言(比如,不同國家的語言、不同民族的語言等)、不同的行業等。 相應地,對所述待匹配名稱進行暱稱檢測,和/或,對所述待匹配名稱進行不同領域下的同義名稱檢測。 別稱也不會影響其對應的名稱之義,因此,若確定待匹配名稱為標準名稱集合中的某個名稱的別稱,則可以判定待匹配名稱與標準名稱集合中至少一個名稱同義而字元不全相同。 需要說明的是,本發明對上述的對照組合資料、稱謂詞資料的具體儲存形式並不做限定,常用的一種方式是儲存在對應的資料表中,需要使用時從資料庫中讀取。 在本發明實施例中,所述對所述待匹配名稱進行多語言檢測,具體可以包括:確定所述待匹配名稱對應的語言;獲得所述語言和/或其他語言的拼寫變形同義規則和/或拼寫變形異義規則;根據所述拼寫變形同義規則和/或拼寫變形異義規則,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 多語言檢測主要是針對諸如以下這種情況:比如,英文“Pooh”在德文中拼寫為“puh”,兩者在人名中出現是屬於同義。 需要說明的是,在前面進行的各項檢測中,可能會使用到用於計算字串匹配度的演算法。 在本發明實施例中,所述根據檢測結果,確定所述待匹配名稱的匹配結果,具體可以包括:若判定所述待匹配名稱與所述標準名稱集合中至少一個名稱同義而字元不全相同,將所述至少一個名稱確定為所述待匹配名稱的匹配結果;否則(也即,通過上述檢測,未能匹配成功時),通過採用一種或多種相似度演算法對所述待匹配名稱與所述標準名稱集合中的名稱進行匹配,確定所述待匹配名稱的匹配結果。 在本發明實施例中,所述多種相似度演算法可以是基於不同維度的,從而有利於提高匹配結果的可靠性。根據這樣的思路,相似度演算法具體可以是用於計算文本匹配度的演算法(比如,n-gram演算法等)、用於計算語音匹配度的演算法(比如,Phonex演算法等)、用於計算字串匹配度的演算法(比如,Jaro-Winkler演算法等)等。 在採用了多種相似度演算法的情況下,可以通過對各相似度演算法對應的匹配結果的綜合衡量,得到綜合匹配結果,本發明對具體衡量方式並不做限定,常用的一種方式,是加權相加。 例如,採用n-gram演算法,演算法輸入為待匹配名稱包含的各詞與其對齊位置的各詞,演算法輸出為對齊的每一對詞的文本匹配度,記作F1; 採用Jaro-Winkler演算法,演算法輸入為待匹配名稱包含的各詞與其對齊位置的各詞,演算法輸出為對齊的每一對詞的字串匹配度,記作F2; 採用Phonex演算法,演算法輸入為待匹配名稱包含的各詞與其對齊位置的各詞,演算法輸出為對齊的每一對詞的語音匹配度,記作F3; 通過對文本匹配度、字串匹配度和語音匹配度加權相加得到對齊的每一對詞的綜合匹配度F,如下公式所示: F=w1*F1+ w2*F2+ w3*F3,其中,w1+w2+w3=1; 根據各對詞的綜合匹配度F,通過取平均值得到待匹配名稱與標準名稱集合中的名稱之間的匹配結果,比如,對於表3中的名稱對,得到的匹配結果如下表4所示。上面對初篩後的檢測以及匹配過程進行了說明,該過程中可能使用到多種匹配相關的演算法,本發明的方案在具體實施時,可以對這些可能使用的演算法進行集成,則該過程即是一種集成演算法模糊匹配的過程。 在本發明實施例中,在進行集成演算法模糊匹配後,還可以進一步地進行一些後置規則過濾,比如,將匹配結果中的匹配度映射為文字描述資訊,或者根據具體場景對匹配度進行適當補償或者消減等。 根據上面的說明,更直觀地,本發明實施例還提供了一種實際應用場景下,名稱匹配方法中集成演算法模糊匹配的一種具體實施方案的流程簡圖,如圖3所示。在圖3中,各項檢測和各種方式的匹配度計算的執行順序只是示例,並非對本發明的限定。 在圖3中,若通過上述任一項檢測對待匹配名稱匹配成功,則可以直接輸出匹配結果,反之,則可以通過一種或多種方式的匹配度計算(比如,文本匹配度計算、語音匹配度計算、字串匹配度計算等),確定並輸出待匹配名稱的匹配結果。 當然,也可以完整地執行各項檢測和各種方式的匹配度計算,再綜合考慮各項檢測結果和各種方式的匹配度計算結果,確定待匹配字串的匹配結果。 進一步地,本發明實施例還提供了一種實際應用場景下,名稱匹配方法的一種具體實施方案的流程簡圖,如圖4所示。在圖4中,前置規則判決可以包括:判決待匹配名稱是否未包含在無需匹配名單集合中等,掃描名單索引即為上述的標準名稱集合中名稱的索引。 圖3、圖4中的步驟在上面都進行了詳細說明,在此不贅述。 上面對本發明實施例提供的名稱匹配方法進行了說明,基於同樣的發明思路,本發明實施例還提供了對應的裝置,如圖5所示。 圖5為本發明實施例提供的對應於圖1的一種名稱匹配裝置的結構示意圖,虛線表示可選的模組,所述裝置包括: 獲得模組501,獲得待匹配名稱; 確定模組502,確定用於與所述待匹配名稱匹配的標準名稱集合; 檢測模組503,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同; 匹配模組504,根據檢測結果,確定所述待匹配名稱的匹配結果。 可選地,所述確定模組502確定用於與所述待匹配名稱匹配的標準名稱集合前,獲得預定的無需匹配名稱集合,確定所述待匹配名稱未包含在所述無需匹配名單集合中。 可選地,所述確定模組502確定用於與所述待匹配名稱匹配的標準名稱集合,具體包括: 所述確定模組502獲得可用於與所述待匹配名稱匹配的第一名稱集合,通過將所述待匹配名稱包含的各詞與所述第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與所述待匹配名稱匹配的標準名稱集合。 可選地,所述確定模組502通過將所述待匹配名稱包含的各詞與所述第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與所述待匹配名稱匹配的標準名稱集合,具體包括: 所述確定模組502獲得所述第一名稱集合包含的各名稱的索引,所述名稱的索引為該名稱包含的任一詞,以及對所述待匹配名稱進行分詞,獲得所述待匹配名稱包含的各詞,分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配,獲得由匹配成功的各索引所索引的名稱構成的所述第一名稱集合的子集,根據各所述子集,確定用於與所述待匹配名稱匹配的標準名稱集合。 可選地,所述確定模組502分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配,具體包括: 所述確定模組502採用字串匹配演算法,分別將對所述待匹配名稱包含的各詞,與各所述索引進行相似性匹配,所述字串匹配演算法包括以下至少一種:首碼樹匹配演算法、字典樹匹配演算法、字串相似度匹配演算法、發音相似匹配演算法。 可選地,所述裝置還包括: 對齊模組505,在所述檢測模組503對所述待匹配名稱進行檢測前,根據所述標準名稱集合中名稱包含的各詞與所述待匹配名稱包含的各詞的相似度,對所述標準名稱集合中名稱包含的各詞與所述待匹配名稱包含的各詞進行對齊處理; 所述檢測模組503對所述待匹配名稱進行檢測,具體包括: 所述檢測模組503根據對齊後的所述標準名稱集合,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述檢測模組503對所述待匹配名稱進行檢測,具體包括: 所述檢測模組503對所述待匹配名稱進行縮寫檢測、稱謂詞檢測、多語言檢測、別稱檢測中的至少一種,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述檢測模組503對所述待匹配名稱進行縮寫檢測,具體包括: 所述檢測模組獲得預定的縮寫對照組合資料,每個所述縮寫對照組合反映至少一個詞與其縮寫詞的縮寫對應關係,根據所述縮寫對照組合資料,檢測所述待匹配名稱包含的詞與所述標準名稱集合中的名稱包含的詞是否具有所述縮寫對應關係,根據檢測結果,判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述檢測模組503對所述待匹配名稱進行稱謂詞檢測,具體包括: 所述檢測模組503獲得預定的稱謂詞資料,根據所述稱謂詞資料,檢測所述待匹配名稱是否包含所述稱謂詞,所述稱謂詞被認為不影響包含該稱謂詞的名稱之義,根據檢測結果,判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述別稱包括其對應的名稱的暱稱、或其對應的名稱在不同領域下的同義名稱; 所述檢測模組503對所述待匹配名稱進行別稱檢測,具體包括: 所述檢測模組503對所述待匹配名稱進行暱稱檢測,和/或,對所述待匹配名稱進行不同領域下的同義名稱檢測。 可選地,所述檢測模組503對所述待匹配名稱進行多語言檢測,具體包括: 所述檢測模組503確定所述待匹配名稱對應的語言,獲得所述語言的拼寫變形同義規則和/或拼寫變形異義規則,根據所述拼寫變形同義規則和/或拼寫變形異義規則,對所述待匹配名稱進行檢測,以判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述檢測模組503對所述待匹配名稱進行別稱檢測,具體包括: 所述檢測模組503獲得預定的別稱對照組合資料,每個所述縮寫對照組合反映至少一個詞與其別稱的別稱對應關係,根據所述別稱對照組合資料,檢測所述待匹配名稱包含的詞與所述標準名稱集合中的名稱包含的詞是否具有所述別稱對應關係,根據檢測結果,判定所述待匹配名稱是否與所述標準名稱集合中至少一個名稱同義而字元不全相同。 可選地,所述匹配模組504根據檢測結果,確定所述待匹配名稱的匹配結果,具體包括: 所述匹配模組504若所述檢測模組503判定所述待匹配名稱與所述標準名稱集合中至少一個名稱同義而字元不全相同,將所述至少一個名稱確定為所述待匹配名稱的匹配結果,否則,通過採用一種或多種相似度演算法對所述待匹配名稱與所述標準名稱集合中的名稱進行匹配,確定所述待匹配名稱的匹配結果。 可選地,所述相似度演算法包括以下至少一種:用於計算文本匹配度的演算法、用於計算語音匹配度的演算法、用於計算字串匹配度的演算法。 可選地,所述名稱為人名。 本發明實施例提供的裝置與方法是一一對應的,因此,裝置也具有與其對應的方法類似的有益技術效果,由於上面已經對方法的有益技術效果進行了詳細說明,因此,這裡不再贅述對應裝置的有益技術效果。 另外,在本發明對上述裝置與方法的具體應用場景並不做限定,除了背景技術中提到的風險控制領域(比如,反洗錢、用戶認證等具體領域)以外,其他任何可能需要用到名稱匹配技術的領域,本發明的方案均可能適用。 在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式設計邏輯裝置(Programmable Logic Device, PLD)(例如場可程式化閘陣列(Field Programmable Gate Array, FPGA))就是這樣一種積體電路,其邏輯功能由使用者對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫,此稱之為硬體描述語言(Hardware Description Language, HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式化到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。 控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀介質、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit, ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式化邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體元件,而對其內包括的用於實現各種功能的裝置也可以視為硬體元件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體元件內的結構。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、筆記型電腦、蜂巢式電話、相機電話、智慧型型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。 為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。 本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。 本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。 這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。 這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。 在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。 記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。 電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 本領域技術人員應明白,本發明的實施例可提供為方法、系統或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。 本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本發明,在這些分散式運算環境中,由通過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存介質中。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 以上所述僅為本發明的實施例而已,並不用於限制本發明。對於本領域技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本發明的申請專利範圍之內。
501‧‧‧獲得模組502‧‧‧確定模組503‧‧‧檢測模組504‧‧‧匹配模組505‧‧‧對齊模組
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。 圖1為本發明實施例提供的一種名稱匹配方法的流程示意圖; 圖2為本發明實施例提供的一種實際應用場景下,名稱匹配方法中初篩的一種具體實施方案的流程簡圖; 圖3為本發明實施例提供的一種實際應用場景下,名稱匹配方法中集成演算法模糊匹配的一種具體實施方案的流程簡圖; 圖4為本發明實施例提供的一種實際應用場景下,名稱匹配方法的一種具體實施方案的流程簡圖; 圖5為本發明實施例提供的對應於圖1的一種名稱匹配裝置的結構示意圖。
Claims (22)
- 一種名稱匹配方法,用於風險控制領域,以解決黑名單匹配問題,並以電子裝置執行,其特徵在於,包括:獲得待匹配名稱;確定用於與該待匹配名稱匹配的標準名稱集合;對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同;根據檢測結果,確定該待匹配名稱的匹配結果,具體包括:若判定該待匹配名稱與該標準名稱集合中至少一個名稱同義而字元不全相同,將該至少一個名稱確定為該待匹配名稱的匹配結果;否則,通過採用一種或多種相似度演算法對該待匹配名稱與該標準名稱集合中的名稱進行匹配,確定該待匹配名稱的匹配結果,其中,該對該待匹配名稱進行檢測,具體包括:對該待匹配名稱進行縮寫檢測、稱謂詞檢測、多語言檢測中的至少一種,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同,其中,該相似度演算法包括以下至少一種:用於計算文本匹配度的演算法、用於計算語音匹配度的演算法、用於計算字串匹配度的演算法,其中,該確定用於與該待匹配名稱匹配的標準名稱集 合,具體包括:確定可用於與該待匹配名稱匹配的第一名稱集合;通過將該待匹配名稱包含的各詞與該第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與該待匹配名稱匹配的標準名稱集合。
- 如請求項1所述的方法,其中,該確定用於與該待匹配名稱匹配的標準名稱集合前,該方法還包括:獲得預定的無需匹配名稱集合;確定該待匹配名稱未包含在該無需匹配名單集合中。
- 如請求項1所述的方法,其中,該通過將該待匹配名稱包含的各詞與該第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與該待匹配名稱匹配的標準名稱集合,具體包括:獲得該第一名稱集合包含的各名稱的索引,該名稱的索引為該名稱包含的任一詞;以及對該待匹配名稱進行分詞,獲得該待匹配名稱包含的各詞;分別將對該待匹配名稱包含的各詞,與各該索引進行相似性匹配,獲得由匹配成功的各索引所索引的名稱構成的該第一名稱集合的子集;根據各該子集,確定用於與該待匹配名稱匹配的標準 名稱集合。
- 如請求項3所述的方法,其中,該分別將對該待匹配名稱包含的各詞,與各該索引進行相似性匹配,具體包括:採用字串匹配演算法,分別將對該待匹配名稱包含的各詞,與各該索引進行相似性匹配;該字串匹配演算法包括以下至少一種:首碼樹匹配演算法、字典樹匹配演算法、字串相似度匹配演算法、發音相似匹配演算法。
- 如請求項1所述的方法,其中,該對該待匹配名稱進行檢測前,該方法還包括:根據該標準名稱集合中名稱包含的各詞與該待匹配名稱包含的各詞的相似度,對該標準名稱集合中名稱包含的各詞與該待匹配名稱包含的各詞進行對齊處理;該對該待匹配名稱進行檢測,具體包括:根據對齊後的該標準名稱集合,對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項1所述的方法,其中,該對該待匹配名稱進行縮寫檢測,具體包括:獲得預定的縮寫對照組合資料,每個該縮寫對照組合 反映至少一個詞與其縮寫詞的縮寫對應關係;根據該縮寫對照組合資料,檢測該待匹配名稱包含的詞與該標準名稱集合中的名稱包含的詞是否具有該縮寫對應關係;根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項1所述的方法,其中,該對該待匹配名稱進行稱謂詞檢測,具體包括:獲得預定的稱謂詞資料;根據該稱謂詞資料,檢測該待匹配名稱是否包含該稱謂詞,該稱謂詞被認為不影響包含該稱謂詞的名稱之義;根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項1所述的方法,其中,該別稱包括其對應的名稱的暱稱、或其對應的名稱在不同領域下的同義名稱;該對該待匹配名稱進行別稱檢測,具體包括:對該待匹配名稱進行暱稱檢測,和/或,對該待匹配名稱進行不同領域下的同義名稱檢測。
- 如請求項1所述的方法,其中,該對該待匹配名稱進行多語言檢測,具體包括:確定該待匹配名稱對應的語言; 獲得該語言和/或其他語言的拼寫變形同義規則和/或拼寫變形異義規則;根據該拼寫變形同義規則和/或拼寫變形異義規則,對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項1所述的方法,其中,該對該待匹配名稱進行別稱檢測,具體包括:獲得預定的別稱對照組合資料,每個該縮寫對照組合反映至少一個詞與其別稱的別稱對應關係;根據該別稱對照組合資料,檢測該待匹配名稱包含的詞與該標準名稱集合中的名稱包含的詞是否具有該別稱對應關係;根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項1~10中任一項所述的方法,其中,該名稱為人名。
- 一種名稱匹配裝置,用於風險控制領域,以解決黑名單匹配問題,其特徵在於,包括:獲得模組,獲得待匹配名稱;確定模組,確定用於與該待匹配名稱匹配的標準名稱集合; 檢測模組,對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同;匹配模組,根據檢測結果,確定該待匹配名稱的匹配結果,具體包括:該匹配模組若該檢測模組判定該待匹配名稱與該標準名稱集合中至少一個名稱同義而字元不全相同,將該至少一個名稱確定為該待匹配名稱的匹配結果,否則,通過採用一種或多種相似度演算法對該待匹配名稱與該標準名稱集合中的名稱進行匹配,確定該待匹配名稱的匹配結果,其中,該檢測模組對該待匹配名稱進行檢測,具體包括:該檢測模組對該待匹配名稱進行縮寫檢測、稱謂詞檢測、多語言檢測中的至少一種,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同,其中,該相似度演算法包括以下至少一種:用於計算文本匹配度的演算法、用於計算語音匹配度的演算法、用於計算字串匹配度的演算法,其中,該確定模組確定用於與該待匹配名稱匹配的標準名稱集合,具體包括:該確定模組獲得可用於與該待匹配名稱匹配的第一名稱集合,通過將該待匹配名稱包含的各詞與該第一名 稱集合中名稱包含的各詞進行相似性匹配,確定用於與該待匹配名稱匹配的標準名稱集合。
- 如請求項12所述的裝置,其中,該確定模組確定用於與該待匹配名稱匹配的標準名稱集合前,獲得預定的無需匹配名稱集合,確定該待匹配名稱未包含在該無需匹配名單集合中。
- 如請求項12所述的裝置,其中,該確定模組通過將該待匹配名稱包含的各詞與該第一名稱集合中名稱包含的各詞進行相似性匹配,確定用於與該待匹配名稱匹配的標準名稱集合,具體包括:該確定模組獲得該第一名稱集合包含的各名稱的索引,該名稱的索引為該名稱包含的任一詞,以及對該待匹配名稱進行分詞,獲得該待匹配名稱包含的各詞,分別將對該待匹配名稱包含的各詞,與各該索引進行相似性匹配,獲得由匹配成功的各索引所索引的名稱構成的該第一名稱集合的子集,根據各該子集,確定用於與該待匹配名稱匹配的標準名稱集合。
- 如請求項14所述的裝置,其中,該確定模組分別將對該待匹配名稱包含的各詞,與各該索引進行相似性匹配,具體包括:該確定模組採用字串匹配演算法,分別將對該待匹配 名稱包含的各詞,與各該索引進行相似性匹配,該字串匹配演算法包括以下至少一種:首碼樹匹配演算法、字典樹匹配演算法、字串相似度匹配演算法、發音相似匹配演算法。
- 如請求項12所述的裝置,其中,該裝置還包括:對齊模組,在該檢測模組對該待匹配名稱進行檢測前,根據該標準名稱集合中名稱包含的各詞與該待匹配名稱包含的各詞的相似度,對該標準名稱集合中名稱包含的各詞與該待匹配名稱包含的各詞進行對齊處理;該檢測模組對該待匹配名稱進行檢測,具體包括:該檢測模組根據對齊後的該標準名稱集合,對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項12所述的裝置,其中,該檢測模組對該待匹配名稱進行縮寫檢測,具體包括:該檢測模組獲得預定的縮寫對照組合資料,每個該縮寫對照組合反映至少一個詞與其縮寫詞的縮寫對應關係,根據該縮寫對照組合資料,檢測該待匹配名稱包含的詞與該標準名稱集合中的名稱包含的詞是否具有該縮寫對應關係,根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項12所述的裝置,其中,該檢測模組對該待匹配名稱進行稱謂詞檢測,具體包括:該檢測模組獲得預定的稱謂詞資料,根據該稱謂詞資料,檢測該待匹配名稱是否包含該稱謂詞,該稱謂詞被認為不影響包含該稱謂詞的名稱之義,根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項12所述的裝置,其中,該別稱包括其對應的名稱的暱稱、或其對應的名稱在不同領域下的同義名稱;該檢測模組對該待匹配名稱進行別稱檢測,具體包括:該檢測模組對該待匹配名稱進行暱稱檢測,和/或,對該待匹配名稱進行不同領域下的同義名稱檢測。
- 如請求項12所述的裝置,其中,該檢測模組對該待匹配名稱進行多語言檢測,具體包括:該檢測模組確定該待匹配名稱對應的語言,獲得該語言和/或其他語言的拼寫變形同義規則和/或拼寫變形異義規則,根據該拼寫變形同義規則和/或拼寫變形異義規則,對該待匹配名稱進行檢測,以判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項12所述的裝置,其中,該檢測模組對該待匹 配名稱進行別稱檢測,具體包括:該檢測模組獲得預定的別稱對照組合資料,每個該縮寫對照組合反映至少一個詞與其別稱的別稱對應關係,根據該別稱對照組合資料,檢測該待匹配名稱包含的詞與該標準名稱集合中的名稱包含的詞是否具有該別稱對應關係,根據檢測結果,判定該待匹配名稱是否與該標準名稱集合中至少一個名稱同義而字元不全相同。
- 如請求項12~21中任一項所述的裝置,其中,該名稱為人名。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201611055619.8 | 2016-11-25 | ||
CN201611055619.8 | 2016-11-25 | ||
CN201611055619.8A CN108108373B (zh) | 2016-11-25 | 2016-11-25 | 一种名称匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201820179A TW201820179A (zh) | 2018-06-01 |
TWI724237B true TWI724237B (zh) | 2021-04-11 |
Family
ID=62196168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106131720A TWI724237B (zh) | 2016-11-25 | 2017-09-15 | 名稱匹配方法及裝置 |
Country Status (14)
Country | Link |
---|---|
US (1) | US10726028B2 (zh) |
EP (1) | EP3547164A4 (zh) |
JP (1) | JP6860668B2 (zh) |
KR (1) | KR102151367B1 (zh) |
CN (1) | CN108108373B (zh) |
AU (1) | AU2017364745C1 (zh) |
BR (1) | BR112019010669B1 (zh) |
CA (1) | CA3044847A1 (zh) |
MX (1) | MX2019006027A (zh) |
PH (1) | PH12019501163A1 (zh) |
RU (1) | RU2725777C1 (zh) |
TW (1) | TWI724237B (zh) |
WO (1) | WO2018095281A1 (zh) |
ZA (1) | ZA201904091B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962232B (zh) * | 2018-07-16 | 2021-01-01 | 上海小蚁科技有限公司 | 语音识别方法及装置、存储介质、终端 |
CN109408561A (zh) * | 2018-10-17 | 2019-03-01 | 杭州骑轻尘信息技术有限公司 | 业务名称匹配方法及装置 |
CN109189809B (zh) * | 2018-10-17 | 2020-01-03 | 北京金堤科技有限公司 | 一种股东名称关联匹配的方法和装置 |
CN109472029B (zh) * | 2018-11-09 | 2023-04-07 | 天津开心生活科技有限公司 | 药品名称处理方法与装置 |
CN109471960B (zh) * | 2018-11-13 | 2020-10-13 | 深圳市景旺电子股份有限公司 | 智能识别pcb资料工具层名的方法及装置 |
CN109840316A (zh) * | 2018-12-21 | 2019-06-04 | 上海诺悦智能科技有限公司 | 一种客户信息制裁名单匹配系统 |
GB201902772D0 (en) | 2019-03-01 | 2019-04-17 | Palantir Technologies Inc | Fuzzy searching 7 applications thereof |
CN110909532B (zh) * | 2019-10-31 | 2021-06-11 | 银联智惠信息服务(上海)有限公司 | 用户名称匹配方法、装置、计算机设备和存储介质 |
CN111092758A (zh) * | 2019-12-06 | 2020-05-01 | 上海上讯信息技术股份有限公司 | 降低告警及恢复误报的方法、装置及电子设备 |
US20210287069A1 (en) * | 2020-03-12 | 2021-09-16 | Oracle International Corporation | Name matching engine boosted by machine learning |
CN111563139B (zh) * | 2020-07-15 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | Ocr识别发票药品名的校验方法、装置及计算机设备 |
CN113268986B (zh) * | 2021-05-24 | 2024-05-24 | 交通银行股份有限公司 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
US20230039689A1 (en) * | 2021-08-05 | 2023-02-09 | Ebay Inc. | Automatic Synonyms, Abbreviations, and Acronyms Detection |
CN113822049B (zh) * | 2021-09-29 | 2023-08-25 | 平安银行股份有限公司 | 基于人工智能的地址审核方法、装置、设备及存储介质 |
WO2023132029A1 (ja) * | 2022-01-06 | 2023-07-13 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN114880430B (zh) * | 2022-05-10 | 2023-07-18 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
KR20230165010A (ko) * | 2022-05-26 | 2023-12-05 | 주식회사 카카오게임즈 | 닉네임 간 유사도를 이용하여 다중 접속계정을 탐지하기 위한 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040024760A1 (en) * | 2002-07-31 | 2004-02-05 | Phonetic Research Ltd. | System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions |
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
US20130282645A1 (en) * | 2012-04-24 | 2013-10-24 | Raytheon Company | System and method for probabilistic name matching |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812300B2 (en) * | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US7313513B2 (en) | 2002-05-13 | 2007-12-25 | Wordrake Llc | Method for editing and enhancing readability of authored documents |
US8423563B2 (en) * | 2003-10-16 | 2013-04-16 | Sybase, Inc. | System and methodology for name searches |
US20060074883A1 (en) | 2004-10-05 | 2006-04-06 | Microsoft Corporation | Systems, methods, and interfaces for providing personalized search and information access |
US8700568B2 (en) * | 2006-02-17 | 2014-04-15 | Google Inc. | Entity normalization via name normalization |
US9026514B2 (en) * | 2006-10-13 | 2015-05-05 | International Business Machines Corporation | Method, apparatus and article for assigning a similarity measure to names |
WO2008106439A2 (en) * | 2007-02-26 | 2008-09-04 | Basis Technology Corporation | Name indexing for name matching systems |
US20110055234A1 (en) * | 2009-09-02 | 2011-03-03 | Nokia Corporation | Method and apparatus for combining contact lists |
TWI443529B (zh) | 2010-04-01 | 2014-07-01 | Inst Information Industry | 自動化領域名詞建置方法及系統,及其電腦程式產品 |
US9424556B2 (en) * | 2010-10-14 | 2016-08-23 | Nokia Technologies Oy | Method and apparatus for linking multiple contact identifiers of an individual |
US8468167B2 (en) * | 2010-10-25 | 2013-06-18 | Corelogic, Inc. | Automatic data validation and correction |
US8364692B1 (en) * | 2011-08-11 | 2013-01-29 | International Business Machines Corporation | Identifying non-distinct names in a set of names |
US9229926B2 (en) | 2012-12-03 | 2016-01-05 | International Business Machines Corporation | Determining similarity of unfielded names using feature assignments |
CN103167056B (zh) * | 2013-01-31 | 2016-03-02 | 中国科学院计算机网络信息中心 | 一种基于自动审核的域名注册方法 |
CN103970798B (zh) * | 2013-02-04 | 2019-05-28 | 商业对象软件有限公司 | 数据的搜索和匹配 |
US10089302B2 (en) | 2013-02-26 | 2018-10-02 | International Business Machines Corporation | Native-script and cross-script chinese name matching |
CN103177122B (zh) * | 2013-04-15 | 2017-04-26 | 天津理工大学 | 一种基于同义词的个人桌面文件搜索方法 |
CN103425739B (zh) * | 2013-07-09 | 2016-09-14 | 国云科技股份有限公司 | 一种字符串匹配方法 |
US9691075B1 (en) * | 2014-03-14 | 2017-06-27 | Wal-Mart Stores, Inc. | Name comparison |
CN104331475B (zh) * | 2014-11-04 | 2018-03-23 | 郑州悉知信息科技股份有限公司 | 一种信息检测方法及装置 |
US9535903B2 (en) * | 2015-04-13 | 2017-01-03 | International Business Machines Corporation | Scoring unfielded personal names without prior parsing |
CN104765858A (zh) * | 2015-04-21 | 2015-07-08 | 北京航天长峰科技工业集团有限公司上海分公司 | 公安用同义词库的构建方法及获得的公安用同义词库 |
CN104820713B (zh) | 2015-05-19 | 2018-02-27 | 苏州中炎工业科技有限公司 | 一种基于用户历史数据获得工业产品名称同义词的方法 |
CN105843950A (zh) * | 2016-04-12 | 2016-08-10 | 乐视控股(北京)有限公司 | 敏感词过滤方法及装置 |
-
2016
- 2016-11-25 CN CN201611055619.8A patent/CN108108373B/zh active Active
-
2017
- 2017-09-15 TW TW106131720A patent/TWI724237B/zh active
- 2017-11-17 KR KR1020197018218A patent/KR102151367B1/ko active IP Right Grant
- 2017-11-17 AU AU2017364745A patent/AU2017364745C1/en active Active
- 2017-11-17 WO PCT/CN2017/111604 patent/WO2018095281A1/zh unknown
- 2017-11-17 EP EP17874581.6A patent/EP3547164A4/en not_active Ceased
- 2017-11-17 CA CA3044847A patent/CA3044847A1/en active Pending
- 2017-11-17 JP JP2019528581A patent/JP6860668B2/ja active Active
- 2017-11-17 RU RU2019119526A patent/RU2725777C1/ru active
- 2017-11-17 BR BR112019010669-3A patent/BR112019010669B1/pt active IP Right Grant
- 2017-11-17 MX MX2019006027A patent/MX2019006027A/es unknown
-
2019
- 2019-04-29 US US16/397,792 patent/US10726028B2/en active Active
- 2019-05-24 PH PH12019501163A patent/PH12019501163A1/en unknown
- 2019-06-24 ZA ZA2019/04091A patent/ZA201904091B/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040024760A1 (en) * | 2002-07-31 | 2004-02-05 | Phonetic Research Ltd. | System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions |
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
US20130282645A1 (en) * | 2012-04-24 | 2013-10-24 | Raytheon Company | System and method for probabilistic name matching |
Also Published As
Publication number | Publication date |
---|---|
RU2725777C1 (ru) | 2020-07-06 |
KR20190084319A (ko) | 2019-07-16 |
US20190251085A1 (en) | 2019-08-15 |
EP3547164A4 (en) | 2019-10-16 |
CA3044847A1 (en) | 2018-05-31 |
AU2017364745B2 (en) | 2020-04-09 |
PH12019501163B1 (en) | 2020-02-24 |
AU2017364745A1 (en) | 2019-06-20 |
BR112019010669A2 (pt) | 2019-10-01 |
TW201820179A (zh) | 2018-06-01 |
AU2017364745C1 (en) | 2020-09-10 |
JP2020501255A (ja) | 2020-01-16 |
EP3547164A1 (en) | 2019-10-02 |
BR112019010669B1 (pt) | 2021-12-07 |
ZA201904091B (en) | 2021-05-26 |
MX2019006027A (es) | 2019-08-14 |
US10726028B2 (en) | 2020-07-28 |
JP6860668B2 (ja) | 2021-04-21 |
CN108108373B (zh) | 2020-09-25 |
WO2018095281A1 (zh) | 2018-05-31 |
PH12019501163A1 (en) | 2020-02-24 |
CN108108373A (zh) | 2018-06-01 |
KR102151367B1 (ko) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI724237B (zh) | 名稱匹配方法及裝置 | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
TWI685761B (zh) | 詞向量處理方法及裝置 | |
TWI682302B (zh) | 風險地址識別方法、裝置以及電子設備 | |
WO2019154162A1 (zh) | 一种风控规则生成方法和装置 | |
WO2017063538A1 (zh) | 挖掘相关词的方法、搜索方法、搜索系统 | |
JP2020510852A (ja) | 音声機能制御方法および装置 | |
US11436252B2 (en) | Data processing methods, apparatuses, and devices | |
US10970339B2 (en) | Generating a knowledge graph using a search index | |
US9110986B2 (en) | System and method for using a combination of semantic and statistical processing of input strings or other data content | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
US20180157646A1 (en) | Command transformation method and system | |
WO2021143299A1 (zh) | 语义纠错方法、电子设备及存储介质 | |
CN107402945B (zh) | 词库生成方法及装置、短文本检测方法及装置 | |
WO2018057427A1 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
US9633009B2 (en) | Knowledge-rich automatic term disambiguation | |
CN107329964B (zh) | 一种文本处理方法及装置 | |
CN116166814A (zh) | 事件检测方法、装置、设备以及存储介质 | |
Mohamed et al. | ArabRelat: Arabic Relation Extraction using Distant Supervision. | |
Kang | An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia | |
CN117171653B (zh) | 一种识别信息关系的方法、装置、设备及存储介质 | |
EP4075320A1 (en) | A method and device for improving the efficiency of pattern recognition in natural language | |
OA19238A (en) | Name matching method and apparatus. | |
Xu et al. | BIT's Slot-Filling Method for TAC-KBP 2013. | |
CN113761523A (zh) | 一种基于机器学习的文本数据检测方法、装置和设备 |