TWI682302B - 風險地址識別方法、裝置以及電子設備 - Google Patents
風險地址識別方法、裝置以及電子設備 Download PDFInfo
- Publication number
- TWI682302B TWI682302B TW107116561A TW107116561A TWI682302B TW I682302 B TWI682302 B TW I682302B TW 107116561 A TW107116561 A TW 107116561A TW 107116561 A TW107116561 A TW 107116561A TW I682302 B TWI682302 B TW I682302B
- Authority
- TW
- Taiwan
- Prior art keywords
- address
- word
- risk
- address word
- sequence
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Virology (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
Abstract
本說明書實施例公開了一種風險地址識別方法、裝置以及電子設備。風險地址識別方法包括:根據輸入地址獲得對應的地址詞序列後,根據地址詞序列中命中地址詞及其前後語義,利用隱馬爾科夫模型和支持向量機模型對該輸入地址進行風險識別。
Description
本說明書涉及計算機技術領域,尤其涉及一種風險地址識別方法、裝置以及電子設備。
網路金融交易越來越發達,有一些不法人員利用網路金融進行金錢的非法操作,比如,洗錢等交易。為了防止網路金融非法交易的發生,目前已經有一些進行風險地址識別的方案,一般是針對比較規則的風險地址識別的方案。 例如,可以採用分詞算法對輸入地址進行分詞並標注,最後根據不同地址詞的標注資訊逐一進行地址詞匹配,透過匹配結果識別該輸入地址是否為風險地址。 基於現有技術,需要更準確的風險地址識別方案。
本說明書實施例提供一種風險地址識別方法、裝置以及電子設備,用以解決如下技術問題:需要更準確的風險地址識別方案。 為解決上述技術問題,本說明書實施例是這樣實現的: 本說明書實施例提供的一種風險地址識別方法,所述的方法包括: 獲取輸入地址對應的地址詞序列; 在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞; 根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列; 利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率; 透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 本說明書實施例提供的一種風險地址識別裝置,所述的裝置包括: 接收模組,獲取輸入地址對應的地址詞序列; 匹配模組,在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞; 生成模組,根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列; 標注模組,利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率; 識別模組,透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 本說明書實施例提供的一種電子設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通信連接的儲存器;其中, 所述儲存器儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 為獲取輸入地址對應的地址詞序列; 在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞; 根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列; 利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率; 透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果:透過利用基於地址詞前後語義學習得到的隱馬爾科夫模型和支持向量機模型,根據對輸入地址處理後得到的地址詞及其前後語義,獲得輸入地址的分類判定結果,能夠更準確地識別風險地址。
本說明書實施例提供一種風險地址識別方法、裝置以及電子設備。 為了使本技術領域的人員更好地理解本說明書中的技術方案,下面將結合本說明書實施例中的附圖,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本說明書實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。 圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖。該整體架構中,首先輸入地址,透過包含有隱馬爾科夫模型(Hidden Markov Model,HMM)的設備進行處理得到該輸入地址對應的決策向量,然後,透過包含有支持向量機(Support Vector Machine,SVM)的設備對該決策向量進一步處理,最後,確定該輸入地址是否為風險地址。 基於上述整體架構,下面對本說明書的方案進行詳細說明。 本說明書實施例提供了一種風險地址識別方法,圖2為該風險地址識別方法的流程示意圖,圖2中的流程可以包括以下步驟: S102:獲取輸入地址對應的地址詞序列。 所述地址詞序列可以是透過對輸入地址進行處理後得到的。 例如,若輸入地址中包含的干擾字符比較多,可以先對輸入地址進行干擾字符的去除操作,再進一步地得到地址詞序列。若在輸入地址自帶例如空格等詞分隔符的情況下,或者後續步驟中風險地址識別對干擾字符排除的處理能力比較好的情況下,地址詞序列也可以是輸入地址本身。 S104:在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞。 所述各風險地址可以理解為由多個風險地址構成的風險地址庫。 風險詞可以理解為風險地址中包括的存在風險的地址詞。風險地址中可以包含一個或者多個風險詞,這些風險詞可能按照一定規則順序組成,也可能相對獨立。 確定命中的方式比如可以包括:根據地址詞序列中各地址詞,分別與風險地址中各地址詞進行掃描並匹配,確定命中的地址詞(為了便於描述,以下可以將這種地址詞稱為:命中地址詞)。 例如,如果某個地址詞序列包含多個地址詞,其中,該地址序列中的地址詞A與風險地址中包含的風險詞a匹配命中。可以將該地址詞序列表示為1個多維向量,向量每一維分別對應該地址詞序列中的一個地址詞;進而,可以透過掃描的方式,確定該地址詞A在該向量中對應的維,並將該維用1進行標注,以確定該地址詞A命中;對於沒有命中其他地址詞,則用0對對應的維進行標注。 S106:根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列。 生成所述地址詞序列對應的觀察序列的包括多種方式:可以根據所述確定的地址詞及其前後語義,從地址詞序列中獲得所需的各地址詞,根據確定的地址詞與獲得的地址詞生成觀察序列,其中,提取的地址詞可以是連續的地址詞,也可以是符合某種規則的不連續地址詞; 生成地址詞序列對應的觀察序列的方式,也可以首先對地址詞序列進行拆分,得到多個地址詞子序列,然後,再根據所需的地址詞子序列生成觀察序列。 S108:利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率。 前後語義可以是:與當前地址詞前後關聯的地址詞與該當前地址詞的關聯語義,關聯的地址詞的數量可以是兩個或三個;其中,關聯的地址詞可以是該當前地址詞相鄰的地址詞,也可以是與該當前地址詞之間存在間隔詞的地址詞。 具體地,上述當前地址詞可以是步驟S106中所述確定的地址詞。所述地址詞前後語義可以是:所述確定的地址詞的前後相鄰的地址詞作為前後語義,例如,中國北京市朝陽區,其中,北京市的前後語義包含中國和朝陽區;也可以是將地址詞序列中不相鄰的地址詞作為所述確定的地址詞的前後語義。 進一步地,為了簡化處理步驟,觀察序列也可以是地址詞序列或輸入地址本身,在這種情況下,可以直接根據地址詞序列或輸入地址中命中地址詞的標注結果,基於命中地址詞及其前後語義標注命中風險地址的概率。 S110:透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 所述分類判決可以是對決策向量進行二分類判決,比如,可以一類是對應於風險地址的決策向量、另一類是對應於非風險地址的決策向量,進一步地,可以確定該決策向量對應的輸入地址是否為風險地址。 在本說明書實施例中,對於步驟S102,所述獲取輸入地址對應的地址詞序列,具體可以包括: 接收輸入地址;透過對所述輸入地址進行資料清洗處理和分詞處理,得到所述輸入地址對應的地址詞序列。 所述資料清洗處理方式可以包括:去除所述輸入地址中的干擾字符,得到標準化地址字符串;或者對輸入地址中各地址詞的排列順序進行調整。 所述分詞處理方式可以包括:利用空格或分號等特定字符切分所述標準化地址字符串,得到所述輸入地址對應的地址詞序列。 前面已經提到,若輸入地址中包含的干擾字符比較多,可以先對輸入地址進行干擾字符的去除操作,再進一步地得到地址詞序列。 例如,首先,對輸入地址中存在一些干擾字符進行資料清洗,去除干擾字符,所述干擾字符比如可以包括以下至少一個:多餘的空格、半角字符、“|”、“:”、“~”等字符,經過清洗後的輸入地址比如可以是以空格進行分隔的標準化地址字符串;然後,分詞標注:對清洗後地址字符串以空格進行切分,採用基於詞典方式標注地址字符串中出現的輔助詞,如:of,the等,這些輔助詞往往可以不應用於後續地址匹配識別中;最後,經過分詞標注後得到由地址詞構成的地址詞序列。透過對輸入地址進行清洗和分詞處理後,得到地址詞序列,以便於後續對該地址詞序列進行快速、高效、準確的風險地址詞的識別等操作。 前面已經提到,若輸入地址自帶例如空格等詞分隔符的情況下,或者後續步驟中風險地址識別對干擾字符排除的處理能力比較好的情況下,地址詞序列也可以是輸入地址本身,如此可以節省對輸入地址的處理步驟。 在本說明書實施例中,對於步驟S104,所述在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,具體可以包括: 利用各風險地址對應的風險詞,對所述地址詞序列中的各地址詞分別進行匹配; 若存在匹配成功的地址詞,對其進行標注,並確定為命中各風險地址對應的風險詞的地址詞。 所述標注可以是:透過數字或字符對地址詞序列中各地址詞的匹配結果分別對應標注,包括該地址詞序列中匹配後表示命中結果的標注和表示未命中結果的標注,由這些表示標注結果的數字或字符共同組成標注向量。 例如,對地址詞序列或該地址詞序列對應的觀察序列中的各地址詞進行全域掃描、匹配和標注,如果某一個地址詞序列中的第二個地址詞A與風險地址對應的地址詞集合中的地址詞a匹配,則標記該地址詞A為1,否則標記該地址詞A為0,進一步地,得到標注向量,也可以稱為初始標注向量,比如,[0,0,1,0,0,0]。 對地址詞序列中的各地址詞分別進行匹配,具體匹配方式可以包括:對地址詞序列進行風險地址(風險地址資訊包括國家、地區,以及主要的城市)進行全域的掃描和匹配;其中,採用的匹配算法比如可以包括:字符串相似度匹配算法、發音相似匹配算法和編輯距離匹配算法等。 進一步地,所述在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,還包括: 若不存在匹配成功的地址詞,確定所述輸入地址不為風險地址。 如果在某個地址詞序列中各地址詞與風險地址中的風險詞不匹配,那麼,可以認為該地址詞序列不包含風險詞,對應的所述輸入地址不是風險地址的概率較大,則可以結束對該輸入地址的進一步的操作。 在本說明書實施例中,對於步驟S106,所述根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列,具體可以包括: 分別針對所述確定的地址詞,執行:根據該地址詞以及該地址詞在所述地址詞序列中的關聯詞,生成所述地址詞序列對應的觀察序列,其中,所述關聯詞反映該地址詞在所述地址詞序列中的前後語義。 如果地址詞序列中包含多個所述確定的地址詞,可以生成對應的多個觀察序列,也可以透過選擇生成其中一個所述確定的地址詞對應的觀察序列。關聯詞可以理解為前後詞語之間存在某種的邏輯關係或特定的關聯關係的詞語,也可以是人為定義使前後詞語產生關聯關係的詞語。一般地,關聯詞是相鄰的,比如可以是與當前詞相鄰的前兩個以及後兩個詞。 在本說明書實施例中,可以預先利用基於地址詞前後語義學習得到隱馬爾科夫模型。 本說明書實施例提供了一種隱馬爾科夫模型建模方法,圖3為該建模方法的流程示意圖,圖3中的流程可以包括以下步驟: S202:根據預定義的訓練樣本,提取初始參數,並根據所述初始參數建立包含隱馬爾科夫模型參數的初始模型,其中,所述訓練樣本為風險地址或者非風險地址; S204:根據所述訓練樣本中包含的地址詞以及所述地址詞的前後語義,生成所述訓練樣本對應的觀察序列; S206:根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。 訓練樣本包括正樣本和負樣本,風險地址可以屬於正樣本,非風險地址可以屬於負樣本,透過利用正負樣本對隱馬爾科夫模型進行訓練,可以獲得更好的訓練效果。 例如,在一種實施方式下,負樣本可以是以全球非制裁國家或地區的235個國家的地址,正樣本可以是以所有制裁國家以及地區的地址資料。需要說明的是,一般地,風險地址中包含有風險詞,當然,非風險地址中也可能包含風險詞。 步驟S204中的地址詞可以理解為是訓練樣本中的與風險地址對應的風險詞匹配的地址詞。在預定義的樣本地址中,已經預先標注了該樣本地址是否包含風險詞,以及哪個地址詞是風險詞,這裡所述樣本地址是訓練樣本中包含的訓練樣本地址。 進一步地,根據樣本地址中已經標注的地址詞及其前後語義,提取所需的觀察序列,一般地,選取該標注的地址詞的前後關聯的2個或3個詞作為該地址詞的前後語義,共同組成觀察序列。 進一步地,根據獲得的初始標注模型和觀察序列,對隱馬爾科夫模型參數進行訓練,直到得到合適的隱馬爾科夫模型參數,再根據訓練得到的隱馬爾科夫模型參數,確定所需的隱馬爾科夫模型。 在圖3的隱馬爾科夫模型建模方法中,訓練樣本地址的數量規模將直接影響訓練結果的好壞。當訓練樣本地址所用的地址庫更全面、覆蓋面更廣泛時,有利於使該模型時的識別的準確率提高,因此,在擁有足夠多的訓練樣本地址的情況下,該方法可以取得很好的建模效果。 其中,所述初始參數包括:初始概率向量、狀態轉移矩陣等; 所述根據預定義的訓練樣本,提取初始參數,具體可以包括: 基於所述訓練樣本,透過對所述訓練樣本包含的地址詞分別進行概率標注,得到初始概率向量;根據所述訓練樣本包含的所述地址詞在風險詞與非風險詞之間狀態轉移概率,獲得所述樣本地址的狀態轉移矩陣。其中,風險詞是風險地址中包含的地址詞,非風險詞是非風險地址中包含的地址詞,有一些地址詞既可以是風險詞,也可以是非風險詞。 所述訓練樣本可以有多個,一般地,每個訓練樣本可以是一個樣本地址,進行概率標注時,從該集合當中選取一個樣本地址作為訓練樣本;例如,對某個樣本地址中的地址詞進行概率標注後,該樣本地址中的第二個地址詞為命中地址詞,得到初始概率向量=[0,1,0,0,0,0],其中,1代表命中的地址詞,0代表沒有命中的地址詞。 進一步地,根據所述訓練樣本包含的所述地址詞在風險詞與非風險詞之間狀態轉移概率,獲得所述樣本地址的狀態轉移矩陣。在本說明書一個或多個實施例中,狀態轉移概率是指地址詞由風險地址與非風險地址的兩個隱狀態之間可能發生狀態轉移的概率。 在本說明書實施例中,所述根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型,具體可以包括: 根據所述初始模型,以及所述訓練樣本對應的觀察序列,利用Baum-Welch算法對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。 此外,還可以獲取其他用於訓練隱馬爾科夫模型參數的其他資料,例如,,序列是包含命中風險國家/地區詞的地址詞序列,是待標注地址詞。一般地,可以取;根據待標注的前後3個詞的上下文得到觀察序列;地址詞序列對應的標記向量,即表示地址詞序列中各地址詞命中風險地址的概率,再由各地址詞命中概率組成該標記向量,該標記向量可以理解為所述初始標注向量;表示地址詞序列和其命中標記正確的概率,用於選取所需的隱馬爾科夫模型參數; 然後,根據上述參數訓練所述隱馬爾科夫模型參數,獲得隱馬爾科夫模型。 進一步地,定義模型目標函數為:,以便於獲取所需的決策向量; 在本說明書實施例中,對於步驟S108,所述利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,具體可以包括: 利用基於地址詞前後語義學習得到的隱馬爾科夫模型和Viterbi算法,對所述觀察序列進行處理,得到決策向量; 所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率。此外,決策向量還可以表示所述地址詞序列對應的觀察序列中包含的各地址詞命中所述風險地址的概率,對於觀察序列中未包含的地址詞,可以直接標注為0。 例如,一個地址詞序列[A,B,C,D,E,F],其對應的觀察序列[B,C,D],則得到的決策向量可能表示為[0,0.5,1,0.3,0,0]。 在本說明書實施例中,對於步驟S110,所述對所述決策向量進行分類判決,具體可以包括: 利用訓練得到的SVM模型,對所述決策向量進行分類判決。 一般地,透過隱馬爾科夫模型計算得到的決策向量,然後對該決策向量進行二分類判決或更多分類的判決;以下主要以採用二分類判決為例進行說明。 在本說明書實施例中,提供一種支持向量機模型建模方法,圖4為該支持向量機模型建模的方法的流程示意圖,圖4中的流程可以包括以下步驟: S302:獲取支持向量機的訓練樣本。 S304:將所述支持向量機的訓練樣本映射到高維特徵空間,得到所述支持向量機的訓練樣本對應的樣本特徵空間。 S306:從所述樣本特徵空間中獲取代表所述樣本特徵的參數,根據所述樣本特徵的參數建立用於判斷所述樣本特徵的類別的判別函數。 S308:基於所述支持向量機的訓練樣本訓練判別函數中對應的SVM模型參數,得到SVM模型。 該支持向量機的訓練樣本可以是透過上述隱馬爾科夫模型對樣本地址進行訓練得到該訓練樣本對應的決策向量,也可以是其他表徵輸入地址特徵的待判別的資料。 具體地,SVM可以透過選擇多次方的多項式核函數,將決策向量地址映射到高維特徵空間,表達式如下:利用SVM在樣本地址的高維特徵空間中找出各類別樣本特徵與其他特徵的最優分類超平面,得到代表各樣本特徵的支持向量集及其相應的VC可信度,形成判斷各特徵類別的判別函數:基於大量地址資料,比如全球地址庫資料訓練得到SVM模型參數,實現對支持向量機模型的進一步的優化。 透過基於語義識別的地址匹配的學習,根據各地址詞及其前後語義的匹配結果,獲得風險地址的分類判定結果,可以有效的識別風險地址或偽造的風險地址,可以避免錯誤的判定無風險的地址。 基於同樣的思路,本說明書實施例還提供了一種風險地址識別裝置,圖5為本說明書實施例提供的對應於圖2的一種風險地址識別裝置的結構示意圖,如圖5所示結構,具體可以包括: 接收模組101,獲取輸入地址對應的地址詞序列; 匹配模組102,在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞; 生成模組103,根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列; 標注模組104,利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率; 識別模組105,透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 透過利用基於地址詞前後語義學習得到的隱馬爾科夫模型和支持向量機模型,根據對輸入地址處理後得到的地址詞及其前後語義,獲得輸入地址的分類判定結果,可以有效的識別風險地址或偽造的風險地址,可以避免錯誤的判定無風險的地址,因此,可以部分或全部地解決現有技術中的問題。 進一步地,所述接收模組101,獲取輸入地址對應的地址詞序列,具體可以包括: 所述接收模組101,接收輸入地址;以及,透過對所述輸入地址進行資料清洗處理和分詞處理,得到所述輸入地址對應的地址詞序列。透過對輸入地址的進一步清洗處理和分詞處理,得到標準化的地址詞序列,以便於後續步驟中對地址詞序列的標注操作,可以提升對地址詞序列中確定的地址詞進行概率標注的工作效率。 進一步地,所述匹配模組102,所在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,具體可以包括: 匹配模組120利用各風險地址對應的風險詞,對所述地址詞序列中的各地址詞分別進行匹配; 若存在匹配成功的所述地址詞,對其進行標注,並確定為命中各風險地址對應的風險詞的地址詞。 進一步地,所述匹配模組102,在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,還包括: 若不存在匹配成功的地址詞,確定所述輸入地址不為風險地址。 透過該匹配模組102對地址詞進行標注,可以對風險的輸入地址和無風險的輸入地址進行快速前置過濾,可以提升風險地址識別的工作效率。 進一步地,所述生成模組103,根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列,具體可以包括: 分別針對所述確定的地址詞,執行:根據該地址詞以及該地址詞在所述地址詞序列中的關聯詞,生成所述地址詞序列對應的觀察序列,其中,所述關聯詞反映該地址詞在所述地址詞序列中的前後語義。其中,前後語義是指與命中地址詞前後關聯的多個地址詞,關聯的地址詞的數量可以是兩個或三個;其中,關聯的地址詞可以是連續關聯的地址詞,也可以是間隔關聯的地址詞。 進一步地,基於地址詞前後語義學習得到的隱馬爾科夫模型包括: 根據預定義的訓練樣本,提取初始參數,並根據所述初始參數建立包含隱馬爾科夫模型參數的初始模型,其中,所述訓練樣本為風險地址或者非風險地址; 根據所述訓練樣本中包含的地址詞以及所述地址詞的前後語義,生成所述訓練樣本對應的觀察序列; 根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。 該隱馬爾科夫模型,採用由命中的風險詞和該風險詞的前後語義組成的觀察序列對隱馬爾科夫模型參數進行訓練,得到所需的隱馬爾科夫模型(HMM),可以提升隱馬爾科夫模型對輸入地址風險識別的準確效果。 進一步地,所述初始參數包括:初始概率向量、狀態轉移矩陣; 所述根據預定義的訓練樣本,提取初始參數,具體可以包括: 基於多個所述訓練樣本,透過分別對所述訓練樣本包含的地址詞進行概率標注,得到初始概率向量;根據所述訓練樣本包含的所述地址詞在風險詞與非風險詞之間狀態轉移概率,獲得所述樣本地址的狀態轉移矩陣。其中,風險詞是風險地址中包含的地址詞,非風險詞是非風險地址中包含的地址詞,有一些地址詞既可以是風險詞,也可以是非風險詞。 進一步地,所述根據所述初始模型,以及所述訓練樣本對應的觀察序列,對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型,具體可以包括: 根據所述初始模型,以及所述訓練樣本對應的觀察序列,利用Baum-Welch算法對所述隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。 需要說明的是,在本隱馬爾科夫模型建模時,訓練樣本地址的數量規模將直接影響訓練結果的好壞。當訓練樣本地址所用的全球地址庫更全面、覆蓋面更廣泛時,使用該模型時的識別率將大大的提高,因此在擁有足夠多的訓練樣本地址的情況下,可以取得很好的建模效果 進一步地,所述標注模組104,利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,具體可以包括: 利用基於地址詞前後語義學習得到的隱馬爾科夫模型和Viterbi算法,對所述觀察序列進行處理,得到決策向量。所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率。 進一步地,所述識別模組105,對所述決策向量進行分類判決,具體可以包括: 利用訓練得到的支持向量機(SVM)模型,對所述決策向量進行分類判決。 進一步地,訓練得到的支持向量機模型包括: 獲取支持向量機的訓練樣本; 將所述支持向量機的訓練樣本映射到高維特徵空間,得到所述支持向量機的訓練樣本對應的樣本特徵空間; 從所述樣本特徵空間中獲取代表所述樣本特徵的參數,根據所述樣本特徵的參數建立用於判斷所述樣本特徵的類別的判別函數; 基於所述SVM的訓練樣本訓練判別函數中對應的SVM模型參數,得到SVM模型。 該訓練樣本可以理解為上述實施例中的所述決策向量,也可以是其他表徵輸入地址特徵的待判別的資料。 一般地,透過隱馬爾科夫模型計算得到的決策向量,需要利用SVM將決策向量映射到高維特徵空間後進行二分類判決。當然,如果一些易處理的決策向量,可以不映射到高維特徵空間就能進行分類判決,例如,可以採用線性分類判決,可以降低計算難度,提升處理速度。 基於同樣的思路,本說明書實施例還提供了一種電子設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通信連接的儲存器;其中, 所述儲存器儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 為獲取輸入地址對應的地址詞序列; 在所述地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞; 根據所述確定的地址詞,生成所述地址詞序列對應的觀察序列; 利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對所述觀察序列進行處理,得到決策向量,所述決策向量表示所述地址詞序列包含的各地址詞命中所述風險地址的概率; 透過對所述決策向量進行分類判決,識別所述輸入地址是否為風險地址。 為了更好的說明本說明書一個或多個實施例的發明構思,下面具體列舉兩個實施例: 圖6為本說明書實施例提供的一種風險地址識別為無風險地址的流程示意圖,具體可以包括: 首先,輸入地址為文本為:REPUBLICA DE SIRIA 7495 SANTA FE Santa Fe AR; 然後,全域掃描標注輸入地址命中制裁地址(國家或城市)詞:SIRIA,並得到輸入地址的初始標注向量[0,0,1,0,0,0,0,0,0];這裡所述初始標注向量可以理解為所述初始概率向量; 進一步地,經過隱馬爾科夫標注模型得到決策向量為[0.01,0.02,0.02,0.02,0.01,0,0,0,0]; 最後由SVM分類模型判決為:輸入地址未命中制裁地址;這裡所述制裁地址可以理解為所述風險地址。 圖7為本說明書實施例提供的一種風險地址識別為風險地址的流程示意圖,具體可以包括: 首先,輸入地址為文本為: Rostovskaya, 31a, Simferopol 5 Other RU; 然後,全域掃描標注輸入地址命中制裁地址(國家或城市)詞:Simferopol,並得到輸入地址的初始標注向量[0,0,1,0,0,0]; 進一步地,經過隱馬爾科夫標注模型得到決策向量為[0.9,0.9,0.9,0.9,0.5,0.1]; 最後,由SVM分類模型判決為:輸入地址命中制裁地址; 這裡所述制裁地址可以理解為上述的風險地址。 圖8為本說明書實施例提供的風險地址識別的建模和識別的流程示意圖,具體可以包括: 在進行風險地址識別模型的建模時,進行參數訓練,首先,獲取訓練地址語料,可以理解為所述樣本地址; 然後,對訓練地址語料進行清洗和分隔為標準化的地址字符串,可以理解為所述地址詞序列; 再對輸入的訓練地址語料進行全域是掃描、匹配、標注,初始標注模型和初始參數。 進一步地,根據初始標注模型,對隱馬爾科夫模型參數進行訓練,得到所需的隱馬爾科夫模型。更進一步地,根據透過隱馬爾科夫模型輸出的決策向量,對SVM的參數進行訓練,最終得到所需的SVM模型。 在進行風險地址掃描識別時,首先,由用戶輸入地址;然後,對輸入地址進行標準化處理和全域的風險地址掃描、標注,得到標注後的地址詞序列,進一步地,基於風險詞及其前後語義得到觀察序列。 再進一步地,透過隱馬爾科夫模型對所述地址詞序列(觀察序列)進行風險概率計算和標注,生成決策向量。 最後,SVM根據決策向量進行二分類判決,確定該輸入地址是否為風險地址。 透過基於風險地址詞及其前後語義,對該輸入地址利用隱馬爾科夫模型和支持向量機進行判斷和識別,可以有效的提高識別的準確效果。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置、電子設備、非揮發性計算機儲存媒體實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 本說明書實施例提供的裝置、電子設備、非揮發性計算機儲存媒體與方法是對應的,因此,裝置、電子設備、非揮發性計算機儲存媒體也具有與對應方法類似的有益技術效果,由於上面已經對方法的有益技術效果進行了詳細說明,因此,這裡不再贅述對應裝置、電子設備、非揮發性計算機儲存媒體的有益技術效果。 在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可編程邏輯裝置(Programmable Logic Device, PLD)(例如現場可編程門陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對裝置編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。 控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的計算機可讀程式代碼(例如軟體或韌體)的計算機可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。本領域技術人員也知道,除了以純計算機可讀程式代碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。 上述實施例闡明的系統、裝置、模組或單元,具體可以由計算機晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為計算機。具體的,計算機例如可以為個人計算機、膝上型計算機、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板計算機、可穿戴設備或者這些設備中的任何設備的組合。 為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本說明書一個或多個實施例時可以把各單元的功能在同一個或多個軟體及/或硬體中實現。 本領域內的技術人員應明白,本說明書實施例可提供為方法、系統、或計算機程式產品。因此,本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體態樣的實施例的形式。而且,本說明書實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。 本說明書是參照根據本說明書實施例的方法、設備(系統)、和計算機程式產品的流程圖及/或方框圖來描述的。應理解可由計算機程式指令實現流程圖及/或方框圖中的每一流程及/或方框、以及流程圖及/或方框圖中的流程及/或方框的結合。可提供這些計算機程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得透過計算機或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的裝置。 這些計算機程式指令也可儲存在能引導計算機或其他可編程資料處理設備以特定方式工作的計算機可讀儲存器中,使得儲存在該計算機可讀儲存器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能。 這些計算機程式指令也可裝載到計算機或其他可編程資料處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的步驟。 在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內存記憶體。 內存記憶體可能包括計算機可讀媒體中的非永久性儲存器,隨機存取記憶體(RAM)及/或非揮發性內存記憶體等形式,如只讀儲存器(ROM)或快閃內存記憶體(flash RAM)。內存記憶體是計算機可讀媒體的示例。 計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是計算機可讀指令、資料結構、程式的模組或其他資料。計算機的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內存記憶體技術、唯讀光碟唯讀儲存器(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,計算機可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。 還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。 本說明書可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分布式計算環境中實踐說明書,在這些分布式計算環境中,由透過通信網路而被連接的遠程處理設備來執行任務。在分布式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠程計算機儲存媒體中。 本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 以上所述僅為本說明書實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求範圍之內。
101‧‧‧接收模組102‧‧‧匹配模組103‧‧‧生成模組104‧‧‧標注模組105‧‧‧識別模組
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。 圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖; 圖2為本說明書實施例提供的一種風險地址識別方法的流程示意圖; 圖3為本說明書實施例提供的一種隱馬爾科夫模型建模方法的流程示意圖; 圖4為本說明書實施例提供的一種支持向量機模型建模方法的流程示意圖; 圖5為本說明書實施例提供的一種風險地址識別裝置的結構示意圖; 圖6為本說明書實施例提供的一種風險地址識別為地址無風險的流程示意圖; 圖7為本說明書實施例提供的一種風險地址識別為地址有風險的流程示意圖; 圖8為本說明書實施例提供的風險地址識別的建模和識別的流程示意圖。
Claims (23)
- 一種風險地址識別方法,該方法由計算設備進行,該計算設備包括一個或多個處理器、輸入/輸出介面、網路介面和內存記憶體,當由該處理器執行儲存在該內存記憶體中的指令時,進行所述的方法,包括:獲取輸入地址對應的地址詞序列;在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞;根據該確定的地址詞,生成該地址詞序列對應的觀察序列;利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對該觀察序列進行處理,得到決策向量,該決策向量表示該地址詞序列包含的各地址詞命中該風險地址的概率,其中該前後語義為與當前地址詞前後關聯的地址詞與該當前地址詞的關聯語義;透過對該決策向量進行分類判決,識別該輸入地址是否為風險地址。
- 如申請專利範圍第1項所述的方法,該獲取輸入地址對應的地址詞序列,具體包括:接收輸入地址;透過對該輸入地址進行資料清洗處理和分詞處理,得到該輸入地址對應的地址詞序列。
- 如申請專利範圍第1項所述的方法,所述在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,具體包括:利用各風險地址對應的風險詞,對該地址詞序列中的各地址詞分別進行匹配;若存在匹配成功的該地址詞,對其進行標注,並確定為命中各風險地址對應的風險詞的地址詞。
- 如申請專利範圍第3項所述的方法,所述在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,還包括:若不存在匹配成功的地址詞,確定該輸入地址不為風險地址。
- 如申請專利範圍第3項所述的方法,所述根據該確定的地址詞,生成該地址詞序列對應的觀察序列,具體包括:分別針對該確定的地址詞,執行:根據該地址詞以及該地址詞在該地址詞序列中的關聯詞,生成該地址詞序列對應的觀察序列,其中,該關聯詞反映該地址詞在該地址詞序列中的前後語義。
- 如申請專利範圍第1項所述的方法,基於地址詞前後 語義學習得到隱馬爾科夫模型包括:根據預定義的訓練樣本,提取初始參數,並根據該初始參數建立包含隱馬爾科夫模型參數的初始模型,其中,該訓練樣本為風險地址或者非風險地址;根據該訓練樣本中包含的地址詞以及該地址詞的前後語義,生成該訓練樣本對應的觀察序列;根據該初始模型,以及該訓練樣本對應的觀察序列,對該隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。
- 如申請專利範圍第6項所述的方法,該初始參數包括:初始概率向量、狀態轉移矩陣;該根據預定義的訓練樣本,提取初始參數,具體包括:基於預定義的多個訓練樣本,透過對該訓練樣本包含的地址詞分別進行概率標注,得到初始概率向量;根據該訓練樣本包含的該地址詞在風險詞與非風險詞之間狀態轉移概率,獲得該樣本地址的狀態轉移矩陣。
- 如申請專利範圍第6項所述的方法,所述根據該初始模型,以及該訓練樣本對應的觀察序列,對該隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型,具體包括:根據該初始模型,以及該訓練樣本對應的觀察序列,利用Baum-Welch算法對該隱馬爾科夫模型參數進行訓 練,得到隱馬爾科夫模型。
- 如申請專利範圍第1項所述的方法,該利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對該觀察序列進行處理,得到決策向量,具體包括:利用基於地址詞前後語義學習得到的隱馬爾科夫模型和Viterbi算法,對該觀察序列進行處理,得到決策向量。
- 如申請專利範圍第1項所述的方法,所述對該決策向量進行分類判決,具體包括:利用訓練得到的支持向量機SVM模型,對該決策向量進行分類判決。
- 如申請專利範圍第10項所述的方法,訓練得到支持向量機模型包括:獲取支持向量機的訓練樣本;將該支持向量機的訓練樣本映射到高維特徵空間,得到該支持向量機的訓練樣本對應的樣本特徵空間;從該樣本特徵空間中獲取代表該樣本特徵的參數,根據該樣本特徵的參數建立用於判斷該樣本特徵的類別的判別函數;基於該支持向量機的訓練樣本訓練該判別函數中對應的SVM模型參數,得到SVM模型。
- 一種風險地址識別裝置,該的裝置包括:接收模組,獲取輸入地址對應的地址詞序列;匹配模組,在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞;生成模組,根據該確定的地址詞,生成該地址詞序列對應的觀察序列;標注模組,利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對該觀察序列進行處理,得到決策向量,該決策向量表示該地址詞序列包含的各地址詞命中該風險地址的概率,其中該前後語義為與當前地址詞前後關聯的地址詞與該當前地址詞的關聯語義;識別模組,透過對該決策向量進行分類判決,識別該輸入地址是否為風險地址。
- 如申請專利範圍第12項所述的裝置,該接收模組,獲取輸入地址對應的地址詞序列,具體包括:該接收模組,接收輸入地址;以及,透過對該輸入地址進行資料清洗處理和分詞處理,得到該輸入地址對應的地址詞序列。
- 如申請專利範圍第12項所述的裝置,該匹配模組,在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,具體包括:利用各風險地址對應的風險詞,對該地址詞序列中的 各地址詞分別進行匹配;若存在匹配成功的該地址詞,對其進行標注,並確定為命中各風險地址對應的風險詞的地址詞。
- 如申請專利範圍第14項所述的裝置,該匹配模組,在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞,還包括:若不存在匹配成功的地址詞,確定該輸入地址不為風險地址。
- 如申請專利範圍第14項所述的裝置,該生成模組,根據該確定的地址詞,生成該地址詞序列對應的觀察序列,具體包括:分別針對該確定的地址詞,執行:根據該地址詞以及該地址詞在該地址詞序列中的關聯詞,生成該地址詞序列對應的觀察序列,其中,該關聯詞反映該地址詞在該地址詞序列中的前後語義。
- 如申請專利範圍第12項所述的裝置,基於地址詞前後語義學習得到的隱馬爾科夫模型包括:根據預定義的訓練樣本,提取初始參數,並根據該初始參數建立包含隱馬爾科夫模型參數的初始模型,其中,該訓練樣本為風險地址或者非風險地址;根據該訓練樣本中包含的地址詞以及該地址詞的前後 語義,生成該訓練樣本對應的觀察序列;根據該初始模型,以及該訓練樣本對應的觀察序列,對該隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。
- 如申請專利範圍第17項所述的裝置,該初始參數包括:初始概率向量、狀態轉移矩陣;該根據預定義的訓練樣本,提取初始參數,具體包括:基於預定義的多個該訓練樣本,透過分別對該訓練樣本包含的地址詞進行概率標注,得到初始概率向量;根據該訓練樣本包含的該地址詞在風險詞與非風險詞之間狀態轉移概率,獲得該樣本地址的狀態轉移矩陣。
- 如申請專利範圍第17項所述的裝置,所述根據該初始模型,以及該訓練樣本對應的觀察序列,對該隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型,具體包括:根據該初始模型,以及該訓練樣本對應的觀察序列,利用Baum-Welch算法對該隱馬爾科夫模型參數進行訓練,得到隱馬爾科夫模型。
- 如申請專利範圍第12項所述的裝置,該標注模組,利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對該觀察序列進行處理,得到決策向量,具體包括: 利用基於地址詞前後語義學習得到的隱馬爾科夫模型和Viterbi算法,對該觀察序列進行處理,得到決策向量。
- 如申請專利範圍第12項所述的裝置,該識別模組,對該決策向量進行分類判決,具體包括:利用訓練得到的支持向量機SVM模型,對該決策向量進行分類判決。
- 如申請專利範圍第21項所述的裝置,訓練得到支持向量機模型包括:獲取支持向量機的訓練樣本;將該支持向量機的訓練樣本映射到高維特徵空間,得到該支持向量機的訓練樣本對應的樣本特徵空間;從該樣本特徵空間中獲取代表該樣本特徵的參數,根據該樣本特徵的參數建立用於判斷該樣本特徵的類別的判別函數;基於該支持向量機的訓練樣本訓練判別函數中對應的SVM模型參數,得到SVM模型。
- 一種用於風險地址識別的電子設備,包括:至少一個處理器;以及,與該至少一個處理器通信連接的儲存器;其中,該儲存器儲存有可被該至少一個處理器執行的指令,該指令被該至少一個處理器執行,以使該至少一個處理器 能夠:為獲取輸入地址對應的地址詞序列;在該地址詞序列包含的各地址詞中,確定命中各風險地址對應的風險詞的地址詞;根據該確定的地址詞,生成該地址詞序列對應的觀察序列;利用基於地址詞前後語義學習得到的隱馬爾科夫模型,對該觀察序列進行處理,得到決策向量,該決策向量表示該地址詞序列包含的各地址詞命中該風險地址的概率,其中該前後語義為與當前地址詞前後關聯的地址詞與該當前地址詞的關聯語義;透過對該決策向量進行分類判決,識別該輸入地址是否為風險地址。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201710543805.4 | 2017-07-05 | ||
CN201710543805.4 | 2017-07-05 | ||
CN201710543805.4A CN107526967B (zh) | 2017-07-05 | 2017-07-05 | 一种风险地址识别方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201907325A TW201907325A (zh) | 2019-02-16 |
TWI682302B true TWI682302B (zh) | 2020-01-11 |
Family
ID=60748842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107116561A TWI682302B (zh) | 2017-07-05 | 2018-05-16 | 風險地址識別方法、裝置以及電子設備 |
Country Status (10)
Country | Link |
---|---|
US (2) | US10762296B2 (zh) |
EP (1) | EP3637295B1 (zh) |
JP (1) | JP6894058B2 (zh) |
KR (1) | KR102244417B1 (zh) |
CN (1) | CN107526967B (zh) |
MY (1) | MY201873A (zh) |
PH (1) | PH12019501823A1 (zh) |
SG (1) | SG11201907079QA (zh) |
TW (1) | TWI682302B (zh) |
WO (1) | WO2019007288A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423883B (zh) * | 2017-06-15 | 2020-04-07 | 创新先进技术有限公司 | 待处理业务的风险识别方法及装置、电子设备 |
CN107526967B (zh) * | 2017-07-05 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种风险地址识别方法、装置以及电子设备 |
CN108920457B (zh) * | 2018-06-15 | 2022-01-04 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN108876545A (zh) * | 2018-06-22 | 2018-11-23 | 北京小米移动软件有限公司 | 订单识别方法、装置和可读存储介质 |
CN109102303B (zh) * | 2018-06-28 | 2021-06-08 | 招联消费金融有限公司 | 风险检测方法和相关装置 |
CN114119137B (zh) * | 2018-06-29 | 2024-06-28 | 创新先进技术有限公司 | 风险控制方法和装置 |
CN112598321B (zh) * | 2018-07-10 | 2024-07-02 | 创新先进技术有限公司 | 一种风险防控方法、系统及终端设备 |
CN109598000B (zh) * | 2018-12-28 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
CN111488334B (zh) * | 2019-01-29 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 数据处理方法及电子设备 |
CN110322252B (zh) * | 2019-05-30 | 2023-07-04 | 创新先进技术有限公司 | 风险主体识别方法以及装置 |
CN110335115A (zh) * | 2019-07-01 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种业务订单处理方法及装置 |
CN110348730A (zh) * | 2019-07-04 | 2019-10-18 | 创新奇智(南京)科技有限公司 | 风险用户判断方法及其系统、电子设备 |
CN112579713B (zh) * | 2019-09-29 | 2023-11-21 | 中国移动通信集团辽宁有限公司 | 地址识别方法、装置、计算设备及计算机存储介质 |
US11132512B2 (en) * | 2019-11-08 | 2021-09-28 | International Business Machines Corporation | Multi-perspective, multi-task neural network model for matching text to program code |
CN112988989B (zh) * | 2019-12-18 | 2022-08-12 | 中国移动通信集团四川有限公司 | 一种地名地址匹配方法及服务器 |
CN113111232B (zh) * | 2020-02-13 | 2024-09-06 | 北京明亿科技有限公司 | 基于正则表达式的接处警文本地址提取方法和装置 |
CN111738358B (zh) * | 2020-07-24 | 2020-12-08 | 支付宝(杭州)信息技术有限公司 | 一种数据识别方法、装置、设备和可读介质 |
CN112818667B (zh) * | 2021-01-29 | 2024-07-02 | 上海寻梦信息技术有限公司 | 地址纠正方法、系统、设备及存储介质 |
CN113343670B (zh) * | 2021-05-26 | 2023-07-28 | 武汉大学 | 基于隐马尔可夫与分类算法耦合的地址文本要素提取方法 |
CN114528908B (zh) * | 2021-12-31 | 2024-09-06 | 安徽航天信息有限公司 | 网络请求数据分类模型训练方法、分类方法及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150370A1 (en) * | 2006-05-04 | 2009-06-11 | Jpmorgan Chase Bank, N.A. | System and Method For Restricted Party Screening and Resolution Services |
US7590707B2 (en) * | 2006-08-07 | 2009-09-15 | Webroot Software, Inc. | Method and system for identifying network addresses associated with suspect network destinations |
CN103220302A (zh) * | 2013-05-07 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 恶意网址的访问防御方法和相关装置 |
TWI461952B (zh) * | 2012-12-26 | 2014-11-21 | Univ Nat Taiwan Science Tech | 惡意程式偵測方法與系統 |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
CN104933443A (zh) * | 2015-06-26 | 2015-09-23 | 北京途美科技有限公司 | 一种敏感数据自动识别与分类的方法 |
CN105447204A (zh) * | 2016-01-04 | 2016-03-30 | 北京百度网讯科技有限公司 | 网址识别方法和装置 |
CN105574146A (zh) * | 2015-12-15 | 2016-05-11 | 北京奇虎科技有限公司 | 网址拦截方法及装置 |
US20160299883A1 (en) * | 2015-04-10 | 2016-10-13 | Facebook, Inc. | Spell correction with hidden markov models on online social networks |
CN106296195A (zh) * | 2015-05-29 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种风险识别方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812300B2 (en) * | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
JP4545540B2 (ja) * | 2004-10-01 | 2010-09-15 | 三菱電機株式会社 | アクセス防止装置 |
JP4639784B2 (ja) * | 2004-12-06 | 2011-02-23 | ソニー株式会社 | 学習装置および学習方法、並びにプログラム |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US7668921B2 (en) * | 2006-05-30 | 2010-02-23 | Xerox Corporation | Method and system for phishing detection |
JPWO2008004663A1 (ja) * | 2006-07-07 | 2009-12-10 | 日本電気株式会社 | 言語モデル更新装置、言語モデル更新方法、および言語モデル更新用プログラム |
US7984500B1 (en) * | 2006-10-05 | 2011-07-19 | Amazon Technologies, Inc. | Detecting fraudulent activity by analysis of information requests |
KR100897553B1 (ko) * | 2007-01-04 | 2009-05-15 | 삼성전자주식회사 | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 |
US8805861B2 (en) * | 2008-12-09 | 2014-08-12 | Google Inc. | Methods and systems to train models to extract and integrate information from data sources |
CN101923618B (zh) * | 2010-08-19 | 2011-12-21 | 中国航天科技集团公司第七一0研究所 | 一种基于隐马尔可夫模型的汇编指令级漏洞检测方法 |
US8468167B2 (en) * | 2010-10-25 | 2013-06-18 | Corelogic, Inc. | Automatic data validation and correction |
CN102339320B (zh) * | 2011-11-04 | 2013-08-28 | 华为数字技术(成都)有限公司 | 恶意网页的识别方法以及识别装置 |
US9275339B2 (en) * | 2012-04-24 | 2016-03-01 | Raytheon Company | System and method for probabilistic name matching |
CN103810425B (zh) * | 2012-11-13 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 恶意网址的检测方法及装置 |
US9178901B2 (en) * | 2013-03-26 | 2015-11-03 | Microsoft Technology Licensing, Llc | Malicious uniform resource locator detection |
CN103530562A (zh) * | 2013-10-23 | 2014-01-22 | 腾讯科技(深圳)有限公司 | 一种恶意网站的识别方法和装置 |
CN104217160B (zh) * | 2014-09-19 | 2017-11-28 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
CN106157700B (zh) * | 2015-01-07 | 2018-10-09 | 江苏理工学院 | 基于4d航迹运行的空中交通管制方法 |
CN106682502B (zh) * | 2016-12-13 | 2019-07-19 | 重庆邮电大学 | 基于隐马尔可夫和概率推断的入侵意图识别系统及方法 |
CN107526967B (zh) * | 2017-07-05 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种风险地址识别方法、装置以及电子设备 |
-
2017
- 2017-07-05 CN CN201710543805.4A patent/CN107526967B/zh active Active
-
2018
- 2018-05-16 TW TW107116561A patent/TWI682302B/zh active
- 2018-06-29 MY MYPI2019004454A patent/MY201873A/en unknown
- 2018-06-29 KR KR1020197023966A patent/KR102244417B1/ko active IP Right Grant
- 2018-06-29 EP EP18827964.0A patent/EP3637295B1/en active Active
- 2018-06-29 SG SG11201907079QA patent/SG11201907079QA/en unknown
- 2018-06-29 JP JP2019542684A patent/JP6894058B2/ja active Active
- 2018-06-29 WO PCT/CN2018/093791 patent/WO2019007288A1/zh unknown
-
2019
- 2019-08-06 PH PH12019501823A patent/PH12019501823A1/en unknown
- 2019-10-04 US US16/592,895 patent/US10762296B2/en active Active
-
2020
- 2020-01-29 US US16/775,913 patent/US10699076B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150370A1 (en) * | 2006-05-04 | 2009-06-11 | Jpmorgan Chase Bank, N.A. | System and Method For Restricted Party Screening and Resolution Services |
US7590707B2 (en) * | 2006-08-07 | 2009-09-15 | Webroot Software, Inc. | Method and system for identifying network addresses associated with suspect network destinations |
TWI461952B (zh) * | 2012-12-26 | 2014-11-21 | Univ Nat Taiwan Science Tech | 惡意程式偵測方法與系統 |
CN103220302A (zh) * | 2013-05-07 | 2013-07-24 | 腾讯科技(深圳)有限公司 | 恶意网址的访问防御方法和相关装置 |
US20160299883A1 (en) * | 2015-04-10 | 2016-10-13 | Facebook, Inc. | Spell correction with hidden markov models on online social networks |
CN104766014A (zh) * | 2015-04-30 | 2015-07-08 | 安一恒通(北京)科技有限公司 | 用于检测恶意网址的方法和系统 |
CN106296195A (zh) * | 2015-05-29 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种风险识别方法及装置 |
CN104933443A (zh) * | 2015-06-26 | 2015-09-23 | 北京途美科技有限公司 | 一种敏感数据自动识别与分类的方法 |
CN105574146A (zh) * | 2015-12-15 | 2016-05-11 | 北京奇虎科技有限公司 | 网址拦截方法及装置 |
CN105447204A (zh) * | 2016-01-04 | 2016-03-30 | 北京百度网讯科技有限公司 | 网址识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107526967B (zh) | 2020-06-02 |
EP3637295A1 (en) | 2020-04-15 |
EP3637295A4 (en) | 2020-04-29 |
US20200167526A1 (en) | 2020-05-28 |
SG11201907079QA (en) | 2019-08-27 |
PH12019501823A1 (en) | 2019-10-07 |
US10762296B2 (en) | 2020-09-01 |
US20200034426A1 (en) | 2020-01-30 |
KR20200015444A (ko) | 2020-02-12 |
JP2020524314A (ja) | 2020-08-13 |
KR102244417B1 (ko) | 2021-04-28 |
CN107526967A (zh) | 2017-12-29 |
WO2019007288A1 (zh) | 2019-01-10 |
US10699076B2 (en) | 2020-06-30 |
MY201873A (en) | 2024-03-21 |
EP3637295B1 (en) | 2021-08-04 |
JP6894058B2 (ja) | 2021-06-23 |
TW201907325A (zh) | 2019-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI682302B (zh) | 風險地址識別方法、裝置以及電子設備 | |
Gomez et al. | Icdar2017 robust reading challenge on coco-text | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
Peng et al. | Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach | |
WO2010119615A1 (ja) | 学習データ生成装置、及び固有表現抽出システム | |
Kim et al. | Deep-learning-based recognition of symbols and texts at an industrially applicable level from images of high-density piping and instrumentation diagrams | |
US20210358570A1 (en) | Method and system for claim scope labeling, retrieval and information labeling of gene sequence | |
US20240013563A1 (en) | System and method to extract information from unstructured image documents | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
Wang et al. | Ae textspotter: Learning visual and linguistic representation for ambiguous text spotting | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
Soykan et al. | A comprehensive gold standard and benchmark for comics text detection and recognition | |
Ghosh et al. | Efficient indexing for query by string text retrieval | |
CN110399984B (zh) | 一种信息的预测方法、系统以及电子设备 | |
Peng et al. | Probabilistic ensemble fusion for multimodal word sense disambiguation | |
Chu | Automated Pipelines for Information Extraction from Semi-Structured Documents in Structured Format | |
Lyu et al. | TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model | |
CN117152563B (zh) | 混合目标域自适应模型的训练方法、装置及计算机设备 | |
EP4439494A1 (en) | Method for extracting and structuring information | |
Qi et al. | A mixed image segmentation method based on intelligent equipment | |
CN117131159A (zh) | 一种提取敏感信息的方法、装置、设备及存储介质 | |
Tavoli et al. | A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier | |
Zhang et al. | An Auto-Grading Oriented Approach for Off-Line Handwritten Organic Cyclic Compound Structure Formulas Recognition. | |
CN116204641A (zh) | 基于多步骤提示学习的去偏小样本事件检测方法及装置 | |
Forstall et al. | Meta-Matching: Combining Evidence From Heterogeneous Sources |