TWI534735B

TWI534735B - Information identification methods and equipment

Info

Publication number: TWI534735B
Application number: TW100104751A
Authority: TW
Inventors: jian-min Pan
Original assignee: Alibaba Group Holding Ltd
Priority date: 2010-12-23
Filing date: 2011-02-14
Publication date: 2016-05-21
Also published as: CN102541899B; HK1168176A1; TW201227571A; US20120166307A1; CN102541899A

Description

資訊識別方法及設備

本申請涉及電腦技術領域，尤其涉及一種資訊識別方法及設備。

隨著電腦網路技術的不斷進步，依靠電腦網路技術的各種應用業務也得到長足發展。買家用戶利用登錄的購物網站購買賣家用戶提供商品的業務是目前常用的網站購物業務。在網站購物業務中，買家用戶向賣家用戶購買商品的過程包括買家用戶確定購買商品、買家用戶付費、賣家用戶透過物流向買家用戶發貨等，上述購物過程的每一步都會由相應的業務伺服器記錄，得到一次購物業務的執行資訊。

上述依靠電腦網路技術的網站購物業務，在極大地方便用戶的同時，也由於網路購物的虛擬性，使網站購物業務存在一定的不安全因素。例如：賣家用戶冒充買家用戶購買自己的商品，以提高向其他用戶顯示的銷售額等，這種非法操作使得其他買家用戶查看到不真實的銷售資訊，導致買家用戶在該賣家用戶處進行的購物業務的安全性得不到保證。

為了提高網站購物業務的安全性，目前大多採用一種基於統計分析的識別非法資訊的方案，根據識別出的非法資訊確定該非法資訊對應的網路購物業務是非法操作。該基於統計分析的識別非法資訊的方案主要包括以下步驟：

第一步，採集大量的執行資訊，透過人工方式從中判別出非法的執行資訊。

這裏的每一條執行資訊都可以看作是執行一次購物業務後，業務伺服器記錄的與本次購物業務相關的所有資訊。

在本步驟中，假設某一次購物業務的執行資訊中包含以下三種特徵：“購買的商品名稱、買家用戶的付費方式、賣家用戶使用的物流方式”，若其中“賣家用戶使用的物流方式”的內容為空，表示賣家用戶並沒有真正地向買家用戶發貨，此時，可以將本次購物業務看作是賣家用戶冒充買家用戶購買商品，因此，可以確定本次購物業務的執行資訊為非法資訊。

第二步，設定執行資訊中的特定特徵。

若每一條執行資訊中都包含上一步中的三種特徵，則可以將其中的“買家用戶的付費方式、賣家用戶使用的物流方式”兩種特徵設定為特定特徵。

第三步，分析、統計每種特定特徵在非法的執行資訊中的表現形式以及在合法的執行資訊中的表現形式。

以賣家用戶使用的物流方式為例，該特定特徵在非法的執行資訊中的表現形式是內容為空，而在合法的執行資訊中的表現形式是內容為：郵寄、快遞等。

第四步，比較得到特定特徵在非法的執行資訊中和合法的執行資訊中表現形式的區別。

第五步，當產生一條新的執行資訊(即當前執行了一次網站購物業務)時，提取該新的執行資訊中的特定特徵，並將該特定特徵的內容與該特徵在非法的執行資訊中的表現形式以及在合法的執行資訊中的表現形式進行比較，以此判斷新的購物業務的執行資訊是非法的執行資訊還是合法的執行資訊。具體的比較過程為：

將該特定特徵在非法的執行資訊中的表現形式按照設定演算法轉換為一個數值，將該特定特徵在合法的執行資訊中的表現形式按照相同演算法也轉換為一個數值，並根據得到的兩個數值定義一個閾值，若新的執行資訊中的該特定特徵的表現形式轉換後的數值高於該閾值，表示新的執行資訊是非法資訊，否則，表示該新的執行資訊是合法資訊。

上述基於統計分析的識別非法資訊的方案將預先統計分析的非法執行資訊的特徵作為比較基準，來識別新的執行資訊是否是非法資訊，能夠識別出部分非法資訊，但在實際情況下，海量的執行資訊的特徵有著極其複雜的表現形式，上述方案中僅按照預先設定的閾值來區分合法、非法資訊，只能查找出常見的非法形式的執行資訊，並不能對海量的執行資訊的合法性進行準確識別。

本申請的目的在於：提供一種資訊識別方法及設備，用以解決現有技術中存在的對非法資訊識別的準確性較低的問題。

一種資訊識別方法，包括：伺服器確定待識別的執行資訊中的特定特徵；分別確定該待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度；根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊是非法資訊或合法資訊，該M為大於0的正整數。

一種資訊識別設備，包括：特徵識別模組，用於確定待識別的執行資訊中的特定特徵；相似度確定模組，用於分別確定該待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度；合法性識別模組，用於根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊是非法資訊或合法資訊，該M為大於0的正整數。

本申請有益效果如下：

本申請實施例透過從資料庫中選取與待識別的執行資訊相似度較高的多條執行資訊，並根據從資料庫中確定出的執行資訊的合法性來判定待識別的執行資訊的合法性，由於本申請方案是根據多條相似度較高的執行資訊來判定該待識別的執行資訊的合法性，綜合了選取出的合法執行資訊和非法執行資訊的特徵，提高了待識別執行資訊的合法性的準確性。

本申請實施例透過建立包含大量非法的執行資訊以及合法的執行資訊的資料庫，在有新的執行資訊需要識別其合法性時，從資料庫中確定出與待識別的執行資訊相似度較高的執行資訊，並根據從資料庫中確定出的執行資訊是否合法，來判定待識別的執行資訊的合法性，由於本申請方案是根據多條相似度較高的執行資訊來判定該待識別的執行資訊的合法性，綜合了合法執行資訊和非法執行資訊的特徵，使識別出的執行資訊的合法性能夠真實地反映出該執行資訊表示的網路購物業務的合法性，提高了執行資訊識別的準確性。

本申請各實施例中涉及的執行資訊是指一次購物業務過程中，伺服器記錄了與該購物業務相關的資訊。

本申請各實施例中涉及的執行資訊中的特徵是指執行資訊中各類資訊，其中，每一類資訊為一個特徵。例如：執行資訊中包括購物業務過程中的以下6類資訊中的多個或全部：賣家性別、買家評價、購買日期、成交量、成交價、物流方式，則每一類資訊就是執行資訊的一個特徵。

本申請各實施例中涉及的執行資訊中的特定特徵是指執行資訊中的特徵中，用於識別執行資訊合法性的特徵，特定特徵可以是部分或全部特徵。

執行資訊的合法性判定是指該執行資訊是合法資訊還是非法資訊的判定。

合法的執行資訊是指該執行資訊中的各類資訊未有異常，合法的執行資訊所表示的網路購物業務是合法業務；非法的執行資訊是指該執行資訊中的各類資訊中出現異常或很可能出現異常的執行資訊，非法的執行資訊所表示的網路購物業務是非法業務，如賣家用戶購買自己商品的虛假交易等。

下面結合說明書附圖對本申請實施例進行詳細描述。

實施例一

如圖1所示，為本申請實施例一中資訊識別的方法流程示意圖，該方法包括以下步驟：

步驟101：資訊識別設備確定待識別的執行資訊中的特定特徵。

在本步驟中，當執行一次網路購物業務時，伺服器將記錄本次網路購物業務的執行資訊，並將記錄的執行資訊發送給資訊識別設備，要求資訊識別設備對接收到的執行資訊的合法性進行判定。

本實施例一中使用的特定特徵可以是根據經驗值從執行資訊的特徵中選定的部分特徵，如：選取四維特徵{賣家性別，買家評價，購買日期，成交量}作為特定特徵，資訊識別設備接收到待識別的執行資訊後，從中確定四維特定特徵的內容{男，好，2010.9.29，300}。

步驟102：資訊識別設備分別確定待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度。

本實施例一的方案中維護了一個儲存一定數量的執行資訊的資料庫，資料庫中儲存的執行資訊有合法資訊也有非法資訊，由於利用資料庫中與待識別的執行資訊相似度較高的執行資訊來判定待識別的執行資訊的合法性，為了避免資料庫中合法執行資訊的數量與非法執行資訊的數量差別較大，導致與待識別的執行資訊相似度較高的各條執行資訊的權重差別較大，因此，資料庫中儲存的合法資訊的數量與非法資訊的數量大致相等，如：設定非法資訊的數量與合法資訊的數量之差不大於N，該N為大於0的正整數，或非法資訊的數量與合法資訊的數量之比維持在0.9~1.1。

本實施例一中涉及的資料庫可以獨立於資訊識別設備但能夠與資訊識別設備通信，也可以是資訊識別設備內部的資料庫。

資訊識別設備依次將資料庫中的每條執行資訊與待識別的執行資訊進行相似度計算，得到資料庫中每條執行資訊與待識別的執行資訊之間的相似度。

本實施例中涉及的執行資訊之間的相似度，可以看作是將每一執行資訊的多維特定特徵映射至多維空間後，執行資訊在該多維空間內的距離。兩條執行資訊的距離越遠，表示這兩條執行資訊的相似度越低。

步驟103：資訊識別設備從儲存的執行資訊中選取與待識別的執行資訊的相似度最高的M條執行資訊。

該M為大於0的正整數。

M的取值可以根據資料庫中執行資訊的特定特徵選定，避免因M取值過大或過小影響判斷準確性的問題。例如，特殊地，如果M取值過小，如M=1，表示待識別的執行資訊的合法性將由與其最相似的一條執行資訊判定，在此情況下，若選取的最相似的一條執行資訊是無意義的資訊或是在選取過程中有誤差的資訊，則可能使待識別的執行資訊的合法性判定不準確；如果M取值過大，如M=50，表示待識別的執行資訊的合法性將由與其最相似的50條執行資訊來共同判定，此時可能出現這種情況：與待識別的執行資訊相似度最高的15條執行資訊是非法資訊，選取的35條相似度次高的執行資訊是合法資訊，則由於合法資訊的數量較多，最終的判定結果是待識別的執行資訊合法。但實際上待識別的執行資訊與15條非法資訊的相似度最高，待識別的執行資訊的真實情況應該是非法資訊，從而出現誤判的情況。

步驟104：資訊識別設備根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊的合法性。

本步驟中，包括但不限於透過以下兩種方式識別該待識別的執行資訊的合法性：

第一種方式：

在該M為奇數時，確定相似度最高的M條執行資訊中非法資訊數量和合法資訊數量的較大者，識別該待識別的執行資訊與較大的數量對應資訊的合法性相同。

如M=11時，非法執行資訊的數量為7，合法執行資訊的數量為4，則由於待識別的執行資訊在大多數情況下更加接近非法執行資訊，因此，確定待識別的執行資訊是非法資訊。

第二種方式：

按照與待識別的執行資訊相似度越高，對應的加權值越大的原則，分別確定相似度最高的M條執行資訊中每條執行資訊對應的加權值，將M條執行資訊中非法資訊加權求和，得到非法資訊加權求和值，以及，將合法資訊加權求和，得到合法資訊加權求和值，識別該待識別的執行資訊與較大的加權求和值對應資訊的合法性相同。

如M=11時，非法執行資訊的數量為7，合法執行資訊的數量為4，將7條非法執行資訊按照各自的加權值進行加權求和操作，將4條合法執行資訊按照各自的加權值進行加權求和操作，若非法資訊加權求和值為8，合法資訊加權求和值為5，則確定待識別的執行資訊是非法資訊。

進一步地，考慮到實際的網路購物業務中，非法業務占的比例並不高，而一旦確定待識別的執行資訊是非法資訊，將會對該執行資訊所表示的網路購物業務的執行主體作出限制措施，因此，為了避免將合法資訊誤識別為非法資訊且盡可能地識別出真正的非法資訊，按照上述第一種方式確定合法資訊的數量和非法資訊的數量，或按照上述第二種方式確定非法資訊加權求和值以及合法資訊加權求和值之後，選擇其中的較大值，並在較大值對應的資訊類型是非法資訊時，進一步在較大值與較小值的差值較大(如差值大於設定門限值)時，才認定待識別的執行資訊是非法資訊，否則，確定待識別的執行資訊是合法資訊。

透過上述本申請實施例一方案的描述，將待識別的執行資訊的特定特徵與資料庫中已知的執行資訊進行相似度運算，利用相似度較高的已知執行資訊來判定待識別的執行資訊的合法性，相對於現有技術中為特徵設定閾值的方式，有效提高了合法性判定的準確性；且由於資料庫中儲存的合法執行資訊和非法執行資訊的數量大致相同，克服了由於參考的合法執行資訊和非法執行資訊的數量差別較大帶來的確定高相似度時可選的合法資訊和非法資訊數量差別大的問題，使得最終選取的相似度高的執行資訊能夠正確地反映待識別的執行資訊的合法性。

實施例二

本申請實施例二透過具體實例對本申請實施例一的方案進行詳細說明。

假設本實施例二中使用的特定特徵是四維特徵{賣家性別，買家評價，購買日期，成交量}，本實施例二的方案包括以下步驟：

第一步：在初始狀態時，訓練、建立資料庫。

如圖2所示，本步驟的具體實現過程包括以下內容：

首先，選擇需要寫入資料庫中的執行資訊。

需要寫入資料庫中的執行資訊可以是設定時間長度(如3個月)內，伺服器在每次執行網路購物業務時記錄的原始資訊。伺服器記錄的執行資訊中包括合法資訊和非法資訊，因此，在寫入資料庫之前，可以透過手動方式確定合法執行資訊和非法執行資訊，並將確定結果標記在執行資訊內，然後從標記結果的執行資訊中選擇用於訓練並寫入資料庫的執行資訊。

假設本步驟中選擇200條合法執行資訊和200條非法執行資訊作為需要寫入資料庫的執行資訊。

然後，針對資料庫中的每條執行資訊，提取該執行資訊中的特定特徵，並將該特定特徵轉換為資料向量形式。

例如，針對資料庫中的一條執行資訊，假設該執行資訊對應的網路購物業務包括：買家用戶購買了男性賣家用戶的商品，本次網路購物業務的建立時間是2010.9.29，本次網路購物業務的成交量是300件，買家用戶對本次網路購物業務的評價是好，則按照設定的特定特徵{賣家性別，買家評價，購買日期，成交量}，可以得到該執行資訊的特定特徵轉換成資料向量形式為{男，好，2010.9.29，300}。資料向量中的每一維度對應相應的特定特徵，在資料庫中儲存每條轉換為資料向量形式的執行資訊既表徵了執行資訊的特定特徵，這樣可以減少在資料庫中儲存的資料量。後續可以將待識別的執行資訊的資料向量與各資料庫中已儲存的執行資訊的資料向量之間的相似度作為執行資訊之間的相似度。

為了進一步方便後續的相似度計算過程，可以將資料向量的各維度做歸一化處理，將每一維度的內容轉換為0~1的數值。例如：性別為“男”對應的數值是1，性別為“女”對應的數值是0；買家評價有“好”、“一般”、“差”三種，對應的數值分別為1、0.5、0；根據購買日期與設定日期的差值確定購買日期對應的數值，差值越大，購買日期對應的數值也越大，或差值越大，購買日期對應的數值越小；預先劃分成交量與數值的對應關係，根據資料向量中成交量的大小確定對應的數值。例如：成交量為0時，對應的數值為0，成交量為1~10，對應的數值為0.1，成交量為11~300，對應的數值為0.2，以此類推。例如，某一資料向量為{男，好，2010.9.29，300}，進行歸一化處理後轉換為{1，1，0.1，0.2}。

在資料庫中儲存歸一化處理的資料向量後，可以利用該資料庫中儲存的執行資訊對待識別的執行資訊做合法性判定。

需要說明的是，本實施例二中資料庫中的內容在初始時是預先配置的，但是在本實施例方案不斷執行的過程中，每次判定新的執行資訊的合法性後，可以將判定後的執行資訊按照上述格式寫入資料庫中，以即時更新資料庫的內容，使資料庫中作為判定基準的執行資訊不斷地與層出不窮的各種網路購物業務相適應；另外，對新的執行資訊的合法性判定有可能出現誤判，如判定某一執行資訊是非法資訊，但執行相應網購業務的買家用戶或賣家用戶向管理員投訴，在確定某一執行資訊的合法性出現誤判時，可以根據誤判的執行資訊中被誤判的特徵更新特定特徵，有效地完善設定的特定特徵，使設定的特徵特徵能夠更好地反映合法資訊和非法資訊。

在建立完成資料庫後，可以利用該資料庫對新的執行資訊的合法性按照以下步驟進行識別，具體過程如圖3所示。

第二步：按照黑名單、白名單方式判斷待識別的執行資訊的合法性。

若執行資訊中的賣家用戶或買家用戶是黑名單中的用戶，則確定該待識別的執行資訊是非法資訊。

若執行資訊中的賣家用戶和買家用戶都是白名單中的用戶，則確定該待識別的執行資訊是合法資訊。

若執行資訊中的賣家用戶和買家用戶既不是黑名單中的用戶也不是白名單中的用戶，則繼續執行第三步。

第三步：提取待識別的執行資訊中的特定特徵。

假設待識別的執行資訊的特定特徵轉換得到的資料向量為{女，一般，2010.9.29，300}，對其進行歸一化處理後為{0，0.5，0.1，0.2}。

第四步：根據待識別的執行資訊歸一化處理後的資料向量與資料庫中每一歸一化處理後的資料向量，確定待識別的執行資訊中的特定特徵與資料庫中各執行資訊中的特定特徵之間的相似度。

假設待識別的執行資訊(稱之為執行資訊A)歸一化處理後的資料向量為{0，0.5，0.1，0.2}，資料庫中某一執行資訊(稱之為執行資訊B)歸一化處理後的資料向量為{1，1，0.1，0.2}，則本步驟中具體的相似度計算過程為：

首先，分別計算兩條執行資訊的資料向量中，每一維度之間的比較結果。具體的計算方式包括但不限於以下兩種方式：

第一種計算方式：

依次計算每一維度數值之間的差值，將得到的差值作為該維度的比較結果，具體到執行資訊A和執行資訊B，按照本計算方式得到的每一維度之間的比較結果為{1，0.5，0，0}。

第二種計算方式：

針對每一維度，按照以下公式(1)計算執行資訊A和執行資訊B之間各維度的比較結果：

d(a _i,b _i)=|a _i-b _i|/maxvalue ₍ _i ₎　(1)

其中，a _i表示待識別的執行資訊的資料向量中的第i維的數值；b _i表示一已儲存的執行資訊的資料向量中的第i維的數值；maxvalue ₍ _i ₎表示第i維的最大可取值與最小可取值之差；d(a _i,b _i)表示待識別的執行資訊的資料向量中的第i維與一已儲存的執行資訊中的資料向量中的第i維的比較結果。

按照第二種計算方式得到的執行資訊A和執行資訊B之間每一維度之間的比較結果為{1，0.5，0，0}。

然後，將執行資訊A與執行資訊B的資料向量每一維比較結果之和作為這兩條執行資訊的相似度。

根據上述第一種方式或第二種方式得到的執行資訊A和執行資訊B之間每一維度之間的比較結果為{1，0.5，0，0}，則執行資訊A和執行資訊B之間的相似度為1.5。

將資料庫中儲存的每一執行資訊按照本步驟的方式與待識別的執行資訊進行計算，得到待識別的執行資訊與資料庫中每一執行資訊之間的相似度。

第五步：從資料庫中選取相似度最高的M條執行資訊。

第六步：採用加權方式計算選取的M條執行資訊中，合法資訊的加權求和值，以及非法資訊的加權求和值，並根據計算結果判定待識別的執行資訊是否是合法資訊。

本實施例採用連續光滑的加權函數來計算各條執行資訊的加權值，該加權函數的表現形式如公式(2)所示：

其中，w _j表示M條執行資訊中第j條執行資訊的權重；D(A,B _j)表示第j條執行資訊與待識別的執行資訊之間的相似度；K _w表示平衡因數，本實施例中採用，該range表示選取的M條執行資訊中，相似度最低的執行資訊與待識別的執行資訊的相似度，n是固定參數，如n=16。

透過公式(2)計算得到各執行資訊的加權值後，可以計算加權求和值，具體的加權求和演算法包括但不限於以下兩種方式：

第一種演算法：

按照以下公式(3)計算合法資訊和非法資訊的加權求和值：

其中：y表示合法資訊和非法資訊的加權求和值，w _j表示M條執行資訊中第j條執行資訊的權重，y _j表示M條執行資訊中第j條執行資訊是合法資訊還是非法資訊，若是合法資訊，y _j=1，否則，y _j=0。

透過(3)得到的y是0~1的數值，將該數值與設定值進行比較，確定待識別的執行資訊是否合法。如：設定值為0.7，若計算出的y不小於0.7，則確定待識別的執行資訊綜合起來更接近於合法資訊，因此，該待識別的執行資訊是合法資訊；否則，該待識別的執行資訊是非法資訊。

第二種演算法：

將M條執行資訊中非法資訊加權求和，得到非法資訊加權求和值，以及，將合法資訊加權求和，得到合法資訊加權求和值，所採用的加權求和公式如公式(4)所示：

其中：z ₁表示合法資訊的加權求和值，z ₂表示非法資訊的加權求和值；w _k表示合法執行資訊中第k條執行資訊的權重，w _l表示非法執行資訊中第l條執行資訊的權重；y _k和y _l分別表示合法執行資訊中第k條執行資訊是合法資訊還是非法資訊，非法執行資訊中第l條執行資訊是合法資訊還是非法資訊，若是合法資訊，y _k=y _l=1，否則，y _k=y _l=0。

選取z ₁和z ₂中的較大值，若z ₁大於z ₂，則該待識別的執行資訊是合法資訊；若z ₂大於z ₁且其差值較大，則該待識別的執行資訊是非法資訊，否則，該待識別的執行資訊仍是合法資訊。

實施例三

本申請實施例三還提供一種資訊識別設備，如圖4所示，包括特徵識別模組11、相似度確定模組12和合法性識別模組13，其中：特徵識別模組11用於確定待識別的執行資訊中的特定特徵；相似度確定模組12用於分別確定該待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度；合法性識別模組13用於根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊是非法資訊或合法資訊，該M為大於0的正整數。

該設備還包括資訊訓練模組14，用於將資料庫中儲存的每條執行資訊中的特定特徵轉換為資料向量，其中，資料向量中的每一維度對應一個特定特徵；該相似度確定模組12具體用於將待識別的執行資訊中的特定特徵轉換為資料向量，並分別確定待識別的執行資訊的資料向量與各已儲存的執行資訊的資料向量之間的相似度。

該資訊訓練模組14還用於依次將每條執行資訊中的資料向量做歸一化處理，得到資料向量中每一維度的數值；該相似度確定模組12具體用於對待識別的執行資訊的資料向量做歸一化處理，得到資料向量中每一維度的數值，以及分別將待識別的執行資訊的資料向量各維度的數值與每一已儲存的執行資訊中的資料向量各維度的數值進行比較，根據比較結果，確定待識別的執行資訊中的特定特徵與已儲存的執行資訊中的特定特徵之間的相似度。

該合法性識別模組13具體用於在該M為奇數時，確定相似度最高的M條執行資訊中非法資訊數量和合法資訊數量的較大者，確定該待識別的執行資訊與較大的數量對應資訊的合法性相同。

該合法性識別模組13具體用於分別確定相似度最高的M條執行資訊對應的加權值，其中，與待識別的執行資訊相似度越高，對應的加權值越大，並將M條執行資訊中非法資訊加權求和，得到非法資訊加權求和值，以及，將合法資訊加權求和，得到合法資訊加權求和值，確定該待識別的執行資訊與較大的加權求和值對應資訊的合法性相同。

圖4所示的資訊識別設備是與資料庫分離的情況，本實施例中的資訊識別設備也可以集成該資料庫。

本實施例三中的資訊識別設備還具有能夠實現實施例一和實施例二方案的功能模組，此處不再贅述。

本領域內的技術人員應明白，本申請的實施例可提供為方法、系統、或電腦程式產品。因此，本申請可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

本申請是參照根據本申請實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器，使得透過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上，使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

儘管已描述了本申請的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請範圍的所有變更和修改。

顯然，本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和範圍。這樣，倘若本申請的這些修改和變型屬於本申請申請專利範圍及其等同技術的範圍之內，則本申請也意圖包含這些改動和變型在內。

11．．．特徵識別模組

12．．．相似度確定模組

13．．．合法性識別模組

14．．．資訊訓練模組

圖1為本申請實施例一資訊識別的方法流程示意圖；

圖2為本申請實施例二訓練、建立資料庫的方法流程示意圖；

圖3為本申請實施例二對新的執行資訊的合法性識別的方法流程示意圖；

圖4為本申請實施例三資訊識別設備結構示意圖。

Claims

一種資訊識別方法，其特徵在於，包括：伺服器確定待識別的執行資訊中的特定特徵；分別確定該待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度；根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊是非法資訊或合法資訊，該M為大於0的正整數，其中，根據相似度最高的M條執行資訊識別該待識別的執行資訊是非法資訊或合法資訊，具體包括：在該M為奇數時，確定相似度最高的M條執行資訊中非法資訊數量和合法資訊數量的較大者，確定該待識別的執行資訊與較大的數量對應資訊的合法性相同。
如申請專利範圍第1項所述的方法，其中，確定待識別的執行資訊中的特定特徵之前，該方法還包括：在資料庫中儲存多條執行資訊，並將每條執行資訊中的特定特徵轉換為資料向量，其中，資料向量中的每一維度對應一個特定特徵，且儲存的多條執行資訊中；分別確定待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度，具體包括：將待識別的執行資訊中的特定特徵轉換為資料向量，並分別確定待識別的執行資訊的資料向量與各已儲存的執行資訊的資料向量之間的相似度。
如申請專利範圍第2項所述的方法，其中，將資料庫中儲存的每條執行資訊中的特定特徵轉換為資料向量之後，且確定待識別的執行資訊中的特定特徵之前，該方法還包括：依次將每條執行資訊中的資料向量做歸一化處理，得到資料向量中每一維度的數值；分別確定待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度，具體包括：對待識別的執行資訊的資料向量做歸一化處理，得到資料向量中每一維度的數值；分別將待識別的執行資訊的資料向量各維度的數值與每一已儲存的執行資訊中的資料向量各維度的數值進行比較，根據比較結果，確定待識別的執行資訊中的特定特徵與已儲存的執行資訊中的特定特徵之間的相似度。
如申請專利範圍第3項所述的方法，其中，透過以下公式確定待識別的執行資訊的資料向量各維度的數值與一已儲存的執行資訊中的資料向量各維度的數值的比較結果：d(a _i,b _i)=|a _i-b _i|/max value _(i)其中，a _i表示待識別的執行資訊的資料向量中的第i維的數值；b _i表示一已儲存的執行資訊的資料向量中的第i維的數值；max value _(i)表示第i維的最大取值與最小取值之差；d(a _i,b _i)表示待識別的執行資訊的資料向量中的第i維與一已儲存的執行資訊中的資料向量中的第i維的比較結果；待識別的執行資訊中的特定特徵與一已儲存的執行資訊中的特定特徵之間的相似度為：該待識別的執行資訊的資料向量與已儲存的執行資訊的資料向量每一維比較結果之和。
如申請專利範圍第1項所述的方法，其中，根據相似度最高的M條執行資訊識別該待識別的執行資訊是非法資訊或合法資訊，具體包括：分別確定相似度最高的M條執行資訊對應的加權值，其中，與待識別的執行資訊相似度越高，對應的加權值越大；將M條執行資訊中非法資訊加權求和，得到非法資訊加權求和值，以及，將合法資訊加權求和，得到合法資訊加權求和值；確定該待識別的執行資訊與較大的加權求和值對應資訊的合法性相同。
如申請專利範圍第5項所述的方法，其中，透過以下公式確定M條執行資訊對應的加權值：其中，w _j表示M條執行資訊中第j條執行資訊的權重；D(A,B _j)表示第j條執行資訊與待識別的執行資訊之間的相似度；K _w表示平衡因數。
一種資訊識別設備，其特徵在於，包括：特徵識別模組，用於確定待識別的執行資訊中的特定特徵；相似度確定模組，用於分別確定該待識別的執行資訊中的特定特徵與已儲存的每條執行資訊中的特定特徵之間的相似度；合法性識別模組，用於根據相似度最高的M條執行資訊中的非法資訊和合法資訊的計算數值，識別該待識別的執行資訊是非法資訊或合法資訊，該M為大於0的正整數，其中，該合法性識別模組具體用於在該M為奇數時，確定相似度最高的M條執行資訊中非法資訊數量和合法資訊數量的較大者，確定該待識別的執行資訊與較大的數量對應資訊的合法性相同。
如申請專利範圍第7項所述的設備，其中，該設備還包括：資訊訓練模組，用於將資料庫中儲存的每條執行資訊中的特定特徵轉換為資料向量，其中，資料向量中的每一維度對應一個特定特徵；該相似度確定模組，具體用於將待識別的執行資訊中的特定特徵轉換為資料向量，並分別確定待識別的執行資訊的資料向量與各已儲存的執行資訊的資料向量之間的相似度。
如申請專利範圍第8項所述的設備，其中，該資訊訓練模組，還用於依次將每條執行資訊中的資料向量做歸一化處理，得到資料向量中每一維度的數值；該相似度確定模組，具體用於對待識別的執行資訊的資料向量做歸一化處理，得到資料向量中每一維度的數值，以及分別將待識別的執行資訊的資料向量各維度的數值與每一已儲存的執行資訊中的資料向量各維度的數值進行比較，根據比較結果，確定待識別的執行資訊中的特定特徵與已儲存的執行資訊中的特定特徵之間的相似度。
如申請專利範圍第7項所述的設備，其中，該合法性識別模組，具體用於分別確定相似度最高的M條執行資訊對應的加權值，其中，與待識別的執行資訊相似度越高，對應的加權值越大，並將M條執行資訊中非法資訊加權求和，得到非法資訊加權求和值，以及，將合法資訊加權求和，得到合法資訊加權求和值，確定該待識別的執行資訊與較大的加權求和值對應資訊的合法性相同。