TWI353146B

TWI353146B - Origination/destination features and lists for spa

Info

Publication number: TWI353146B
Application number: TW093113883A
Authority: TW
Inventors: Joshua T Goodman; Robert L Rounthwaite; Daniel Gwozdz; John D Mehr; Nathan D Howell; Micah C Rupersburg; Bryan T Starbuck
Original assignee: Microsoft Corp
Priority date: 2003-06-04
Filing date: 2004-05-17
Publication date: 2011-11-21
Also published as: CA2467869C; US7409708B2; EP1484893A2; AU2004202268B2; BRPI0401849B1; RU2004116904A; RU2378692C2; US7464264B2; KR101137065B1; EP1484893A3; ZA200404018B; MY142668A; JP2004362559A; US20050022031A1; AU2004202268A1; US7665131B2; BRPI0401849A; PL368364A1; EP1484893B1; US20070118904A1

Description

1353146 九、發明說明：【發明所屬之技術領域】本發明係關於識別合法（例如好的郵件）以及不要郵件的系統與方法’尤其係關於處理電子訊息來擷取資料，以幫助防治垃圾郵件。【先前技術】像是網際網路這種全球通訊'網路的出現展現出接觸到大量潛在客戶的商機。電子傳訊，尤其是電子郵件 ("email")已經成為將不要的廣告與促銷（也稱為「垃圾郵件」）傳播給網路使用者的普遍媒介。

Radic at i Group. Inc.這豕諮詢與市場研究公司估計到2 0 0 2年8月每天傳送的垃圾郵件訊息有二十億射，而此數據預期每兩年會變成三倍。垃圾訊息對於個人與實體 (例如公司、政府機構）造成相當多的不方便與時間浪費。因此，垃圾郵件遲早會變成可靠計算能力的主要威脅。用於妨礙垃圾郵件的關鍵技術為過濾系統/方法的利用》—種防治垃圾郵件的過濾技術係以機器學習方式為基礎，機器學習過濾器將此訊息為垃圾郵件的可能性指定給一傳入訊息。在此方式中，特色通常從兩種範例訊息等級 (例如垃圾郵件與非垃圾郵件）中擷取，並且學習過濾器運用以區分兩種等級之間的可能性。因為許多訊息特色都與内容有關（例如主題内的字與詞彙以及/或郵件本體）。這 1353146 種過濾器一般稱為「内在有了這種垃圾郵件者都苦思許多方法偽垃圾郵件過遽器。因此無法有效識別並阻擋偽容式過濾器」。 +過濾技術之後，許多垃圾郵件寄裝他们的識別，以避免以及/或繞過傳統内容式以及適應式過濾器就裝過的垃圾郵件。下文中論及本發明的簡單要徒供對本發明一此凝域的基本了解。此摘要並非^ ^ 並非本發明的廣泛簡介，識別本發明的關鍵/重要开彼+ *·' ^ 安70件或描述本發明的領域。其目的在於以一種簡單的方式呈、八呈現本發明某些領域詳細說明的前言。 #局稍後更垃圾郵件寄件者幾乎卞了將郵件内所有資訊都來。例如，他們可嵌入影像，. 坶裒起 m 故樣就不能使用文字奋撼哭學習系統的特色。影像其s 7 田機盗像甚至可以扭曲使其難以軟體’或至少用起來相當缸吐㈣《耗時。另外，不管寄件者多少特色，仍舊還是有可用除了頁Λ。首先，垃圾郵件者必須從某處寄出郵件，我彳門π社干奇件我們可偵測到寄發自某些址的郵件。第二，垃圾郵件岑仇坤仟寄件者幾乎都是試圖販賣物品’因此必須包含聯絡方彳 _ '、二々式，廷有可能是免付費電話，不過因為成本過高所以垃极郵件寄件者可能不願意使用也有可能是-般電話，不過因為回應率過低所以寄件者可能不願意使用。 ^ 另外’有可能是URL (例如 1353146 r h 11 p . / / w w v. s p a m c 〇 r p · c 〇 m / b u y e η 1 a r e e r _ h t m )。此入影像讓它難以過濾’以及/或讓軟體難以偵測為使用者必須在瀏覽器内手動輸入URL而降伯所以垃圾郵件寄件者可能不願意使用此方法。垃圾郵件寄件者最可能使用的聯絡方式是内或透過歲入式的一些種類的電子郵件地址。例如解更多j ’其令「按此」包含：依照本發明一個態學習系統會偵測並使用的特定網ί連結。相同地為回覆{例如一般是「寄件地址」，但有時為「回邏任合嵌入的maUt(K連結（按下就可讓郵件寄亡或其他任何嵌入的電子郵件地址。此外，垃圾郵通常在郵件内包含影像。因為一再傳遞大量影貴，所以垃圾郵件寄件者通常只會嵌入影像的特讓影像可以下載。這些連結指向的位置也可用來十有關從郵件寄件地址、郵件回覆地址、嵌入备地址、外部連結以及外部影像連結中取得的資訊訊至少有一部分可作為機器學習系統的特色其於權值或可能，fi，或可將資訊加入清單中。例如只保留傳送垃圾郵件的IP&址或寄件人地址清保留良好郵件 '或超過9〇 Λ的良好郵件清單等上，位於該清單上的特定連結或位址可用 =統的特色，《料任何垃圾郵件過據系統的— 這兩者。本發明提供一種藉由試驗郵件特定部分，來 URL可嵌 5不過，因 «回應率，嵌連結， ’ 按此了樣的機器，地址可 L地址」卜 ^的連結）件寄件者像相當昂殊連結， b為特色。 ^ mailto：，這些資中可相關 ’我們可單’或只專。事實機器學習部分，或幫助識別 1353146 已偽裝的垃圾郵件之系統與方法。尤其是，本發明牽涉到處理像是電子郵件（email)這類訊息，以擷取來源地以及 /或目的地資料來分辨合法訊息與垃圾郵件訊息。此處理包含許多技術，用於識別與剖析IP位址資訊、電子郵件地址資訊、以及/或一致資源定址器（URL)資訊，並且將擷取的資料附加為垃圾郵件屬性（例如良好使用者對不良使用者，良好寄件者對不良寄件者）。例如，可考慮將不良使用者或不良寄件者作為垃圾郵件寄件者（例如傳送垃圾郵件的人）。擷取的資料或至少一部分可用來產生機器學習系統使用的特色集合。機器學習技術會試驗訊息的内容，決定該訊息是否為垃圾郵件。垃圾郵件寄件者會將大多數訊息内容弄混，像是將其大部分資訊放入難以處理的影像中。不過，因為垃圾郵件寄件者需要提供收件者容易與之接觸的方式，所以無法完全偽裝訊息出處。範例包含像是使用連結（例如 U R L)以及/或電子郵件地址（例如 IP位址）。這種資訊或變數或部分可用來作為垃圾郵件偵測器的特色。尤其是，藉由機器學習系統可用這些資訊來訓練垃圾郵件偵測器以及/或垃圾郵件過濾器。本發明也與親代控制系統共同運作。親代控制系統可告知使用者該訊息是否合適，也可指出不合適的理由，像是「内含色情成份」。根據本發明的一個態樣，一或多個擷取或正規化的特色（例如 URL)可通過親代控制系統或過濾器，獲得親代控制系統的區分。此區分可用來作為機 8 1353146 器學習系統的額外特色，幫助建立以及/或改善垃圾郵件過渡器。更進一步，可依照類型區分的擷取特色可根據垃圾郵件散佈程度加上權值，並且可指定成為正（例如不太像垃圾郵件）或負（例如很像垃圾郵件）特色。特色也可用於建立像是非垃圾郵件寄件者清單與垃圾郵件清單這些清單。若要達成前述與相關目的，在此將結合下列說明與附錄圖式來說明本發明的特定說明態樣，不過這些領域只由一些運用本發明原理的方式來指示，並且本發明包含所有這些態樣與其等效態樣。在考慮到附圖時，從下列本發明的實施方式中將會對本發明的其他優點與創新特色有通盤的了解。【實施方式】此時將參考圖式來說明本發明，其中相同的參考號碼用來指示相同的元件。在下列說明中，用於解釋說明，將公佈許多設定細節以提供對本發明通盤的了解。不過，吾人可瞭解到，在沒有這些特定細節的情況下也可實施本發明》在其他實例中，已知的結構與裝置都以方塊圖來顯示，以幫助說明本發明。如本申請書内所使用，「組件j與「系統」這兩詞用於表示電腦相關實體、硬體、硬體與軟體的組合、軟體或執 9 1353146 行中的軟體。例如，組件可為但不受限於處理器上執行的處理、處理器、物件、可執行物、執行緒、程式以及/或電腦。藉由說明，伺服器上執行的應用程式以及伺服器都可為組件。行程以及/或執行緒内可以有一或多個組件，並且組件可位於一部電腦上以及/或分布在兩或多部電腦之間。本發明併入許多推論演算法以及/或技術，與產生用於機器學習垃圾郵件過濾的訓練資料結合。如此處所用，「推論」一詞通常表示推理的處理，或從觀察中作為事件以及/ 或資料内擷取之系統、環境以及/或使用者的推論狀態。推論可運用來識別特殊情況或動作，或可產生狀態上的機率分配。推論可為可能性，也就是根據資料與事件的考量，相關狀態上機率分布的計算。推論也可是用於組成來自一組事件以及/或資料的較高等級事件之技術。這種推論產生來自.一組觀察事件以及/或儲存事件資料的新事件或動作結構，不管事件是否是在最近修正過，並且事件與資料是否來自一或多個事件與資料源。吾人可瞭解到，雖然在本說明書内廣泛使用到訊息一詞，這詞並不受限於電子郵件，而可合適調整為包含可在任何合適的通訊架構内散佈的任何形式電子訊息。例如，幫助兩人以上進行會議的會議應用程式（例如互動式交談程式以及即時傳訊程式）也可利用此處公佈的過濾優點，因為在使用者交換訊息以及/或插入作為前導訊息、結束訊息或上述訊息時，可在正常交談訊息中散佈不要的文字。在此特定應用情況中，可訓練過濾器以自動地過濾特定訊 10 1353146 息内容（文字與影像），以便擷取不想要的内容並記錄為垃圾郵件（例如商業、促銷或廣告）。在本發明中，「收件人」一詞代表傳入訊息或郵件項目的地址。「使用者」一詞根據前後文可表示收件人或寄件人。例如，使用者可代表傳送垃圾郵件的電子郵件使用者，以及/或使用者可代表接收垃圾郵件的電子郵件收件者，這取決於該詞的上下文關係與應用情況。網際網路通訊協定（IP)位址為 3 2位元數，通常代表網際網路上的機器。在兩部機器通訊時就會用到這些數字。通常以 "XXX.XXX.XXX.XXX"的形式來表示，其中每個 XXX介於 0與 25 5之間。不幸的是，IP位址非常難記。因為如此，所以建立了「網域名稱」以及「主機名稱」轉換。「網域名稱」是網際網路上一組機器的名稱（可能是單一部機器），並且常見的形式為 "x.com”、My.edu·，或 "coinls.wa.gov" ° 「全合格網域名稱（FQDN)」是網際網路上一特定機器，例如 ”b.x.com"、"c.y.edu"或"www.courts_wa.gov"，而網域名稱部分分別為 π X · c 〇 m ” 、 " y. e d u" 或 "Courts.wa.gov"。”b"、"c"與"www"部分分別稱為 FQDN 的主機名稱部分。一般來說，IP位址可用於網路名稱可使用的任何情況（例如 nDN/IP"表示這兩種可能性都存在）。也是一般來說，IP位址可用於FQDN可使用的任何情況（例如"FQDN/IP”表示這兩種可能性都存在）。電子郵件地址由使用者名稱以及網域名稱或 IP位址（DN/IP) 11 1353146 所組成’例如"a@)c.com，·或"a@l .2.3.4"。在這兩範例中，使用者名稱為V。 —致資源定址器（URL)通常為「服務名稱：FQDN/IP/url-path j 的形式。例如 "http://www.microsoft.com/windovvs/help.htm" 就是 URL。"http"這個部分為服務名稱，'_wvvw.microsoft.com” 這個部分為 FQDN ，並且 "windows/he lp.htm"這個部分為 URL路徑。這是簡單的 URL，但已經足夠本發明探討。此時請參閱第1圖，其說明依照本發明一個態樣的特色擷取與訓練系統1 〇〇之一般方塊圖。特色擷取與訓練系統1 0 0牽涉到處理傳入訊息丨1 〇 ’以從訊息中擷取資料或特色。這種特色可從訊息以及/或其變化中提供的至少部分來源地以及/或目的地資訊中擷取。尤其是系統1〇〇可透過訊息接收組件1 2 0接收一或多個傳入訊息]1 〇。訊息接收組件1 2 0可位於電子郵件或訊息伺服器上，來接收傳入訊息11 〇。雖然某些訊息（例如至少一種）容易遭受現有過濾器（例如垃圾郵件、垃圾信件 '親代控制過滤器）的攻擊，而歸類到垃圾夹或垃圾郵件資料夾，並且可擷取至 >部分來源地以及/或目的地資料，並去除使用障礙與機器學習系統或傳播特色清單結合。訊息接收組件120可將傳入訊息或訊息的子集傳到特色擷取組件13〇。特色擷取組件丨3〇可從個別訊息11〇内擷取資料，以便產生特色集合幫助過濾器訓練並且最終幫助偵測垃圾郵件。在此可發現以及/或嵌入從訊息中擷取 12 1353146 與來源地以及/或目的地資訊有關的資料或特色。資料或特色的範例包含：寄件人IP位址、回覆電子郵件地址、CC: (例如副本抄送）電子郵件地址。許多種URL (包含文字式連结、影像式連結、以及文字形式的URL或部分）、付費電話號瑪（例如特別是區域碼）、免付費電話號瑪、rnailt〇: 電子郵件地址連結、文字形式的電子郵件地址、SMTP HELO指令中的FQDN ' SMTP MAIL FROM地址/返回路徑地址、以及/或至少上述任何部分。特色擷取組件130可執行任何合適數量的處理，以從訊息1 1 0中擷取許多組特色來用於機器學習系統内。此外’特色組合可用於傳播其他過濾器訓練技術的清單。例如像是 a.x.com的 FQDN可轉換成通常代表 ip 位址的數字。IP位址由四組小數點分開的數字組成。每一組都由小數點分隔，並且數字範圍介於〇到 2 5 5，其中每個數字變化對應到不同的網介網路名稱。例如，a.x.c〇m可轉譯成 123.124.125.126，而 121.124.125.126 則代表 qrsluv.com·。而因為數字並不如文字這般容易識別和記憶，所以IP位址通常由個別 FQDN來表示。相同的小數點區分之ΪΡ位址也可表示成另一種形式，以下將封論之。根據本發明的一個態樣，特色擷取組件1 3 0焦點放在訊息Π 0内含的寄件人IP位址》寄件人IP位址係根據昱少部分收件人的IP資訊。一般而言，透過網際綱路傳送的郵件會從伺服器傳輸到伺服器，一次至少牽涉到兩個伺服器（例如一個寄件伺服器以及一個收件伺服器）。在極 13 1353146 為少見的情況中，用戶端可直接傳送到伺服器。在某些情況下，由於存在著防火牆，所以會牽涉到許多伺服器，這樣郵件或訊息才能從一個伺服器傳送到其他伺服器。尤其是，某些伺服器位於防火牆之内，因此只能與防火牆外面的指定伺服器通訊。這導致訊息從傳送器到接收器之間的跳躍數量增加。寄件人行包含 IP位址，幫助追蹤訊息的路徑確定訊息來自何方。當訊息1 1 0從伺服器移動到伺服器，每個聯絡的伺服器會將 IP位址（接收訊息用的）的識別事先規劃到訊息的寄件人欄位（即是 ” R e c e i v e d : ”欄位），以及其交談的祠服器所謂之 FQDN名稱。此 FQDN由傳送伺服器透過 SMTP通訊協定的 HELO指令告知接收伺服器，因此若傳送伺服器位於組織之外就不可信任。例如，訊息可具有五行擁有 5個IP位址與事先規劃 FQDN的寄件人行，這表示此訊息已經通過六個不同的伺服器（即是已經通過 5 次），而且以其事先規劃的反向順序排列（即是最後一個排第一）。不過，每個伺服器都具有修改任何較低（較早規劃）行的能力。這在訊息於多個伺服器之間傳遞時，特別有問題。因為每個中間伺服器都可改變任何較早寫入（較低）的寄件人行，垃圾郵件寄件人可偽造IP位址成為訊息的寄件人行，將寄件人 IP資訊或垃圾郵件訊息的寄件人偽裝起來。例如，垃圾郵件訊息初次出現時是傳送自 trusleddomain.com，如此會誤報真實的訊息來源給收件人。對於垃圾郵件軟體最重要的就是迅速識別傳送到組織 14 1353146 内伺服器的組織外 ip位址，因為此 ip位址由組織内的接收伺服器撰寫，因此可看待成正確的 IP位址。組織外的所有其他 IP位址都不可信賴，因為其由組織外的伺服器所撰寫，因此可能修改過了。在收件人組織路徑内可能牽涉到傳送伺服器的許多IP位址，但是因為只有一個可以信賴，我們將這個可以信賴的稱為「寄件人J IP位址。

讓垃圾郵件過濾軟體發現此寄件人IP位址的方式就是知道組織内的郵件伺服器組態，一般而言，若知道在哪種情況下由哪個機器傳遞到其他機器，如此就可決定出寄件人的 IP位址。不過，尤其是對於安裝在電子郵件用戶端内的垃圾郵件過濾軟體來說，並不方便說明伺服器的組態。另一種方式牽涉到利用 MX記錄來決定訊息的真實來源。對於每個網域名稱而言，MX記錄清單，就是該網域的電子郵件收件人之 FQDN。吾人可透過從清單所接收的往回追蹤，直到發現 IP位址對應到網域的 MX記錄内實體所對應的 FQDN。此機器接收的IP位址為寄件人的IP 位址。想像 1 · 2.3 · 1 0 1 為 X · c 〇 m唯一的 Μ X記錄。然後找出接收自1.2.3.101這一行，吾人可瞭解下一行就對應到 X . c 〇 m的傳入郵件伺服器，如此該行内的 IΡ位址就對應到傳送至 X.com的 IP位址。下表說明上面討論用於決定真實訊息來源的範例分析：行註解 Received: from a.x.com x.com内部寄送 15 1353146 ([1.2.3.100]) by b.x.com Tue? 22 Apr 200313:11:48-4700 Received: from mailservenx.com 1.2.3.101為x.com的MX記錄，所以我們 ({1.2.3.101 })by b.x.com Tue5 22 Apr 2003 12:11:48-0700 知道下一行為x.com内部 Received: from outside.com 此為x.com接收訊息的地方： ({4.5.6.7})by mailserver.x.com 此為最真實的一行，使用4.5.6.7作為寄件 Tue, 22 Apr 2003 11:11:48-0700 人的IP位址 β Received: fromtrustedsender.com ({8.9.10.11 })by outside.com Tue，22 Apr 2003 10:11:48-0700 此行為4.5.6.7上伺服器偽造的結構

目前來說，列示外送郵件伺服器並無可接受的標準，並且有可能失敗，舉例而言，組織内部的 IP位址與組織外部的不同，或若是組織從Μ X記錄内列的一部機器間接傳送郵件到 MX記錄内列的其他機器。進一步，在發現以上述方式發現的寄件人 IP位址位於組織内部之特殊案例中，若 MX記錄内的一部機器傳送至 MX記錄内的其他機器，就會發生此情況，處理會繼續。此外，特定IP位址可偵測為内部（因為其為 1 Ο X · y. z或 1 7 2 · 1 6 _ y z到 172.31.y.z 或 1 92.1 68.0.Z 到 1 92.1 68.255.Z 的形式，此為只有内部 IP位址會使用的形式）；組織内部的任何位址都可信賴。最後，若寄件人行為 "Received from a.x.com [1.2_3.100]"的形式，並且 a.x.com的 IP位址查找可得 16 1353146 出 1.2.3.100 或 1.2.3.100 的逆向 IP位址查找得出 a. X . c 〇 m，並且若 X . c 〇 m為組織的話，則下一行也可信賴。使用這些結果，這樣通常可發現寄件人的IP位址。範例虛擬碼如下： bool fFoundHostlnMX;

if (external IP address of MX records matches internal IP address of MX records)} fFoundHost.InHX = FALSE; # it's worth looking for> else } fFoundHostlnMX =TRUE; # it's not worth looking for, pretend we already found it) for each received from line of the form Received from a.b.c [ij.k.l] { if i.j,kJ in MX records of receiver domain fFoundHostlnMX = TRUE; { continue; }

If not fFoundHostlnMX { # Has not yet gone through an MX record, must be internal continue; ) if i.j.k.l is of form 10 . x . y . z or 17 1353146 172.16-y.zto 172.31.y.zor 192.168.0.2 to 192.1G8.255.Z ( # Must be internal continue; }

if DNS lookup of a.b.c yields i.j.k.l and b.c is receiver domain #Must be internal continue; }Output sender’s alleged FQDH a.b.c and sender’s actual IP address i. j.k.k }

If we reach here, then Error: unable to identify sender’s alleged F&DM and sender's, actual IP address

使用寄件人的 IP位置搭配其他來源地與目的地特色可以做很多事情。首先，可將此位置新增至一致不良寄件人清單，也就是「黑名單」。之後可使用「黑名單」過濾、阻擋或間接不信任訊息到可以進一步調查的適當資料夾或位置。另外也可產生與實施其他清單種類，而成為主從式架構的過濾器。在用戶端架構中，使用者可通知要接收郵件 18 1353146

(即是郵寄清單、個人等等）的用戶端電子郵件軟體。使用者可手動或自動產生對應至可信賴電子郵件地址的記錄清單。因此，可想像具有電子郵件地址 "b@zyx.com"的寄件人寄給使用者一封電子郵件訊息。寄件人的電子郵件地址 b@zyx.com 由使用者名稱 'b' 以及 FQDN/IP 'zyx.com'構成。當用戶端接收來自寄件人（b@zyx.com) 的傳入訊息11 0，其會在可信賴的寄件人清單中搜尋使用者的電子郵件地址，判斷使用者是否指示'b@zyx.com'為有效並且可信賴的地址。針對伺服器架構，清單可直接位於伺服器内。因此，當訊息到達訊息伺服器，其個別特色 (例如寄件人的 IP位址、MAIL FROM 或 HEL0欄位内的網域名稱，以及其他來源地與/或目的地資訊）可與訊息伺服器上的清單做比較。判斷來自有效寄件人的訊息可根據用戶端式或伺服端式遞送通訊協定，遞送給所要的收件人。不過，判斷包含問題清單内來源地或目的地特色或不良特色的訊息則會移到垃圾郵件丟棄，或者另外地進行特殊處理。另外可傳播信賴或不良來源地特色的清單，可擷取寄件人的來源地特色（例如 IP位址、所謂的 F r 〇 m位址）作為一或多個特色，並稍後與機器學習技術結合用於建立與/或訓練過濾器。從訊息標題任何部分内的電子郵件地址（例如寄件人的地址或回覆地址 FQDN上之 IP查找表），或從嵌入於訊息本體内 URL連結網域名稱部分之IP位址查找表， 19 1353146 獲得IP位址’或若是URL的 FQDN/IP部分時’從ip 位址直接獲得。更進一步’如稍後會說明’ IP位址具有許多屬性，每一個都可用來作為機器學習系統的特色，或作為使用者傳播清單上的元件。如此，在第二方式中，特色擷取組件13 0可利用IP位址的許多子部分來產生額外特色。從每個傳入訊息11 〇中都可獲得上述任何特色組合。訊息可隨機、自動與/或手動選擇參與特色擷取，不過通常是全部訊息都參與擷取。之後’擷取的特色集合會套用到過濾器命名組件140 ’這樣機器學習系統或任何其他系統會建立與/或訓練過濾器15 0成為垃圾郵件過濾器。此時請參閱第2圖，其中說明依照本發明一個態樣，有助於將傳入訊息 210的一或多個特色去除障礙或正規化之特色擷取系統200。最終’根據至少部分一或多個正規化的特色可建立過濾器。系統200包含：一特色擷取器組件 220，其用於如所示直接接收傳入訊息 210，或利用訊息接收器（第1圖）間接接收。選擇用於或參與特色擷取的傳入訊息可根據使用者的喜好設定加入系統200。另外，之後所有傳入訊息都可用於並參與特色擷取。特色擷取牽涉到從訊息 2 1 0取出相關來源地以及/或目的地資訊的一或多個特色 230 (也稱為 FEATHRE1 232 ' FEATURE2 234 以及 FE ATUREM 23 6，其中 Μ 為大於等於一的整數）。來源地資訊與指示訊息寄件人的元件以及伺服器網域名稱有關，以及與指定訊息來自何方的相關 20 1353146 識另1丨資訊有關。目的地資訊可與指示收件人可將其回覆訊息寄給誰或何處的元件有關。在訊息的標題内以及訊息本體内都可發現來源地與目的地資訊，讓訊息收件人可看見或隱藏起來（例如嵌入作為文字或嵌入影像内）。因為垃圾郵件寄件人經常試圖偽裝以及或混淆其識別，避免傳統垃圾郵件過濾器偵測到，系统2 0 0包含特色正規化器組件 240,其幫助讓一或多個擷取的特色 230消除障礙，或讓至少部分特色消除障礙。特色正規化器組件 2 4 0可處理以及/或細分擷取的特色 2 3 0，這樣利用分析擷取的特色 23 0 (例如 FQDN -參照區塊以及 MX記錄的目錄，以及/或根據其目前的格式轉譯 FQDN)，然後將其與現有垃圾郵件寄件人清單的資料庫，以及/或親代控制清單做比較。在以下第 4圖内討論的某些案例中，像是當擷取的特色為 URL字首以及/或字尾時也可移除，以幫助將特色正規化，並識別 URL是否指向垃圾郵件寄件人的網站或合法來源。一旦特色已經正規化，則訓練系統 2 6 0可運用 250 至少一子集，如此機器訊息系統就可建立以及/或更新過濾器 2 7 0。過濾器可訓練用於作為垃圾郵件過濾器。更進一步，過濾器可利用正面特色建立以及/或訓練，例如指出非垃圾郵件來源（例如寄件人的 From電子郵件地址、寄件人的IP位址、嵌入的電話號碼以及/或 URL)以及/或非垃圾郵件寄件人，以及利用負面特色，例如識別相關垃圾郵件寄件人。 21 1353146 另外或此外，特色的集合可用於傳播新的或新增至現有的垃圾郵件特色清單280。其他清單也可產生對應至特定擷取特色，像是良好位址清單、不良位址清單、良好URL 清單、不良URL清單、良好電話號碼清單、以及不良電話號碼清單。良好特色清單可識別非垃圾郵件寄件人、過去合法的寄件人、以及/或與非垃圾郵件相似性非常高的寄件人（例如有〜9 0 %機會不是垃圾郵件來源）。反過來說，不良特色清單對應至垃圾郵件寄件人、潛在的垃圾郵件寄件人、以及/或與垃圾郵件相似性非常高的寄件人（例如有 ~90%是垃圾郵件來源）。此時請參閱第3 -6圖，其中說明根據本發明許多態樣，可分別從 IP位址、FQDN '電子郵件地址、以及 URL 取得與擷取來幫助偵測並防治垃圾郵件的範例特色。第 3圖說明依照本發明一個態樣的IP位址 3 00之範例分類。當表示成小數形式時（例如四個區塊，每個區塊 3位數，其令每個區塊由句點區分，並且其中每個區塊 3位數為介於 0與 255之間的任何數），IP位址 300的長度有 3 2位元並且分配成區塊（例如網路區塊）。區塊依照等級指派，像是 Class A、Class B以及 Class C。每個區塊包含一組IP位址數字，其中每區塊的IP位址數字依照等級變化。也就是根據等級（即是 A、B或 C )，每個區塊可指派更多或更少位址。區塊的大小通常是 2的乘幕，並且相同區塊内的IP位址組會共享第一 k二進位數，並且在之後的 32-k (例如 32減去 k)個二進位數内不同。 22 1353146 如此，每個區塊都可根據其共享的第一 k位原來識別（區塊 ID 302)。為了判斷區塊 ID 302相關特定 IP位址 300，使用者可參照區塊的目錄，像是 arin.net。再者，可裸取區塊 ID 3 02並運用作為特色。不過在某些情況下，因為區塊内IP位址群組可進行區分，並且不限次數重新區分，所以參考 arin.net也無法迅速判斷區塊 ID 3 0 2。在此案例中，使用者或擷取系統可對個別 IP位址的區塊 ID 3 0 2進行一或多次猜測。例如，使用者可擷取至少一第一 1位元 304、至少一第一 2 位元 306、至少一第一 3位元 308、至少一第一 Μ位元 310 (即 Μ為大於等於一的整數）以及/或最多至少一第一 3 1位元3 12作為個別特色，由機器學習系統共同使用以及/或作為特色清單（例如良好特色清單、垃圾郵件特色清單等等）上的元件。在實施方面，例如可擷取 IP位址的第一 1位元並用來作為特色，以判斷 IP位址是否指向垃圾郵件寄件人或非垃圾郵件寄件人。可與從其他訊息擷取來自其他IP位址的該第一 1位元做比較，以幫助判斷至少一個區塊 ID。然後識別至少一個區塊ID可幫助察覺訊息是否來自垃圾郵件寄件人。再者，共享第一 Μ位元的 IP位址可分別與其他擷取的特色比較，以確定IP位址是否來自合法的寄件人以及/或個別訊息是否為垃圾郵件。 IP位址也可依照階級配置（3 1 4 )，也就是，一組較高階的位元可分配到特定國家内。此國家可分配一子集給 23 1353146 IS P (網際網路服務供應商），然後該I s P分配子集公司。因此，許多等級對於相同的 IP位址來說都有例如，事實上來自分配給韓國的區塊之 IP位址對 IP位址是否相關垃圾郵件寄件人非常有用。若 IP 配置給具備嚴格防禦垃圾郵件寄件人的 ISP之塊，這在判斷 IP位址並未相關垃圾郵件寄件人也用。因此，運用 IP位址的每個第一 1 - 3 1位元結 IP位址子集的階層配置 3 1 4，使用者可自動學習不上的資訊，而不需要確實知道配置IP位址的意義不需要知道區塊ID)。除了上述討論過的特色外，利用執行合適的計：或利用比較特色出現在傳入訊息取樣内的頻率或次計資料，來決定特色的稀有項 3 1 6 (例如特色的發常見）。實際上，非常見IP位址 300可為用於傳郵件的撥接線路範例，這是垃圾郵件寄件人常用的垃圾郵件寄件人經常試圖修改其識別以及/或位置。事實上特色常見或非常見是有用的資訊。因此，特有項 3 1 6可用來作為機器學習系統的特色以及/或份清單的一部分（例如稀有特色清單）。第 4圖展示 FQDN 400的範例特色分類，像 b.x.com。FQDN 400可從 HELO欄位中擷取（例如的稱謂 FQDN)，並且通常包含主機名稱402以及稱 404。主機名稱 402就是特定電腦，在此範 "b "。網域名稱 4 0 4就是網際網路上至少一部機器給特定 '意義。於判斷位址為部分區非常有合至少同等級 (例如暮以及/ 數的統生並不遞電子手法。如此，色的稀至少一是範例寄件人網域名例中為或一組 24 1353146 機器的名稱。在範例中，"x.com”代表網域名稱404。FQDN 400的階層分類由 406表示。尤其是，B.X.COM 408 (全 FQDN 400)可部分分離成 X.COM 410 (部分 FQDN)，然後可分離成COM412(部分FQDN)，藉此每個部分FQDN 都可運來作為特色。某些特色，像是寄件人資訊，主要用於作為IP位址。如此，將FQDN 400轉換成可分解成額外特色的Ip位址 300 (如第3圖内所示）就非常有用，因此相當容易建立新的主機名稱與網域名稱，但是相當難以獲得新的Ip位址。不幸的是’網域的所有人會將明顯不同的機器全都映射到相同的地方。例如’名為 "a.x ·c 〇 m "的機器之所有人與"b-x.com"的所有人相同，而又與"x.c〇m”為同一個所有人。如此，垃圾郵件寄件人可輕易誤導傳統過滅器，讓它相信訊息來自FQDN 400 "b.x.com"而非來自網域 4 0 4 ” X . c 〇 m ”，藉此讓訊息通過垃圾郵件過濾器，音取p柳身I緊上網域 404 "X.com"已指出：訊息為垃圾郵件戋非蚩細， τ凡井常類似垃圾郵件。因此，當裸取訊息的來源地以及/或目的地資^^時將位址分離來簡化網域名稱4 04就非常有用。此外，可拍員取完整 FQDN 400作為特色。在某些情況中’可有額外資源，像是親代控制系統。這些資源通常對主機名稱以及/或URL指派—「括相 + 裡類」或品質評估，像是色情或暴力。擷取的特色可進—步使用這種資源，其係依照種類區分。然後可使用特色的特色種類 25 1353146 4 1 4作為相關於建立以及/或訓練改善的垃圾郵件相關的過濾器的額外特色。另外，可產生對應到不同特色種類（之前已經識別過）的清單。特色種類4 1 4包含但不受限於性或色情相關特色、種族以及/或仇視語言相關特色、身體增進特色、收入或財務特色、家庭購物特色等等，一般以訊息的標題來識別。最後，特色或特色種類的稀有項 316 (請參閱以上第 3圖）可為上面第 3圖内討論的其他特色。例如，從訊息中擷取的特色，像是從 FQDN 400 "b.x.com"中擷取的主機名稱"B" 402可為特色種類：色情内容的常見範例。因此，當從訊息中擷取此特色並且在色情内容特色清單上發現此特色，可得出結論，此訊息非常類似垃圾郵件，或者不適合/不合適所有年齡，或構成成人内容（例如成人分級）等等。如此，每個清單都可包含：許多特定種類的常見特色。另外，常在垃圾郵件訊息中發現對應的IP位址，就可指定成為垃圾郵件的常見特色。再者，可運用特色的共通性以及/或稀有性作為機器循係或其他規則系統的個別特色。第 5圖展示電子郵件地址 500: a@b.x.com的範例特色分類，其包含：FQDN 400以及一些額外特色，像是使用者名稱502。電子郵件地址 500可從訊息的 From欄位、c c (副本抄送）欄位，以及 r e p 1 y -1 〇攔位中擷取，以及從訊息本體中的任何 m a i 11 〇 : 連結中棟取（例如 mailto:連结為按下時會產生郵件寄送至特定地址的特殊 26 1353146 種類的連結），並且若可用的話，則從 SMTP通訊協定内使用的 MAIL FROM指令中擷取。電子郵件地址 500也可嵌入作為訊息本體内的文字。在某些情況中，訊息内容會在回應訊息時引導收件人使用’reply all·功能。在此情況下，cc欄位以及/或至少'to'欄位中（若列出超過一個收件人的話）所包含的地址也都會回覆。如此，這些地址每一個都可擷取作為一或多個特色，以幫助識別與防治垃圾郵件寄件人。電子郵件地址 500 "a@b.x.comn可分成許多元件或子部分，並且這些元件可擷取出來並且用來作為特色。尤其是，電子郵件地址包含：使用者名稱502，以及FQDN 504 (例如請參閱第 4 圖内的 FQDN 400)，其可進一步分成額外特色。針對許多實際上的原因，像是容易使用承認以及重新收集，通常使用 FQDN而不是 IP位址來表示電子郵件地址。在目前的範例中，na@b.x.com”包含使用者名稱 502 "a"。如此，可擷取 "aM作為一個特色。相同地，FQDN 504 "b.x.com”可從電子郵件地址擷取出來作為至少另一個特色。電子郵件地址 500的 FQDN 504部分可通過親代控制過濾器，以幫助判斷先前第4圖内詳細說明過的特色種類414。因此，與電子郵件地址 500的 FQDN部分有關的特色種類可用來作為額外特色。除了電子郵件地址以外，垃圾郵件寄件人通常透過 U R L來聯絡。第 6圖依照本發明一個態樣說明複數個擷 27 1353146 取特色的範例 URL 600 (例如 x y.com/a/b/c；)。URL 600 可丧入作為訊息本體内的文字，以及/或作為訊息本體内的影像。例如’垃圾郵件寄件人可包含：到網站的指標器，藉此導引收件人到垃圾郵件寄件人的網頁或相關網站。 URL可用類似IP位址的方式消除阻礙。一開始可在消除URL 600的阻礙之前移除任何字首（例如服務名稱）’像是 1^卩：//、1^?3://、〇13://、^11^1://。此外，若，，@，，符號（例如十六進制符號中的％4〇)出現在URL之中，則字首（例如 http://)與符號之間的任何東西都可在將URL 4 00正規化之前移除。在字首與"符號之間插入文字是垃圾郵件寄件人的另一項技倆，用於混淆訊息收件人其所導引到的真實網頁位置。例如，顯示 htip:"wwvv.amazon.c〇m@12 1.122.123.124/info.htm 給訊息收件人，就像此網頁位於 www.amazon.com —樣。如此’收件人就會更傾向相信此連結，更重要的是更相信訊息寄件人。相反的，真實網頁位置位於 " 121.122.123.124”，這實際上對應到垃圾郵件相關的網頁。不過在某些情況下，合法寄件人會在此URL 400部分内併入授權資訊，像是登入名稱與密碼，以幫助自動登入0 一旦正規化並且解除阻礙，基本上 URL 600可表示為 x.y.com/a/b/c，其中 χ·y·com 63 0 為機器的名稱 (FQDN)，並且a/b/c (例如字尾）為機器上檔案的位置。 28 1353146 若將x.y.com/a/b/c 600識別為垃圾郵件寄件人’然後也非常有可能將x y.com/a/b 610 ，以及x.y.com/a 620識別為相同或相關垃圾郵件寄件人。如此’ URL 600通道的末端部分可一次分離一個部分，以獲得機器學習系統或清單的額外特色。這讓垃圾郵件寄件人難以用不引起注意的方式，建立許多實際上導引至其所在地的不同位置。當分離字尾時，FQDN 630可進一步剖析，以獲得先前第 4圖内討論的額外特色。更進一步，FQDN 630也可轉換成 IP位址，如先前第 3圖内所展示。因此，與 IP位址有關的許多特色也可用來作為特色。某些 URL寫入 IP位址代替 FQDN (例如小數點形式）’像是 nnn.nnn.nnn.nnn/a/b/c »字尾可從 "c" 開始連續移除’並且在每個階段上，結果（部分）URL可用來作為特色（例如 nnn,niin.nnn.nnn/a/b、nnn.nnn.nnn.niin/a 以及nnn.nnn.nnn.nnn都是從小數點形式的URL·内擷取出來的可能特色）。之後’可使用I p位址（例如無字首與字尾）作為特色。然後可映射到其網路區塊^若網路區塊無法確定’則使用IP位址的每一1、2.··.到第一 η位元作為分離特色（請參閱第3圖），來進行多重猜測。除了小數點形式以外，IP位址可表示為dw〇rd (雙重

字元）格式（例如以10為底的、< - A 句低的16位兀之兩個二進位字元）、八進位形式（例如以8為&、、，丄，马底）以及十六進位格式（例如以16為底）。實際上，垃圾齙技史讲, 紙郵件寄件人可使用％nn符號（其中 nn為一對六進位勃疋仪数）對網域名稱部分編碼，來 29 1353146 混淆 IP位址、URL、MAILTO連結、以及/或 FQDN。某些 URL可包含用於混淆或欺騙使用者的重新導引器。重新導引器為跟隨在URL的IP位址内"？"之後的參數或一組參數，其指示瀏覽器重新導引至其他網頁。例如 ’ URL 可能像是 'www.intendedpage.com7vwvw.actualpage.com" > 其中劉覽器實際指向”wvvw.actualpage.com"，並載入該網頁，而非預期的"www.intendedpage.com”網頁。因此，URL内含的參數也可考慮擷取作為特色。此時將透過一連串動作來說明依照本發明的許多方法。吾人可瞭解並明白，本發明並不受限於動作的順序，而依照本發明的某些動作的發生順序以及/或時機可能與此處顯示與說明的其他動作不同。例如，某些精通此技術的人士就可瞭解，可另外以一連串相關聯的狀態或事件來表示方法。再者’實施依照本發明的方法時並非所有說明的動作都需要。此時請參閱第7圖，其説明幫助訓練依照本發明—個態樣的過濾器之範例處理700流程圖。處理700在7 〇上開始接收訊息（例如至少一個訊息）。訊息可由伺服器接收，其中現有的過濾器（例如垃圾郵件過濾器）可根據至少部分之前學習的準則集合來區分訊息像是垃圾郵件、或不像垃圾郵件。在 720上將訊息剖析以擷取一或多個特色。擷取的特色進一步詳細說明於725 (之後的第圖上）》特色的範例包含：位於寄件人欄位、回覆欄位、副本 30 1353146 抄送攔位、郵寄至欄位、MAIL FROM SMTP指令、位、嵌入文字或作為圖片的 URL位址、以及/或號碼（例如區碼以映射地理區域）以及訊息主體内之資訊（例如寄件人的IP位址）。在 730上可將擷取（以及/或正規化）特色的區分（例如垃圾郵件或非垃圾郵件）新增至資集合上。在 7 4 0上，上述流程（例如 7 1 0、7 2 0與重複用於後續傳入的所有訊息上，直到依此處理上，可從訓練集合中選擇像是有用或最有用的特ί 上，可運用這些選取的特色，而利用機器學習演練過濾器，像是機器學習過濾器。一旦訓練過，機器學習過濾器就可用於幫助郵件，如第 8圖内範例方法 800所說明。方A 8 1 0上開始接收訊息。在 8 2 0上，從訊息中擷取特色，如底下關於第11圖之說明。在 830上，色通過由機器學習系統所訓練的過濾器。之後，習系統獲得像是「垃圾郵件」、「非垃圾郵件」或是垃圾郵件的裁決。一旦獲得裁決，不管訊息的採取適當的動作。動作種類包括但不受限於：刪將訊息移動到特殊資料夾、隔離訊息、以及允許取訊息。另外，利用從訊息擷取特色可執行清單式活閱第 9圖，其說明範例處理 9 0 0的流程圖，此根據至少部分擷取的特色建立與傳播清單，並且 HELO 欄一般電話内的文字以及訊息料的訓練 730)可。在 750 ^。在 760 算法來訓偵測垃圾：800 於一或多個擷取的特從機器學訊息可能内容都會除訊息、收件人存動。請參處理用於發生：接 31 1353146 收已經區分為垃圾郵件或非垃圾郵件（或像是或圾郵件）的訊息。處理 900於 910上開始接收後，在 9 2 0上擷取某些相關特色，像是訊息寄4 位址。在接收訊息後的某個時間上，訊息可利用濾器區分成垃圾郵件或非垃圾郵件。在 9 3 0上，的區分（例如垃圾郵件或非垃圾郵件），可遞增數。在 9 4 0上會重複此流程，直到後續所有訊息理（例如在 910、920與 930上）。此後在 950 色的清單。例如，可建立一份其中90%是良好 IP位址清單（例如 90%的時間不是垃圾郵件的傳入訊息不是垃圾郵件）。相同地，可建立一份是不良（垃圾郵件）的寄件人IP位址其他清單色的其他清單可用類似方式建立。吾人可明白，這些清單可為動態。也就是，新訊息群組的處理來更新。因此，寄件人的 IP 初次在良好清單中發現，並且在某些時間之後，垃圾郵件寄件人常用來傳送良好郵件（例如增加及收件人的「信賴」），然後開始只有傳送垃圾郵發現位於不良清單中。這些清單可有許多利用方法。例如，可用來學習系統所使用的訓練集合以訓練過濾器。接Ί 圖内將說明範例處理 1 0 0 0。根據第1 〇圖，處理在 1 0 1 0上開始接收訊息。訊息可區分成垃圾郵圾郵件。在 1 0 2 0上，特色包含但不受限於：可不像是垃訊息。之年人的 IP 現有的過根據訊息特色的計都已經處上建立特的寄件人，或 9 0 % 其中 9 0 % 。其他特其可隨著位址可能隨著某些過渡器以件後，就產生機器「來第 10 1 000 可件或非垃從訊息内 32 1353146 擷取出來的寄件人 IP位址。在 1030上，擷取的特色與訊息的區分會新增到訓練集合内，後續用於訓練機器學習系統。

之後在 1 0 4 0上，對應至其上有寄件人IP位址這個特定清單的特殊特色包含在訓練集合内。例如，若寄件人 IP位址位於「90% 良好」清單上，然後新增至訓練集合的特色就會是「90% 良好清單」。在 1 050上，重複之前的步驟（例如 10 10、1 020、1 03 0與 1 040)來處理後續所有傳入的訊息。因為某些特色比其他特色對於過濾器訓練目的來說更有用，最有用的特色就是在 1060上部分根據使用者的喜好設定來選擇，並且使用機器學習演算法來訓練過遽器，像是垃圾郵件過遽器。

再者，IP位址的動態清單可架構來與測試訊息、新訊息、以及/或猜疑訊息做比較。不過，在此實例中 IP位址本身並非特色。取而代之的是，IP位址的品質才是特色。此外，該清單只能用於其他方法。事實上，猜疑 IP位址的清單可用於將寄件人標示為不良，並因此猜疑他們的訊息。此時請參閱第1 1圖，其中說明分別與上述第 7-10 圖内說明的處理 700、800、900與 1000結合，從訊息擷取特色的範例方法1 1 〇〇之流程圖。方法1 1 〇〇 —開始時在 1110上擷取並正規化寄件人 IP位址或一部分。另外在 1 1 1 0上，IP位址可進行位元式處理（例如如第 3圖内所說明的第一 1位元、第一 2位元、...多至第一 31位 33 1353146 元），以便從寄件人 IP位址中擷取額外特色。更進一步，在 1110上也可擷取寄件人所謂的主機名稱。此時將正規化的寄件人 IP位址以及寄件人主機名稱特色作為機器學習系統或相關訓練系統的特色。選擇性，在 1120上，可擷取以及/或正規化 "From··" 行的内容，並且後續用來作為特色。在 1 13 0上，可簡單擷取以及/或正規化 "MAIL FROM SMTP”指令的内容，來作為特色。然後方法 1 1 0 0可前往尋找訊息内可能包含的其他可能特色。例如，在 1 1 4 0上可選擇性擷取與正規化（若需要的話）回覆欄位内的内容。在 1150上，可選擇性擷取以及/或正規化 cc欄位的内容，用來作為至少一個特色。在 11 6 0上，可選擇性從訊息本體擷取一般電話號碼，並指派作為特色。非電話號碼對於識別垃圾郵件寄件人非常有用，因為電話號碼的區碼以及/或頭三個數字可用來找出垃圾郵件寄件人的位置。若訊息内存在超過一個一般電話號碼，則會在 1 1 6 0上擷取每個號碼並且用來作為特色。相同地，分別在 1 1 7 0與 1 1 8 0上可選擇性擷取以及/ 或正規化一或多個 URL以及/或 MAILTO 連結或一部分。尤其是，URL可進行通道分離（例如 URL的檔名部分），其中可去除附加到 URL的 FQDN部分末端之一或多個字尾。這會導致一或多個部分URL，根據通道内字尾的數量。根據本發明，每個部分 URL都可用來作為個別特色。 34 1353146 方法11 Ο 0繼續掃描訊息本體來找尋其他電子郵件地址，以及垃圾郵件訊息内常見的關鍵字以及/或片語（例如之前選擇或決定的），反之亦然。每個字或片語都可擷取並且用來作為機器學習系統的特色或清單的元件，或這兩者。如先前討論過的，透過網際網路傳送的訊息可以只牽涉到兩部伺服器，從伺服器寄送至伺服器。接觸過訊息的伺服器數量會隨著防火牆的存在以及相關網路架構而增加。當訊息從伺服器傳遞到伺服器，每個伺服器會將其IP 位址規劃成為寄件人欄位，每個伺服器也具有修改任何較早規劃的寄件人位址的能力。不幸的是，垃圾郵件寄件人可利用這項能力，在寄件人欄位内輸入偽造的位址來偽裝其位置以及/或識別，誤導收件人以為到達訊息的來源。第 1 2圖說明範例處理 1 2 0 0的流程圖，此處理用於在傳入訊息的寄件人行内分辨合法與偽裝（例如垃圾郵件寄件人）事先規劃的伺服器IP位址。事先規劃的寄件人地址可用其加入的順序（例如第一個是最近加入的）來規劃。如此，使用者就可透過傳送伺服器IP位址鏈往回追蹤，在 1 2 1 0上判斷最後信賴的伺服器IP位址。在 1 220 上，最後信賴的伺服器IP位址（位於組織之外）可擷取作為機器學習系統使用的特色。在最後信賴IP位址之後的其他任何位址都可考慮為有問題或不受信賴並且可忽略，但是可與良好IP位址（最多）與不良IP位址（最多）清單做比較。在 1 230上，也可擷取寄件人所謂的 FQDN以幫助 35 1353146 判斷寄件人是否為合法或垃圾郵件寄件人。尤其是，所謂的 FQDN 可利用網域剪去法分離，以產生多個部分 FQDN。例如，想像所謂的 FQDN為 a.b.c.x.com。此所謂的 FQDN可用下列方式分離來產生：b.c.x com ->c.x.com ->x.com·〉com。如此，每個部分 FQDN區段以及完整的 FQDN都可用來作為個別特色，以幫助判斷偽造或合法寄件人。本發明也運用到親代控制系統，親代控制系統根據至少部分訊息某些内容將訊息區分為不適合觀看，並提供不適合觀看的區分理由。例如，URL可嵌入訊息内作為可按的連結（不管是文字或影像式），或作為訊息本體内的文字。親代控制系統可將嵌入的 URL與其儲存的一或多個良好以及/或不良 URL清單做比較，以判斷訊息的正確區分，或使用其他親代控制區分技術。此區分可用來作為機器學習系統或特色清單上或這兩者的額外特色。在第1 3圖内，展現將親代控制系統至少一態樣併入本發明内的範例處理 1 3 0 0之流程圖。在 1 3 1 0上接收一組訊息之後，會在 1 320上掃描訊息的 URL、郵寄至連結或可重新組合成郵寄至連結、URL或 URL某部分的其他文字。在 1 3 3 0上，若訊息未出現包含上述任何一種，則處理 1 3 0 0會返回 1 3 1 0。不過，若訊息有上述情況，然後在 1 3 4 0上會將至少部分偵測到的字元送至至少部分親代控制系統。在 1 3 5 0上，親代控制系統可利用參照一或多個 36 1353146 URL、郵寄至連結、URL服務名稱、URL路徑以 (例如像是 URL的 FQDN部分、電子郵件地址料庫，來區分郵寄至連結或其部分。例如，訊息包含至少一色情圖片、償清債務、賭博以及其他藥在 1360上可擷取這種區分作為特色。因為垃圾的主要主題發信者包含這些題材，在獲得額外特學習系統用來訓練與建立改良式過濾器而言，併制系統就非常有用。其他存在的區分包含但不受言語、色情題材、搶砲暴力以及毒品相關題材，區分可用來作為特色。垃圾郵件訊息可以或不牽些題材種類有關的主題發信者，但是使用者仍舊些訊息。實際上，不同的區分可指示不同的垃圾郵件如，區分為仇恨語言的訊息表示沒有明顯垃圾郵 (例如因為其並不像垃圾郵件）。相對的，區分為材的訊息可反出相當高的垃圾郵件程度（例如定該訊息為垃圾郵件）。機器學習系統可建立會考件程度的過濾器。如此過濾器就可客製化並個人使用者的喜好設定。如已經討論過的，從訊息中可擷取無數的特於作為機器學習系統的訓練資料或識別良好與不清單上之元件。除了特色本身以外，特色的品質與防治垃圾郵件非常有用。例如，想像一個特色的電子郵件地址。電子郵件地址可用來作為一個及 FQDN 等等）資可區分成丨似題材。郵件訊息色讓機器入親代控限於仇恨其中這種涉到與這要阻擋這程度。例件的程度 t内容/題〜90%確慮垃圾郵化來滿足色，並用良特色的對於偵測為寄件人特色，並 37 郵件地址出現在新傳人訊息内的頻率或次數可用术作為其他特色。圖說明用於擷取這種特色（例如與擷取特色的通用性或稀有性古有關）的範例處理〗4〇〇之流程圖。垃圾件寄件人通常試圖快速改變其位置，結果通常快過大多數使用者從之前未見過的地址傳送料，或用指向之前未知機器的 URL來值·^翻彼 m f 傳运郵件。因此，針對每種已經擷取的特色種類（例如寄件人IP &址、URL、電子郵件地址、網域名稱等等），假設已經保留每種特色的清單特定特色發生的機率或可追蹤的次數。處理丨4〇〇在M10上開始從傳入訊息以及/或特色正規化中掘取一或多個特色。然後在1420上將特色與一或多個在複數個先前訊息中擷取與觀察到的特色清單做比較。然後處理1 4 〇〇可判斷本特色是否常見。利用計算特色出現在最近以及/或之前傳入訊息的頻率，就可判斷特色的常見性。若在1 430上訊息不常見或不充分常見（例如無法滿足常見性臨限），則其稀有性可在1 440上作為額外特色。否則，在 1450上特色的常見性也可用來作為特色。依照上述的本發明，下列虛擬碼可用來執行本發明至少一個態樣。變數名稱全部用大寫表示。另外請注意’在虛擬碼末端上定義了兩個函數，add_machine_features以及 add-ip-features。像是"PREFIX-machine-MACHINE" 的表示法用來指示字串由PREFIX變數連結"machine” 這個字益連結 MACHINE變數所組成。最後’函數 38 1353146 add-to-feature-list寫出目前訊息相關的特色清單之特色。範例虛擬碼如下： #for a given message, extract all the features IPADDRESS : = the last external IP address in the received-from list; add-ipfeatures(received, IPADDFESS);

SEHDERS-ALLEGED-FQDN : = FQDN in the last external IP address in the received-from list; add-machine-features (sendersfqdn, SENDER -ALLEGED-FQDN); for each email address type TYPE in (from, CC, to, reply-to, embedded-mailto-Iink, embedded-address, and SMTP MAIL FROM) {

for each address ADDRESS of type TYPE in the message { decbfuscate ADDRESS if necessary; add-to-feat lire-list TYPE-ADDRESS; if ADDRESS is of the form NAMEMMA.CHIME then { add-machine-features(TYPE, MACHINE); } else { #ADDRESS is of form NAME@IPADDRESS add-ip-features(TYPE5 IFADDRESS); 39 1353146 for each url type TYPE in (clickable-links, text-based-1 inks, embedded-image-links) {

for each URL in the message of type TYPE {

deobfiiscate URL; add-to-feat Lire-list TYPE-URL; set PARENTALCLASS :- parental control system class of URL; add-to-feature-list TY PE-class-PARENTCLASS; while UF'L has a location suffix { remove location suffix from UF;L? i.e. x.y/a/b/c -> x.y/a/b; x-y/a/b -> x.y/a; x.y/a;

} # All suffixes have been removed; URL is now either machine name or IP address if URL is machine name { add-machine-features (T'YPE, URL); } else 40 1353146 add-ip-features(TYPE, URL); } }

} function add-machine-features(PREFIX, MACHINE) add-ip-feature$(PREFlx-ip, nslookup(MACHINE); while MACHINE not equalMM { add-to-feature-list PREFIX-machine-MACHINE; remove beginning from MACHINE # {i.e. a.x.com—> x.com, or x.com -> com); } } function add-ip-features(PREFIX, IPADDPESS) {

add-to-feature-list PREFIX-ipaddress-IPADDPESS; find netblock METBLOCK of IPADDRESS; add-to-feat Lire-list PREFIX-netblock-NETBLOCK; for M = 1 to 31 1 MASKED = first N bits of IPADDP.ESS; add-to-feature-list PREFImasked -M- MAS Γ EF'; 41 1353146 第f丨i3g?3號專利案I從年^月修$ 為了提供本發明許多態樣的額外内容。第15圖以及下列討論用於提供合適的操作環境 1 5 1 0之簡要、一般說明，其中可實施許多本發明的態樣。雖然以一般電腦可執行指令的上下文關係來說明本發明，像是可由一或多部電腦或其他裝置執行的程式模組，精通此技術的人士會瞭解，結合其他程式模式以及/或結合硬體與軟體也可實施本發明。不過一般而言，程式模組包含執行特定工作或實施特定資料種類的常式、程式、物件、組件、資料結構等等。操作環境 1 5 1 0只為合適操作環境的一個範例，並且不對本發明的使用態樣或功能性建議任何限制。其他適合用於本發明的已知電腦系統、環境以及/或組態包含，但不受限於個人電腦、手持式或膝上型裝置、多處理器系統、微處理器式系統、可程式消費者電器、網路 PC、迷你電腦、大型主機電腦、包含上述系統或裝置的分散式計算環境等等。請參閱第1 5圖，其為實施本發明許多態樣的範例環境 1510，包含電腦 1512。電腦 1512 包含處理單元 1 5 1 4、系統記憶體 1 5 1 6 、以及系統匯流排 1 5 1 8。系統匯流排 1 5 1 8耦合系統組件，包含但不受限於將系統記憶體 1516耦合至處理單元 1514。處理單元 1514可為許多任何可用的處理器。雙微處理器以及其他多處理器架構也可用來作為處理單元1514。系統匯流排 1 5 1 8可以是許多種匯流排結構，包含記 42 1353146 憶體匯流排或記憶體控制器、週邊匯流排以及/或使用許多匯流排架構的本機匯流排，其中這許多種架構包含但不受限於1 1位元匯流排、工業標準架構（ISA)、微通道架構 (MSA)、延伸ISA (EISA)、智慧驅動電子（IDE)、VESA本機匯流排（VIB)、週邊組件互連（PCI)、萬用序列匯流排 (USB) '先進圖形連接槔（AGP)、個人電腦記憶體卡國際協會匯流排（PCMCIA)以及小型電腦系統介面（SCSI)。系統記憶體 1 5 1 6包含揮發性記憶體1 5 2 0以及非揮發性記憶體1 522。基本輸入/輸出系統（BIOS)包含在電腦15 22内元件之間（像是啟動時）傳輸資訊的基本常式，其儲存在非揮發性記憶體1 522内。藉由說明但不受限於此’非揮發性記憶體 1 522可包含唯讀記憶體 (ROM)、可程式 R〇m (PROM)、電氣可程式 R0M (EPROM)、電氣可抹除ROM (EEPROM)或快閃記憶體。揮發性記憶體1 520包含隨機存取記憶體（RAM)，用來作為外部快取記憶體。藉由說明並且不受限於此，ram可有許多形式，像是同步 RAM (SRAM)、動態 Ram (DRAM)、同步 DRAM (SDRAM)、雙資料率 SDRAM (DDR SDRAM)、增強型 SDRAM (ESDRAM) ' 同步連結 DRam (SLDRAM)以及直接 Rambus。電腦1512也包含可移除/不可移除、揮發性/非揮發性電腦儲存媒體。第1 5圖說明範例磁碟儲存體丨524 ^ 碟儲存體1524包含但不受限於像是磁碟機、軟碟機、磁帶機、JaZ磁碟機、Zip磁碟機、LS-1〇〇磁碟機、快閃呓 43 1353146 憶卡或記憶棒。此外，磁碟储存體i 5 2 4可包含名其他儲存媒體結合的儲存媒體，包含但不受限於片像是小型碟片R〇M裝置（CD-ROM)、CD燒錄機 Drive)、CD可重複抹寫燒錄機（CDRW如叫^ 像光碟ROM裝置（DVD_R〇M)。若要幫助將磁窄置1 524連接到系統匯流排1518，通常使用可移孩移除介面，像是介面1526。吾人可瞭解，第15圖說明用來作為使用者與腦資源（說明於合適操作環境151〇内）之間中^ 體。這種軟體包含作業系統1 528。作業系統i52Y 在磁碟儲存體1 524上’其用來控制與分配電腦系的資源。系統應用程式153〇透過程式模組m2 存在系統記憶冑1516或磁碟儲存體1 524上的港 1 534,利用作業系統1 528管 s埋貢源的優點。吾人- 可用許多作業系統或作業系蛴耒乐統的組合來實施本發明使用者透過輪入裝置牧罝1 536將指令或資訊輪 1512。輸入裝置1 53 6包含不丈限於像是滑鼠# 置、軌跡球、觸控筆、觸控板、鍵盤、麥克風、相戲控制器、衛星碟、掃描器、

色視凋諧卡、數位爲位攝影機、網路攝影機等等。這些與其他輸入裝S 面連接崞1 53 8通過系統㈣排1518連接到處 1514。介面連接埠1 5 3 8包含彻丄产 ^ 3例如序列埠、並列马埠、以及萬用序列匯流排 1 ^ B )。輸出裝置1 5 4 〇些與輸入裝置1536相同的連扭造接淳。如此，例如 '離或與：·碟機， (CD-R :數位影 :儲存裝 =或不可 ^基本電 '物的軟可儲存統 1 5 1 2 以及儲 ‘式資料 T瞭解，〇入電腦 1指標裝 f桿、遊 L機、數 :透過介理單元 ^遊戲使用某 U S B連 44 1353146 接埠可用於提供輸入至雷腮一彻主电腦15丨2,以及從電腦15丨2輸出育讯到輸出裝置1540。提佴蛉山邮拉上杈供輸出配接卡1S42說明出裝置1 540,像是β葙s ‘丨Λ „ 乃呆些輪喇叭與印表機以及需要特殊配接卡的其他輸出裝i 1 540。輪出配接+ 1 542包含但不受限於視訊與音效卡，提供輪出裝χ 154〇與系統匯流： bU之間的連接方式。吾人應該注意到其他裝置以及, 或裝置系統同時提供輸入與輸出能力，像是遠端電腦 1 5 44。 β電腦1512可使用邏輯連接至一或多部遠端電腦，像是遠端電腦1 544來在網路環境内運作。遠端電腦1544 可為個人電腦、伺服器、路由器、網路pc、工作站、微處理器式設備、點裝置或其他常見網路節點等等，並且通 *包含上述有關電腦1512的許多或全部元件。為了簡化起見，遠端電腦1 544上只顯示記憶體儲存裝置i 546。遠端電腦1 544透過網路介面1 548邏輯上連接到電腦 1512’然後實體上透過通訊連接155〇來連接。網路介面 15 4.8容納像是區域網路（LAN)以及廣域網路（WAN)的通訊網路。LAN技術包含光纖分布資料介面（FDDI)、網線分布資料截面（CDDI)、乙太網路/IEEE 1 102.3、Token Ring/IEEE 1102.5等等。WAN技術包含但不受限於點對點連結、電路交換式網路（像是整合服務數位網路（ISDN) 以及其變化）、封包交換式網路以及數位用戶端迴路 (DSL)。通訊連接1550就是用於將網路介面1548連接到匯 45 1353146 流排 1 5 1 8的硬體/軟體。雖然為了簡化將通訊連接 1 5 5 Ο 顯示在電腦 1512裡面，其也可位於電腦 1512之外。連接到網路介面 1548所需的硬體/軟體包含（僅為範例）内部與外部技術，像是包含一般電話規格的數據機、纜線數據機以及 DSL數據機、ISDN配接卡以及乙太網路卡。上面的說明已經包含本發明範例，當然並不可能說明每個可想像的組件組合或說明本發明的方法，但是精通此技術的人士會瞭解，本發明的許多進一步組合與排列是可行的。因此，本發明將包含位於申請專利範圍的範疇與精神内之所有這種變化、修改以及改變。更進一步，在詳細說明或申請專利範圍内都使用到「包含」一詞，這個詞的意義類似於「包括」一詞，用於在申請專利範圍中作為轉換字。【圖式簡單說明】第 1圖為依照本發明一個態樣並有助於防治垃圾郵件的系統之高階方塊圖。第 2圖為依照本發明一個態樣並從傳入訊息中擷取一或多個特色，而有助於防治垃圾郵件的系統之方塊圖。第 3圖為依照本發明一個態樣可從 IP位址中擷取到的複數個特色之圖解圖。第4圖為依照本發明一個態樣可從FQDN中擷取到的複數個特色之圖解圖。 46 1353146 第 5圖為依照本發明一個態樣可從電子郵件地址中擷取到的複數個特色之圖解圖。第 6圖為依照本發明一個態樣可從 URL或網址中擷取到的複數個特色之圖解圖。第 7圖為依照本發明一個態樣相關於訓練過濾器的範例方法之流程圖。第 8圖為依照本發明一個態樣相關於運用已訓練的過濾器之範例方法流程圖。第 9圖為依照本發明一個態樣相關於建立清單的範例方法之流程圖。第1 0圖為依照本發明一個態樣相關於運用清單來訓練過滤器之範例方法流程圖。第1 1圖為依照本發明一個態樣並參閱至少第 7圖與第 8圖的方法之處理流程圖。第1 2圖為依照本發明一個態樣幫助識別合法與偽裝收件者 IP位址之處理流程圖。第1 3圖為依照本發明一個態樣將親代控制系統併入從傳入訊息中產生與/或擷取特色之方法流程圖。第1 4圖為依照本發明一個態樣有助於建立特色集合來運用於機器學習系統内之方法流程圖。第1 5圖為實施本發明許多態樣的範例環境。【主要元件符號說明】 47 1353146 1 Ο 0特色擷取與訓練系統11 0傳入訊息 1 2 0訊息接收組件 1 3 0特色擷取組件 140過濾器命名組件 1 5 0訓練過濾器 2 0 0特色擷取系統 2 1 0傳入訊息 220特色擷取器組件 φ 230特色 232 FEATHRE, 234 FEATURE2 236 FEATUREm 2 4 0特色正規化器組件 2 5 0正規化特色集合 - 2 60訓練系統 2 7 0過濾器 2 8 0垃圾郵件特色清單 ·

3 Ο 0 IP位址 302區塊 ID 3 04至少第一 1位元 306至少第一 2位元 3 0 8至少第一 3位元 3 1 0至少第一 Μ位元 3 1 2至少第一 3 1位元 48 1353146 3 1 4階層配置

3 ] 6稀有項 400 FQDN

4 02主機名稱 4 04網域名稱 4 0 6階層分類 408 B.X.COM 410 X.COM 412 COM 4 1 4特色種類 5 0 0電子郵件地址

5 0 2使用者名稱 504 FQDN

600 URL 610 x_y.eom/a/b

6 2 0 X . y. c 〇 ra/a 630 x.y.com 7 0 0範例處理 7 1 0接收訊息 7 2 0從訊息擷取一或多個特色 7 3 0新增特色並將訊息區分到訓練集合 7 4 0所有訊息都重覆執行 750選擇最有用的特色 7 6 0使用機器學習演算法訓練過濾器 49 1353146 725到第丨1圖 8 0 0範例處理 8 1 0接收訊息 8 2 0從訊息擷取一或多個特色 8 3 0將擷取的特色傳遞到用機器學習系統訓練過的過濾器 840從機器學習系統獲得裁決 8 5 0根據裁決採取適當行動 9 0 0範例處理 9 1 0接收訊息 920擷取某些相關的特色（例如寄件者的IP位址） 9 3 0用訊息的區分增加特色的次數 940重覆直到所有訊息都已經處理過 950建立90 %不良，90%良好等等的特色清單 1 0 0 0範例處理 1 0 1 0接收訊息 1 0 2 0從包含寄件人IP位址的訊息中擷取特色 1 0 3 0將訊息的特色與區分新增至訓練集合 1 040包含開啟寄件人IP位址清單的特殊特色 1 0 5 0重複直到所有訊息都已經處理 1 0 6 0選擇有用的特色與訓練過濾器 1 1 ] 0將其收件人 IP位址或部分以及寄件人主機名稱正規化，並且執行位元處理 1120選擇性擷取以及/或正規化 "FROM:"行的内容 1 1 30擷取以及/或正規化 "MAIL FROM SMTP"指令的内 11401353146 1150 1160 1 170 1180 12 10 1220 1230 13 10 1330 1320 1340 1350 13 60 14 10 1420 1430 容選擇性擷取以及/或正規化回覆地址或部分選擇性擷取以及/或正規化副本抄送地址或部分選擇性掏*以及/或域號瑪以及/或冑話號瑪作為特色選擇性擷取以及/或正規化URL或部分選擇性擷取以及/或正規化郵寄連結或部分追鞭（收件人）伺服器不戈信賴的IP位址指派最後受信賴的ip 略所有其他位置伺服器位址與清單比較來幫助識別裸取偽裝的寄件人FQDN並且用來作為特色

1 p位址’直到追蹤到未知或位址作為正面特色以及/或忽 IP位址’並且/或將未知IP 或執行網域剝離並

接收訊息訊息是否包含至少一 URL，以及/或郵寄連結？掃描URL以及/或郵寄連結的訊息通過至少部分URL以及/或郵寄連结控制系統到至少一親代

區分URL以及/或郵寄連結指派已區分的URL/郵寄連結作為特色擷取（並常化）一或多個特色比較特色類型與常見特色清單特色是否常見？ 51 1353146 1440運用特色的稀有性作為特色 1 4 6 0運用常見性作為特色 15 10操作環境 1 5 1 2電腦 1 5 1 4處理單元 1 5 1 6系統記憶體 1 5 1 8系統匯流排 1 5 2 0揮發性記憶體 φ 1 5 2 2非揮發性記憶體 1524磁碟儲存體 1 526介面 1 5 28作業系統 1 5 3 0應用程式 1 5 3 2程式模組 * 1 5 3 4程式資料 1 5 3 6輸入裝置 1 5 3 8介面連接4 · 1 540輸出裝置 1 5 4 2輸出配接卡 1 5 4 4遠端電腦 1 5 4 6記憶體儲存裝置 1 5 4 8網路介面 1 5 5 0通訊連接 52

Claims

1353146 十、申請專利範圍： 1. 一種幫助擷取與垃圾郵件處理有關之資料的系統，該系統實施於一或多個電腦上，其包含：

一組件，其實施於一或多個處理器上及接收一項目並擷取與一訊息來源地或其部分相關的一組特色，以及 (或）讓一所欲接收者接觸、回覆或接收與該訊息相關的資訊，其中該組特色包含：一主機名稱與一網域名稱；以及一組件，其運用與建立一過濾器相關的該等擷取的特色之一子集，其中該過濾器係儲存於一電腦可讀取儲存媒體、顯示於一顯上裝置上、或可由在一或多個處理器上執行的組件來運用的至少一者。

2.如申請專利範圍第1項所述之系統，進一步包含：一正規化組件，其消除該等特色的一子集之阻礙 (deofuscate) 〇 3. 如申請專利範圍第1項所述之系統，該過濾器為一垃圾郵件過濾器。 4. 如申請專利範圍第1項所述之系統，該過濾器為一親代控制過渡器。 53 1353146 5.如申請專利範圍第1項所述之系統，進一步包含一機器學習系統組件，其運用該等特色來學習垃圾郵件或非垃圾郵件的至少一者。

6.如申請專利範圍第1項所述之系統，該等特色的該子集包含：至少一 IP位址，該至少一 IP位址為位在該訊息中的一回覆地址、一副本抄送地址、一郵寄地址、 —寄件人地址、以及一 URL的任何一者之至少一部分。 7.如申請專利範圍第 6項所述之系統，該 IP位址包含一區塊ID，其中可擷取該區塊ID作為至少一特色。 8.如申請專利範圍第 7項所述之系統，其中至少部分地藉由參照一區塊目錄來判斷該區塊ID。

9.如申請專利範圍第 8項所述之系統，其中該區塊目錄為 arin.net 〇 1 〇.如申請專利範圍第7項所述之系統，其中至少部分藉由猜測來判斷該區塊 ID，藉此擷取該 IP位址的至少一第一 1位元、至少一第一 2位元、至少一第一 3位元以及最高至少一第一 3 1位元之任何一者作為特色。 54 1353146 1 1 .如申請專利範圍第1項所述之系統，其中該等擷取的特色的該子集包含：IP位址的一第一 1至一第一 31 位元的每一者。 1 2 _如申請專利範圍第1項所述之系統，該等擷取的特色之一子集特色的該子集包含：一 URL。

1 3 .如申請專利範圍第 1 2項所述之系統，其中該 URL位址位於下列至少一者中：該訊息本體、嵌入作為該訊息内的文字或嵌入該訊息的影像。 1 4 _如申請專利範圍第 1項所述之系統，更包含一組件，其利用該擷取的特色之至少一子集，來傳播至少一特色清單。

1 5 .如申請專利範圍第1 4項所述之系統，該至少一特色清單為一良好使用者清單、一垃圾郵件寄件人清單、一指出合法寄件者的正面特色清單、或一指出垃圾郵件的特色清單的任一者。 1 6.如申請專利範圍第1項所述之系統，其中該等擷取的特色的該子集包含：至少一 URL。 55 1353146 1 7.如申請專利範圍第1 6項所述之系統，其中該 URL嵌入作為該訊息本體内的文字。 1 8 ·如申請專利範圍第1 6項所述之系統，其中該 URL為該訊息本體内的連結之至少一部分。 1 9 ·如申請專利範圍第1 6項所述之系統，其中該 URL為嵌入作為該訊息内影像的連結之至少一部分。 2 0.如申請專利範圍第1項所述之系統，該等擷取的特色的該子集包含：從一電子郵件地址擷取出來的一主機名稱與一網域名稱的至少一者。 2 1 _如申請專利範圍第1項所述之系統，該等擷取的特色的該子集包含：從一電子郵件地址與一 URL的任何一者之中擷取出來FQDN的至少一部分。 22.如申請專利範圍第1項所述之系統，該等擷取的特色的該子集包含：從一電子郵件地址與一 URL任何一者之中擷取出來的網域名稱之至少一部分。 2 3 _如申請專利範圍第1項所述之系統，其中該等擷取特 56 1353146 色的該子集的至少一部分在與一機器學習系統共同使用之前會先正規化。 2 4 ·如申請專利範圍第1項所述之系統，其中該等擷取特色的該子集的至少一部分在用來傳播至少一特色清單之前會先正規化。

2 5.如申請專利範圍第1項所述之系統，更包含：一區分組件，其將一 URL、一電子郵件地址以及一 IP位址的至少一者的至少一部分區分為：成人、成人内容、不適合、不適合某些年齡、不適合所有年齡、不合適或合適之任何一者。 2 6 _如申請專利範圍第 2 5項所述之系統，其中該區分組件為一親代控制系統。

2 7.如申請專利範圍第2 5項所述之系統，其中該區分組件指派至少一特色種類到該 URL、該網站位址或該 IP 位址的至少一者的該區分部分。 2 8 .如申請專利範圍第1項所述之系統，其中該組特色包含：至少一付費電話號瑪，該電話號碼包含：一區碼，以幫助映射一寄件者或與該訊息相關的聯絡人的一地 57 1353146 理位置。 2 9. —種儲存指令的電腦可讀取媒體，該等指令由電腦時可進行以下步驟：接收一項目並擷取與一訊息來源地或其部分相關的特色，以及（或）讓一所欲接收者接觸、回覆或接收訊息相關的資訊，其中該組特色包含：一主機名稱與域名稱；運用與建立一過濾器相關的該等擷取的特色之一子其中該過濾器係儲存於一電腦可讀取儲存媒體、顯示顯上裝置上、或可由在一或多個處理器上執行的組件用的至少一者。執行一組與該一網

集，於一來運 30. —種幫助擷取與垃圾郵件處理有關之資料的方法，法包含以下步驟：接收一訊息；擷取與該訊息來源地或其部分相關的一組特爸及（或）讓一所欲使用者接觸、回覆或接收與該訊關的資訊，其中該組特色包含：一 IP位址的至少分，其中擷取該IP位址的至少一部分之步驟包含行至少下列步驟之一者：參照一區塊ID目錄來判應至該IP位址的至少一區塊ID，如此該區塊ID 該方

，以息相一部 :執斷對被擷 58 1353146 « 取作為額外特色；或自該i p位址擷取至少前1位元到前31位元之每一者；以及運用與建立一過濾器相關的該等擷取的特色之一子集。 31.如申請專利範圍第 30項所述之方法，其中至少一擷取的IP位址對應於至少一伺服器。

32.如申請專利範圍第 31項所述之方法，更包含擷取該至少一伺服器作為一額外特色。 3 3 ·如申請專利範圍第 3 0項所述之方法，更包含：消除從該訊息擷取出來的該等特色之至少一子集之阻礙。

3 4 ·如申請專利範圍第3 0項所述之方法，更包含：消除從該訊息擷取出來的至少一特色的至少一部分之阻礙。 3 5 ·如申請專利範圍第 3 4項所述之方法，其中消除從該訊息擷取出來的一寄件人 IP位址之阻礙的步驟包含以下步驟：往回追蹤複數附加的寄件 IP位址，來確認該附加的寄件 IP位址的身分。 36.如申請專利範圍第 34項所述之方法，更包含以下步 59 1353146 < 驟：從一網站位址擷取出額外特色，該步驟包含執少下列動作之至少一者：一次移除至少一字尾，藉此產生個別額外特έ —次移除至少一字首，藉此產生個別額外特g 3 7.如申請專利範圍第 3 4項所述之方法，其中該組特含：一回覆地址、一副本抄送地址、一郵寄地址 U R L、一連結或一寄件人地址之任何一者的至少分。 3 8 .如申請專利範圍第3 0項所述之方法，其中該等擷特色的至少一子集嵌入作為該訊息本體内文字與之一者。 3 9 .如申請專利範圍第3 0項所述之方法，其中該組特含：一主機名稱與一網域名稱。 40. 如申請專利範圍第30項所述之方法，更包含：區或多個擷取的特色以及（或）其部分，以指示與該相關的合適與不合適内容之任何一者，並使用該區為一額外特色。 41. 如申請專利範圍第30項所述之方法，更包含：指行至 ;或〇色包一部取的影像色包

分一訊息分作派一 60 1353146 特色種類給該個別擷取的特色，以至少部分地根據個別擷取的特色來通知訊息内容的使用者，並使用該特色種類作為一額外特色。 42.如申請專利範圍第 41項所述之方法，更包含：判斷一特色種類與一特色的至少一者為稀有與常見之任何一者，並使用一特色的一稀有性與一常見性作為一額外特

43.如申請專利範圍第30項所述之方法，其中該等擷取的特色的該子集經使用以透過一機器學習系統與建立一過濾器相關聯。 44.如申請專利範圍第3 0項所述之方法，其中該過濾器為一垃圾郵件過濾器。

4 5 .如申請專利範圍第3 0項所述之方法，其中該過濾器為一親代控制過濾器。 46.如申請專利範圍第30項所述之方法，更包含：運用從該訊息擷取出來的該等特色的至少一子集來傳播一或多特色清單。 61 1353146 47.如申請專利範圍第46項所述之方法，其中該特色清單包含：指出非垃圾郵件寄件人的正面特色與指出垃圾郵件寄件人的負面特色之至少一者。 48.如申請專利範圍第 30項所述之方法，其中該等擷取的特色，在用來作為一機器學習系統的特色之前，先至少部分消除阻礙。

49.如申請專利範圍第 30項所述之方法，其中該等擷取的特色，在用來作為特色以傳播特色清單之前，先至少部分消除阻礙。 5 0 · —種適於在兩或多個幫助從訊息中擷取資料的電腦程序之間傳輸的資料封包結構產品’該貧料封包結構產品包含：

一第一資料欄位，其包含：與接收一訊息相關的資訊，擷取與該訊息來源地或其部分相關的一組特色，以及（或）讓一所欲使用者接觸、回覆或接收與該訊息相關的資訊，其中該組特色包含：一主機名稱與一網域名稱；以及一第二資料欄位，其包含：關聯於運用與建立一過濾器相關的該等擷取的特色之一子集的資訊。 62 1353146 5 1 . —種幫助擷取與垃圾郵件處理相關之資料的系統，該系統包含：用於接收一訊息的構件；

用於擷取與該訊息來源地或其部分相關的一組特色，以及（或）讓一所欲使用者接觸、回覆或接收與該訊息相關的資訊的構件，其中該組特色包含：一主機名稱與一網域名稱；以及用以運用與建立一過濾器相關的該等擷取的特色之一子集的構件。

63