TWI473474B - 電子郵件分類方法 - Google Patents
電子郵件分類方法 Download PDFInfo
- Publication number
- TWI473474B TWI473474B TW101100593A TW101100593A TWI473474B TW I473474 B TWI473474 B TW I473474B TW 101100593 A TW101100593 A TW 101100593A TW 101100593 A TW101100593 A TW 101100593A TW I473474 B TWI473474 B TW I473474B
- Authority
- TW
- Taiwan
- Prior art keywords
- recipient
- official
- accounts
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Description
本發明是有關於一種電子郵件分類方法。
隨著多媒體和網絡技術的普及,現在電子郵件往往附加檔案大小較大的多媒體資料。不過,企業之電子郵件系統若允許電子郵件夾帶大量多媒體資料,常因此拖累整個網絡的服務品質。因此,常使得企業之電子郵件通信業務受到不良的延誤和並造成企業的損害。換言之,員工競相使用電子郵件服務處理個人私務,成為一個急需解的問題,許多企業不得不處理。
先前技術中,為了將電子郵件分類為是否為公務用途,多半需監控電子郵件的內容細節。然而此舉不僅會降低郵件寄送的效能,也可能侵犯在法律規範體系保護下的隱私權。因此追求在準確的分類和保護隱私的權利的平衡變成為一個挑戰。
由上可知,如何在不需觸及電子郵件之內容的前提下,準確的將電子郵件分類為公務郵件或私人郵件,便成為一個重要的課題。
因此,本發明之一態樣是在提供一種電子郵件分類方法,用以根據電子郵件之收件人帳號產生多種特徵值,作為將電子郵件分類為公務郵件或私人郵件之依據。電子郵件分類方法可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體。於是,電腦存取上述電腦可讀取紀錄媒體後,可執行電子郵件分類方法。電子郵件分類方法包含以下步驟:
(a)接收一電子郵件。
(b)擷取電子郵件之數個收件人郵件帳號。
(c)根據電子郵件之收件人郵件帳號,產生電子郵件之數種郵件特徵值。
(d)藉由一分類演算法並根據電子郵件之郵件特徵值,將電子郵件分類為公務郵件或私人郵件。
應用本發明具有下列優點。可在不侵犯電子郵件中較有個人隱私考量之內容為前提下,將電子郵件進行分類,作為傳送電子郵件之策略之依據。尤其,可使用ARM-based嵌入式系統作為開發環境,實作出本發明之電子郵件分類方法,並且透過UPnP(Universal Plug and Play)的技術,使ARM-based嵌入式系統具有電子郵件分類功能。於是,可讓ARM-based嵌入式系統在網路環境下,將透過其所傳送之電子郵件進行分類。
以下將以圖式及詳細說明清楚說明本發明之精神,任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後,當可由本發明所教示之技術,加以改變及修飾,其並不脫離本發明之精神與範圍。
請參照第1圖,其為依照本發明一實施方式的一種電子郵件分類方法之流程圖。在電子郵件分類方法中,根據電子郵件之收件人帳號產生多種特徵值,作為將電子郵件分類為公務郵件或私人郵件之依據。電子郵件分類方法可實作為一電腦程式,並儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行電子郵件分類方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
電子郵件分類方法100包含以下步驟:
在步驟110中,接收一電子郵件。
在步驟120中,擷取電子郵件之數個收件人郵件帳號。在本發明之一實施例中,可自電子郵件之檔頭(header)中,擷取其中收件者(to)、副本(carbon copy,cc)、秘密副本(blind carbon copy,bcc)等欄位中之資料,作為收件人郵件帳號。
在步驟130中,根據電子郵件之收件人郵件帳號,產生電子郵件之數種郵件特徵值。
在步驟130之一實施例中,可分析收件人郵件帳號所屬之至少一所屬網域之數量。根據至少一所屬網域之數量以及收件人郵件帳號之數量,產生一收件人網域特徵值,作為電子郵件之多種郵件特徵值的其中之一。在本發明之一些實施例中,可將所屬網域之數量以及收件人郵件帳號之數量相除之所產生之值,作為收件人網域特徵值。舉例來說,在步驟120擷取出2個收件人郵件帳號,且此2個收件人郵件帳號分屬2個不同網域時,則收件人網域特徵值為2/2=1。然而,在其他實施例中,可藉由其他方式,根據所屬網域之數量以及收件人郵件帳號之數量,產生電子郵件之收件人網域特徵值,並不限於本揭露書。
在步驟130之另一實施例中,可提供包含數筆公務郵件帳號之一公務郵件社群(social network),並查詢公務郵件帳號與收件人郵件帳號間之一熟識關係。舉例來說,可查詢各公務郵件帳號之聯絡人清單中,是否具有收件人郵件帳號。如果公務郵件帳號之聯絡人清單中具有收件人郵件帳號者,則視為他們之間具有熟識關係。於是,可根據熟識關係,產生一熟識關係特徵值,作為電子郵件之多種郵件特徵值的其中之一。在本發明之一些實施例中,,在步驟120擷取出2個收件人郵件帳號,且此2個收件人郵件帳號皆在1個公務郵件帳號leo@leo.com之聯絡人清單,則可根據熟識關係,產生一熟識關係特徵值(1+1)/2=1。
在本發明之另一些實施例中,可進一步藉由對數運算進行熟識關係特徵值之運算,其公式如下:
其中,InDegreeCent
(m i
)為m i
之熟識關係特徵值,為收件人郵件帳號r ij
與公務郵件社群之熟識關係級數,為收件人郵件帳號r ij
與非公務郵件社群之熟識關係級數。然而,在其他實施例中,可藉由其他方式,根據熟識關係,產生熟識關係特徵值,並不限於本揭露書。
在步驟130之又一實施例中,可提供一公務社群以及至少一私人社群。接下來,判斷收件人郵件帳號中屬於公務社群之一公務收件人數目,以及屬於上述至少一私人社群之一私人收件人數目。接下來,可根據公務收件人數目以及私人收件人數目,產生一認識率特徵值,作為電子郵件之多種郵件特徵值的其中之一。在本發明之一些實施例中,可將公務收件人數目以及私人收件人數目相減之差,作為電子郵件之認識率特徵值。舉例來說,在步驟120擷取出2個收件人郵件帳號,且此2個收件人郵件帳號中,2個皆屬於私人社群,則可根據公務收件人數目以及私人收件人數目,產生認識率特徵值0-2=2。
在本發明之另一些實施例中,可進一步藉由對數運算進行熟識關係特徵值之運算,其公式如下:
其中,OR recipient
(m i
)為電子郵件m i
之認識率特徵值,|V b
∩r i
|為公務收件人數目,|V p
∩r i
|為私人收件人數目。
在本發明之又一些實施例中,熟識關係特徵值之運算可藉由公式如下:
其中,OR recipient
(m i
)為電子郵件m i
之認識率特徵值,|V b
∩NE i
|為收件人郵件帳號中屬於公務社群之非公司員工人數,|V p
∩NE i
|為收件人郵件帳號中屬於私人社群之非公司員工人數。然而,在其他實施例中,可藉由其他方式,根據公務收件人數目以及私人收件人數目,產生認識率特徵值,並不限於本揭露書。
在步驟130之又一實施例中,可判斷收件人郵件帳號中,屬於公務郵件帳號之一公務郵件帳號數目,並根據公務郵件帳號數目,產生一公務出現特徵值,作為電子郵件之多種郵件特徵值的其中之一。舉例來說,在步驟120擷取出2個收件人郵件帳號,且此2個收件人郵件帳號中,2個皆屬於公務郵件帳號,則可根據公務郵件帳號數目,產生一公務出現特徵值2/2=1。然而,在其他實施例中,可藉由其他方式,根據公務郵件帳號數目,產生公務出現特徵值,並不限於本揭露書。
於是,在步驟140中,藉由一分類演算法並根據電子郵件之多個郵件特徵值,將電子郵件分類為公務郵件或私人郵件。其中,分類演算法可為單純貝氏分類器(Nave Bayes Classifier)、支援向量機(Support Vector Machine,SVM)、類神經網路(Neural Network)或其他分類演算法。接下來,在步驟150中,可根據電子郵件之分類結果,排程電子郵件之傳送。舉例來說,可將分類為公務郵件之電子郵件排程至較高之傳送順序或給予較多之頻寬進行傳送;可將分類為私人郵件之電子郵件排程至較低之傳送順序或給予較少之頻寬進行傳送。如此一來,可在不侵犯電子郵件中較有個人隱私考量之內容為前提下,將電子郵件進行分類。
此外,在本發明之一實施例中,可進一步分析電子郵件主旨中的關鍵字,以進一步提高電子郵件分類之精準度。因此,在電子郵件分類方法100中,可自該電子郵件之一主旨分析出至少一關鍵字,並根據分析出之關鍵字,產生一關鍵字特徵值。舉例來說,可提供一公務關鍵字庫以及一私人關鍵字庫。於是,可根據分析出之關鍵字,查詢公務關鍵字庫以及私人關鍵字庫,並根據查詢結果產生關鍵字特徵值。如果分析出之關鍵字較多存在於公務關鍵字庫,則產生較高之關鍵字特徵值;如果分析出之關鍵字較多存在於私人關鍵字庫,則產生較低之關鍵字特徵值。接下來,步驟140可藉由分類演算法並根據電子郵件之多種郵件特徵值以及上述關鍵字特徵值,將電子郵件分類為公務郵件或私人郵件。如此一來,可在電子郵件之主旨納入考量後,提高電子郵件分類之正確率。
請參照第2圖,其繪示應用本發明之電子郵件分類方法之分類正確率之比較圖。其中,上述比較圖之測試環境為CoreYM
2 Duo Processor E6300 CPU,1.86 GHz中央處理器,記憶體為4GB,並於Microsoft Windows XP Professional作業系統上藉由支援向量機(SVM),分別對4491筆、3000筆、1000筆及100筆電子郵件進行分類所得之結果。RF為應用收件人網域特徵值,AF為應用熟識關係特徵值或公務出現特徵值,CF為應用認識率特徵值,S為應用關鍵字特徵值。
由比較圖可知,RF+AF+CF進行分類具有較高之正確率。因此,相較於藉由單一特徵值進行分類,本發明之電子郵件分類法藉由收件人帳號所產生之多種特徵值進行分類,可具有較高之分類正確率。此外,進一步考量主旨所產生之關鍵字特徵值而進行分類(RF+AF+S+CF),可使得電子郵件之分類具有最高之正確率。
由上可知,應用本發明具有下列優點。可在不侵犯電子郵件中較有個人隱私考量之內容為前提下,將電子郵件進行分類,作為傳送電子郵件之策略之依據。尤其,可使用ARM-based嵌入式系統作為開發環境,實作出本發明之電子郵件分類方法,並且透過UPnP(Universal Plug and Play)的技術,使ARM-based嵌入式系統具有電子郵件分類功能。於是,可讓ARM-based嵌入式系統在網路環境下,將透過其所傳送之電子郵件進行分類。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100...電子郵件分類方法
110~150...步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖為依照本發明一實施方式的一種電子郵件分類方法之流程圖。
第2圖繪示應用本發明之電子郵件分類方法之分類正確率之比較圖。
100...電子郵件分類方法
110~150...步驟
Claims (8)
- 一種電子郵件分類方法,包含:(a)接收一電子郵件;(b)擷取該電子郵件之複數個收件人郵件帳號;(c)根據該些收件人郵件帳號,產生該電子郵件之複數種郵件特徵值;以及(d)藉由一分類演算法並根據該電子郵件之該些種郵件特徵值,將該電子郵件分類為公務郵件或私人郵件。
- 如請求項1所述之電子郵件分類方法,其中步驟(c)包含:分析該些收件人郵件帳號所屬之至少一所屬網域之數量;以及根據該至少一所屬網域之數量以及該些收件人郵件帳號之數量,產生一收件人網域特徵值,作為該電子郵件之該些種郵件特徵值的其中之一。
- 如請求項1所述之電子郵件分類方法,其中步驟(c)包含:提供一公務郵件社群,其中該公務郵件社群包含複數筆公務郵件帳號;查詢該些公務郵件帳號與該些收件人郵件帳號間之一熟識關係;以及根據該熟識關係,產生一熟識關係特徵值,作為該電 子郵件之該些種郵件特徵值的其中之一。
- 如請求項1所述之電子郵件分類方法,其中步驟(c)包含:提供一公務社群以及至少一私人社群;判斷該些收件人郵件帳號中,屬於該公務社群之一公務收件人數目;判斷該些收件人郵件帳號中,屬於該至少一私人社群之一私人收件人數目;以及根據該公務收件人數目以及該私人收件人數目,產生一認識率特徵值,作為該電子郵件之該些種郵件特徵值的其中之一。
- 如請求項1所述之電子郵件分類方法,其中步驟(c)包含:判斷該些收件人郵件帳號中,屬於公務郵件帳號之一公務郵件帳號數目;根據該公務郵件帳號數目,產生一公務出現特徵值,作為該電子郵件之該些種郵件特徵值的其中之一。
- 如請求項1所述之電子郵件分類方法,更包含:自該電子郵件之一主旨分析出至少一關鍵字;根據該至少一關鍵字,產生一關鍵字特徵值,其中步驟(d)包含: 藉由該分類演算法並根據該電子郵件之該些種郵件特徵值以及該關鍵字特徵值,將該電子郵件分類為公務郵件或私人郵件。
- 如請求項1所述之電子郵件分類方法,更包含:根據該電子郵件之分類結果,排程該電子郵件之傳送。
- 如請求項1所述之電子郵件分類方法,其中該分類演算法為單純貝氏分類器(Naïve Bayes Classifier)、支援向量機(Support Vector Machine,SVM)或類神經網路(Neural Network)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101100593A TWI473474B (zh) | 2012-01-06 | 2012-01-06 | 電子郵件分類方法 |
US13/542,685 US9202203B2 (en) | 2012-01-06 | 2012-07-06 | Method for classifying email |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101100593A TWI473474B (zh) | 2012-01-06 | 2012-01-06 | 電子郵件分類方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201330553A TW201330553A (zh) | 2013-07-16 |
TWI473474B true TWI473474B (zh) | 2015-02-11 |
Family
ID=48744723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101100593A TWI473474B (zh) | 2012-01-06 | 2012-01-06 | 電子郵件分類方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9202203B2 (zh) |
TW (1) | TWI473474B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11470036B2 (en) | 2013-03-14 | 2022-10-11 | Microsoft Technology Licensing, Llc | Email assistant for efficiently managing emails |
US9942184B2 (en) | 2013-09-30 | 2018-04-10 | Bank Of America Corporation | Communication and management of electronic mail classification information |
CN104714970B (zh) | 2013-12-16 | 2018-11-09 | 阿里巴巴集团控股有限公司 | 电子邮件归类的方法、发送端、接收端和系统 |
US10803391B2 (en) * | 2015-07-29 | 2020-10-13 | Google Llc | Modeling personal entities on a mobile device using embeddings |
US10346448B2 (en) * | 2016-07-13 | 2019-07-09 | Google Llc | System and method for classifying an alphanumeric candidate identified in an email message |
US10673796B2 (en) * | 2017-01-31 | 2020-06-02 | Microsoft Technology Licensing, Llc | Automated email categorization and rule creation for email management |
US10887425B2 (en) * | 2019-03-20 | 2021-01-05 | Allstate Insurance Company | Digital footprint visual navigation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20030236845A1 (en) * | 2002-06-19 | 2003-12-25 | Errikos Pitsos | Method and system for classifying electronic documents |
US8024411B2 (en) * | 2006-10-13 | 2011-09-20 | Titus, Inc. | Security classification of E-mail and portions of E-mail in a web E-mail access client using X-header properties |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085504A1 (en) * | 2004-10-20 | 2006-04-20 | Juxing Yang | A global electronic mail classification system |
US7574409B2 (en) * | 2004-11-04 | 2009-08-11 | Vericept Corporation | Method, apparatus, and system for clustering and classification |
-
2012
- 2012-01-06 TW TW101100593A patent/TWI473474B/zh not_active IP Right Cessation
- 2012-07-06 US US13/542,685 patent/US9202203B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20030236845A1 (en) * | 2002-06-19 | 2003-12-25 | Errikos Pitsos | Method and system for classifying electronic documents |
US8024411B2 (en) * | 2006-10-13 | 2011-09-20 | Titus, Inc. | Security classification of E-mail and portions of E-mail in a web E-mail access client using X-header properties |
Also Published As
Publication number | Publication date |
---|---|
US9202203B2 (en) | 2015-12-01 |
US20130179516A1 (en) | 2013-07-11 |
TW201330553A (zh) | 2013-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI473474B (zh) | 電子郵件分類方法 | |
US11023823B2 (en) | Evaluating content for compliance with a content policy enforced by an online system using a machine learning model determining compliance with another content policy | |
US9338047B1 (en) | Detecting content on a social network using browsing patterns | |
US9317574B1 (en) | System and method for managing and identifying subject matter experts | |
US9349016B1 (en) | System and method for user-context-based data loss prevention | |
JP5046158B2 (ja) | 電子メールメッセージの特性を検出する装置及び方法 | |
US9501744B1 (en) | System and method for classifying data | |
US8959159B2 (en) | Personalized email interactions applied to global filtering | |
US9390240B1 (en) | System and method for querying data | |
US10528611B2 (en) | Detecting, classifying, and enforcing policies on social networking activity | |
US9098532B2 (en) | Generating alternative descriptions for images | |
US20170329972A1 (en) | Determining a threat severity associated with an event | |
US10326748B1 (en) | Systems and methods for event-based authentication | |
US20180089449A1 (en) | Automated real-time information management risk assessor | |
JP5851029B2 (ja) | デジタル資産の価値を決定して利用するための方法および装置 | |
US20140122501A1 (en) | Method and system for building an entity profile from email address and name information | |
US9471665B2 (en) | Unified system for real-time coordination of content-object action items across devices | |
US9990506B1 (en) | Systems and methods of securing network-accessible peripheral devices | |
US20230104176A1 (en) | Using a Machine Learning System to Process a Corpus of Documents Associated With a User to Determine a User-Specific and/or Process-Specific Consequence Index | |
TW201820173A (zh) | 去識別化資料產生裝置、方法及其電腦程式產品 | |
JP4802523B2 (ja) | 電子メッセージ分析装置および方法 | |
Liu et al. | Towards misdirected email detection for preventing information leakage | |
KR101828051B1 (ko) | 전자메일 요약본 생성 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
Öksüz | Turning dark into white clouds–A framework on trust building in cloud providers via websites | |
US10764265B2 (en) | Assigning a document to partial membership in communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |