NL2011730C2 - Email fuzzy hashing categorizing system. - Google Patents

Email fuzzy hashing categorizing system. Download PDF

Info

Publication number
NL2011730C2
NL2011730C2 NL2011730A NL2011730A NL2011730C2 NL 2011730 C2 NL2011730 C2 NL 2011730C2 NL 2011730 A NL2011730 A NL 2011730A NL 2011730 A NL2011730 A NL 2011730A NL 2011730 C2 NL2011730 C2 NL 2011730C2
Authority
NL
Netherlands
Prior art keywords
message
server
fingerprint
fuzzy
match
Prior art date
Application number
NL2011730A
Other languages
English (en)
Other versions
NL2011730A (en
Inventor
Andreas Jacobus Donselaar
Original Assignee
Spamexperts B V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spamexperts B V filed Critical Spamexperts B V
Priority to NL2011730A priority Critical patent/NL2011730C2/en
Publication of NL2011730A publication Critical patent/NL2011730A/en
Application granted granted Critical
Publication of NL2011730C2 publication Critical patent/NL2011730C2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Claims (11)

1. Werkwijze voor het categoriseren van een stroom berichten, waarbij de werkwijze omvat: - ontvangen van een stroom berichten op een eerste server; - het splitsen van elk van de berichten in kop informatie, tekstuele bericht gegevens, en bericht opmaak gegevens; - het splitsen van de tekstuele bericht gegevens van de berichten in delen met een gelijke deellengte, waarbij de deellengte afhankelijk is van de taal van de tekstuele bericht gegevens; - berekenen voor elk bericht van een bericht vingerafdruk, omvattende een reeks drempels, elk van die drempels berekend uit parameters welke resulteren uit de toepassing van een “fuzzy hashing” algoritme; - versturen van de bericht vingerafdrukken naar een tweede server omvattende een database met vingerafdrukken en bericht categorieën die verband houden met de vingerafdrukken; - opzoeken van de vingerafdrukken in de database onder toepassing van een “fuzzy matching” algoritme, waarbij het opzoeken een “fuzzy match” oplevert; - bepalen van een waarschijnlijkheid voor de “fuzzy match” voor de vingerafdruk; - labellen van het bericht met de “fuzzy match” als categorie wanneer de waarschijnlijkheid aangeeft dat de “fuzzy match” overeenkomt / matches de vingerafdruk met een vooraf bepaalde tolerantie, en; - sturen van de bericht categorie voor elk bericht naar de eerste server.
2. Werkwijze volgens conclusie 1, waarbij de reeks drempels berekend worden onder gebruikmaking van integer waarden welke resulteren uit de toepassing van het “fuzzy hashing” algoritme.
3. Werkwijze volgens een of meer der voorgaande conclusies, waarbij wanneer de waarschijnlijkheid aangeeft dat de “fuzzy match” niet overeenkomt met de vingerafdruk binnen de vooraf bepaalde tolerantie, verdere classificatie algoritmen worden toegepast welke corrigerende terugkoppeling geven aan de “fuzzy hashing” database.
4. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de vingerafdrukken gecommuniceerd worden van de eerste server naar de tweede server onder toepassing van het User Datagram Protocol (UDP).
5. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de drempels integer waarden omvatten.
6. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de tweede server een aantal herkende drempels teruggeeft.
7. Werkwijze volgens een of meer der voorgaande conclusies, waarbij wanneer een overeenkomst na toepassing van het verdere algoritme een lage waarschijnlijkheid heeft, in het bijzonder wanneer onder de 5%, of wanneer een overeenkomst een lage waarschijnlijkheid heeft na matchen van de vingerafdruk, in het bijzonder onder de 1%, dan wordt het bericht verstuurd aan een menselijke classificator en gaat in een handmatige terugkoppellus.
8. Computer programma omvattende software code delen die, wanneer uitgevoerd op een gegevensverwerkingssamenstel, de werkwijze volgens een of meer van de voorgaande conclusies uitvoert.
9. Gegevensdrager voorzien van het computer programma van conclusie 8.
10. Signaal voorzien van ten minste een deel van het computer programma van conclusie 8.
11. Samenstel voor het categoriseren van stromen berichten, waarbij het samenstel omvat: - een eerste server voor het ontvangen van een stroom berichten; - een tweede server omvattende een database omvattende vingerafdrukken en bericht categorieën die een verband houden met de vingerafdrukken; - een vingerafdrukinrichting op de eerste server, waarbij de vingerafdrukinrichting is ingericht voor het splitsen van elk van de berichten in kop informatie, bericht tekstuele gegevens, en bericht opmaak gegevens, het splitsen van de bericht tekstuele gegeven van elk bericht in delen met een gelijke deellengte, waarbij de deellengte afhangt van de taal van de bericht tekstuele gegevens, berekenen voor elk bericht van een bericht vingerafdruk omvattende een reeks drempels, waarbij de drempels berekend zijn uit parameters die resulteren uit de toepassing van een fuzzy hashing algoritme; - een eerste transmissie inrichting, gekoppeld aan de vingerafdrukinrichting en voorzien op de eerste server om de vingerafdruk te zenden aan de tweede server; - een opzoekinrichting op de tweede server voor het ontvangen van de vingerafdruk en het opzoeken van de vingerafdruk in de database, waarbij de opzoekinrichting is aangepast om een overeenkomstwaarschijnlijkheid en ten minste een bericht categorie te genereren; - een tweede transmissie inrichting, gekoppeld aan de opzoekinrichting en voorzien op de tweede server voor het zenden van de overeenkomstwaarschijnlijkheid en de categorie naar de eerste server.
NL2011730A 2013-11-05 2013-11-05 Email fuzzy hashing categorizing system. NL2011730C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
NL2011730A NL2011730C2 (en) 2013-11-05 2013-11-05 Email fuzzy hashing categorizing system.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL2011730 2013-11-05
NL2011730A NL2011730C2 (en) 2013-11-05 2013-11-05 Email fuzzy hashing categorizing system.

Publications (2)

Publication Number Publication Date
NL2011730A NL2011730A (en) 2014-10-02
NL2011730C2 true NL2011730C2 (en) 2014-10-14

Family

ID=50001220

Family Applications (1)

Application Number Title Priority Date Filing Date
NL2011730A NL2011730C2 (en) 2013-11-05 2013-11-05 Email fuzzy hashing categorizing system.

Country Status (1)

Country Link
NL (1) NL2011730C2 (nl)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11789982B2 (en) * 2020-09-23 2023-10-17 Electronic Arts Inc. Order independent data categorization, indication, and remediation across realtime datasets of live service environments

Also Published As

Publication number Publication date
NL2011730A (en) 2014-10-02

Similar Documents

Publication Publication Date Title
US20230350959A1 (en) Systems and methods for improved web searching
US20210319179A1 (en) Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection
US11275900B2 (en) Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web
US9418144B2 (en) Similar document detection and electronic discovery
Ramnandan et al. Assigning semantic labels to data sources
US8527436B2 (en) Automated parsing of e-mail messages
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
Egele et al. Removing web spam links from search engine results
US9183287B2 (en) Social media analysis system
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
CN114930318A (zh) 使用来自多个分类模块的聚合信息对数据进行分类
Singh et al. Ensemble based spam detection in social IoT using probabilistic data structures
US8751459B2 (en) Method and system to analyze email addresses
CN107918604A (zh) 一种中文的分词方法及装置
US20080147588A1 (en) Method for discovering data artifacts in an on-line data object
US12010082B2 (en) Systems and methods for automatically identifying spam in social media comments based on context
US20230252140A1 (en) Methods and systems for identifying anomalous computer events to detect security incidents
CN102945246A (zh) 网络信息数据的处理方法及装置
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Almeida et al. Compression‐based spam filter
CN111782970B (zh) 一种数据分析方法和装置
US9323721B1 (en) Quotation identification
Pikies et al. String similarity algorithms for a ticket classification system
NL2011730C2 (en) Email fuzzy hashing categorizing system.