NL2011730C2 - Email fuzzy hashing categorizing system. - Google Patents
Email fuzzy hashing categorizing system. Download PDFInfo
- Publication number
- NL2011730C2 NL2011730C2 NL2011730A NL2011730A NL2011730C2 NL 2011730 C2 NL2011730 C2 NL 2011730C2 NL 2011730 A NL2011730 A NL 2011730A NL 2011730 A NL2011730 A NL 2011730A NL 2011730 C2 NL2011730 C2 NL 2011730C2
- Authority
- NL
- Netherlands
- Prior art keywords
- message
- server
- fingerprint
- fuzzy
- match
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Claims (11)
1. Werkwijze voor het categoriseren van een stroom berichten, waarbij de werkwijze omvat: - ontvangen van een stroom berichten op een eerste server; - het splitsen van elk van de berichten in kop informatie, tekstuele bericht gegevens, en bericht opmaak gegevens; - het splitsen van de tekstuele bericht gegevens van de berichten in delen met een gelijke deellengte, waarbij de deellengte afhankelijk is van de taal van de tekstuele bericht gegevens; - berekenen voor elk bericht van een bericht vingerafdruk, omvattende een reeks drempels, elk van die drempels berekend uit parameters welke resulteren uit de toepassing van een “fuzzy hashing” algoritme; - versturen van de bericht vingerafdrukken naar een tweede server omvattende een database met vingerafdrukken en bericht categorieën die verband houden met de vingerafdrukken; - opzoeken van de vingerafdrukken in de database onder toepassing van een “fuzzy matching” algoritme, waarbij het opzoeken een “fuzzy match” oplevert; - bepalen van een waarschijnlijkheid voor de “fuzzy match” voor de vingerafdruk; - labellen van het bericht met de “fuzzy match” als categorie wanneer de waarschijnlijkheid aangeeft dat de “fuzzy match” overeenkomt / matches de vingerafdruk met een vooraf bepaalde tolerantie, en; - sturen van de bericht categorie voor elk bericht naar de eerste server.
2. Werkwijze volgens conclusie 1, waarbij de reeks drempels berekend worden onder gebruikmaking van integer waarden welke resulteren uit de toepassing van het “fuzzy hashing” algoritme.
3. Werkwijze volgens een of meer der voorgaande conclusies, waarbij wanneer de waarschijnlijkheid aangeeft dat de “fuzzy match” niet overeenkomt met de vingerafdruk binnen de vooraf bepaalde tolerantie, verdere classificatie algoritmen worden toegepast welke corrigerende terugkoppeling geven aan de “fuzzy hashing” database.
4. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de vingerafdrukken gecommuniceerd worden van de eerste server naar de tweede server onder toepassing van het User Datagram Protocol (UDP).
5. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de drempels integer waarden omvatten.
6. Werkwijze volgens een of meer der voorgaande conclusies, waarbij de tweede server een aantal herkende drempels teruggeeft.
7. Werkwijze volgens een of meer der voorgaande conclusies, waarbij wanneer een overeenkomst na toepassing van het verdere algoritme een lage waarschijnlijkheid heeft, in het bijzonder wanneer onder de 5%, of wanneer een overeenkomst een lage waarschijnlijkheid heeft na matchen van de vingerafdruk, in het bijzonder onder de 1%, dan wordt het bericht verstuurd aan een menselijke classificator en gaat in een handmatige terugkoppellus.
8. Computer programma omvattende software code delen die, wanneer uitgevoerd op een gegevensverwerkingssamenstel, de werkwijze volgens een of meer van de voorgaande conclusies uitvoert.
9. Gegevensdrager voorzien van het computer programma van conclusie 8.
10. Signaal voorzien van ten minste een deel van het computer programma van conclusie 8.
11. Samenstel voor het categoriseren van stromen berichten, waarbij het samenstel omvat: - een eerste server voor het ontvangen van een stroom berichten; - een tweede server omvattende een database omvattende vingerafdrukken en bericht categorieën die een verband houden met de vingerafdrukken; - een vingerafdrukinrichting op de eerste server, waarbij de vingerafdrukinrichting is ingericht voor het splitsen van elk van de berichten in kop informatie, bericht tekstuele gegevens, en bericht opmaak gegevens, het splitsen van de bericht tekstuele gegeven van elk bericht in delen met een gelijke deellengte, waarbij de deellengte afhangt van de taal van de bericht tekstuele gegevens, berekenen voor elk bericht van een bericht vingerafdruk omvattende een reeks drempels, waarbij de drempels berekend zijn uit parameters die resulteren uit de toepassing van een fuzzy hashing algoritme; - een eerste transmissie inrichting, gekoppeld aan de vingerafdrukinrichting en voorzien op de eerste server om de vingerafdruk te zenden aan de tweede server; - een opzoekinrichting op de tweede server voor het ontvangen van de vingerafdruk en het opzoeken van de vingerafdruk in de database, waarbij de opzoekinrichting is aangepast om een overeenkomstwaarschijnlijkheid en ten minste een bericht categorie te genereren; - een tweede transmissie inrichting, gekoppeld aan de opzoekinrichting en voorzien op de tweede server voor het zenden van de overeenkomstwaarschijnlijkheid en de categorie naar de eerste server.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL2011730A NL2011730C2 (en) | 2013-11-05 | 2013-11-05 | Email fuzzy hashing categorizing system. |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL2011730 | 2013-11-05 | ||
NL2011730A NL2011730C2 (en) | 2013-11-05 | 2013-11-05 | Email fuzzy hashing categorizing system. |
Publications (2)
Publication Number | Publication Date |
---|---|
NL2011730A NL2011730A (en) | 2014-10-02 |
NL2011730C2 true NL2011730C2 (en) | 2014-10-14 |
Family
ID=50001220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NL2011730A NL2011730C2 (en) | 2013-11-05 | 2013-11-05 | Email fuzzy hashing categorizing system. |
Country Status (1)
Country | Link |
---|---|
NL (1) | NL2011730C2 (nl) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11789982B2 (en) * | 2020-09-23 | 2023-10-17 | Electronic Arts Inc. | Order independent data categorization, indication, and remediation across realtime datasets of live service environments |
-
2013
- 2013-11-05 NL NL2011730A patent/NL2011730C2/en active
Also Published As
Publication number | Publication date |
---|---|
NL2011730A (en) | 2014-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230350959A1 (en) | Systems and methods for improved web searching | |
US20210319179A1 (en) | Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection | |
US11275900B2 (en) | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web | |
US9418144B2 (en) | Similar document detection and electronic discovery | |
Ramnandan et al. | Assigning semantic labels to data sources | |
US8527436B2 (en) | Automated parsing of e-mail messages | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
Egele et al. | Removing web spam links from search engine results | |
US9183287B2 (en) | Social media analysis system | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
CN114930318A (zh) | 使用来自多个分类模块的聚合信息对数据进行分类 | |
Singh et al. | Ensemble based spam detection in social IoT using probabilistic data structures | |
US8751459B2 (en) | Method and system to analyze email addresses | |
CN107918604A (zh) | 一种中文的分词方法及装置 | |
US20080147588A1 (en) | Method for discovering data artifacts in an on-line data object | |
US12010082B2 (en) | Systems and methods for automatically identifying spam in social media comments based on context | |
US20230252140A1 (en) | Methods and systems for identifying anomalous computer events to detect security incidents | |
CN102945246A (zh) | 网络信息数据的处理方法及装置 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
Almeida et al. | Compression‐based spam filter | |
CN111782970B (zh) | 一种数据分析方法和装置 | |
US9323721B1 (en) | Quotation identification | |
Pikies et al. | String similarity algorithms for a ticket classification system | |
NL2011730C2 (en) | Email fuzzy hashing categorizing system. |