MX2011005771A - Metodo y dispositivo para interceptar correo basura. - Google Patents

Metodo y dispositivo para interceptar correo basura.

Info

Publication number
MX2011005771A
MX2011005771A MX2011005771A MX2011005771A MX2011005771A MX 2011005771 A MX2011005771 A MX 2011005771A MX 2011005771 A MX2011005771 A MX 2011005771A MX 2011005771 A MX2011005771 A MX 2011005771A MX 2011005771 A MX2011005771 A MX 2011005771A
Authority
MX
Mexico
Prior art keywords
string
mail
text data
keyword
master
Prior art date
Application number
MX2011005771A
Other languages
English (en)
Inventor
Hui Wang
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of MX2011005771A publication Critical patent/MX2011005771A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Se proveen un método y dispositivo para interceptar correo basura; el método incluye principalmente: A: obtener datos de texto de un correo que requiere de procesamiento de filtrado; B: determinar si los datos de texto contienen una palabra clave en una cadena contenida en una base de datos de cadena para el filtrado de correo, y si los datos de texto contienen la palabra clave en la cadena contenida en la base de datos de cadena para el filtrado de correo, determinando adicionalmente si los datos de texto comprenden una cadena correspondiente a la clave contenida en la base de datos de cadena; y C: determinar si el correo es correo basura de conformidad con un resultado de la determinación adicional y de conformidad con una política de determinación predeterminada, así como interceptar el correo si el correo es correo basura; mediante el método y dispositivo, la eficiencia de revisión y la velocidad de revisión pueden mejorarse, así como puede implementarse el filtrado en tiempo real incluso cuando la base de datos de cadena tiene una dimensión relativamente grande.

Description

MÉTODO Y DISPOSITIVO PARA INTERCEPTAR CORREO BASURA CAMPO DE LA INVENCIÓN La presente invención se refiere al campo de las tecnologías de las redes de comunicación y, en particular, a un método y dispositivo para interceptar correo basura.
ANTECEDENTES DE LA INVENCIÓN En el campo del correo electrónico, los correos basura se propagan cada vez más, lo cual no solamente incrementa el tiempo de procesamiento de un usuario normal de correo, aunque también desperdicia recursos valiosos de un sistema de correo, obstruyendo de esta manera el proceso de obtener información útil por parte de un usuario. Por lo tanto, el problema del correo basura debe ser resuelto.
En el momento actual, se adopta típicamente una técnica de intercepción con base en una cadena, para evitar la existencia de correo basura en el sistema de correo. En la técnica de intercepción con base en la cadena, se requiere establecer una base de datos de cadena. La cadena en la base de datos de cadena emplea una frase o palabra única existente y se fija de manera relativa una longitud de cadena. La base de datos de cadena requiere contar con una cierta dimensión y ciclo de actualización y la dimensión de cadenas que puedan ser revisadas en la base de datos de cadena, con frecuencia alcanza una escala de un millón. En las aplicaciones prácticas, al emplear la cadena en la base de datos de cadena descrita anteriormente, un correo recibido es filtrado a manera de procesamiento de revisión secuencial de texto complete o coincidencia regular de expresiones, de modo que se determine si el correo recibido es correo basura o correo normal así como el correo recibido sea interceptado en caso de que sea correo basura.
Al implementar la presente invención, el inventor encuentra que existen por lo menos los siguientes problemas en la técnica anterior.
Construir la cadena usando la frase o palabra única existente, podría conducir a un índice positive falso relativamente serio, dado que dicha frase o palabra única existente se presenta no solamente en el correo basura, sino en ocasiones también en el correo normal, conduciendo de esta manera a una falsa determinación.
Dado que una cadena completa en la base de datos de cadena se emplea para filtrar el correo, la manera de procesamiento descrita anteriormente de la revisión secuencial de texto completo o coincidencia regular de expresiones, resulta ineficiente cuando la dimensión de la base de datos de cadena es relativamente grande y el filtrado en tiempo real para el correo recibido no puede ser implementado, lo cual afecta de forma significativa la experiencia de uso del usuario.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Los ejemplos de la presente invención proveen un método y dispositivo para interceptar correo basura, de modo que se reduzca el índice positivo falso de correo basura y se mejore la eficiencia de filtrado del correo.
Un método para interceptar correo basura, el cual incluye lo siguiente: A: Obtener datos de texto de un correo que requiere de procesamiento de filtrado; B: Determinar si los datos de texto contienen una palabra clave en una cadena contenida en una base de datos de cadena para el filtrado de correo, así como si los datos de texto contienen la palabra clave en la cadena contenida en la base de datos de cadena para el filtrado de correo, determinando adicionalmente si los datos de texto contienen una cadena correspondiente a la palabra clave contenida en la base de datos de cadena; y C: Determinar si el correo es correo basura de conformidad con un resultado de la determinación adicional y de conformidad con una política de determinación predeterminada, así como interceptar el correo si el correo es correo basura.
Un dispositivo para interceptar correo basura incluye lo siguiente: un módulo de obtención de datos de texto, configurado para obtener los datos de texto de un correo que requiere de procesamiento de filtrado; un módulo de determinación de caracteres, configurado para determinar si los datos de texto contienen una palabra clave en una cadena contenida en una base de datos de cadena para el filtrado de correo, así como si los datos de texto contienen la palabra clave en la cadena contenida en la base de datos de cadena para el filtrado de correo, determinar adicionalmente si los datos de texto contienen una cadena correspondiente a la palabra clave contenida en la base de datos de cadena; y un módulo de procesamiento de correo, configurado para determinar, de conformidad con el resultado de la determinación adicional a partir del módulo de determinación de caracteres así como con una política de determinación predeterminada, si el correo es correo basura e interceptar el correo si el correo es correo basura.
Puede observarse, a partir de las soluciones técnicas anteriores provistas por los ejemplos de la presente invención, que en los ejemplos de la presente invención, los datos de texto del correo son revisados de conformidad con la palabra clave, los datos de texto del correo son revisados entonces de conformidad con la cadena correspondiente a la palabra clave después de la coincidencia de la palabra clave, por lo que puede mejorarse la eficiencia y velocidad de revisión, asi como puede implementarse el filtrado en tiempo real para el correo, incluso cuando base de datos de cadena tiene una dimensión relativamente grande.
BREVE DESCRIPCIÓN DE LOS DIBUJOS Con el fin de explicar con mayor claridad las soluciones técnicas en los ejemplos de la presente invención, los dibujos anexos requeridos para describir los ejemplos, se enlistan a continuación de manera concisa. Resulta evidente que los dibujos anexos en la siguiente descripción son meramente ciertos ejemplos de la presente invención y, para el experto en la técnica, también pueden obtenerse otros dibujos anexos de conformidad con estos dibujos anexos, sin constituir ningún paso inventivo en donde: La figura 1 es un diagrama de flujo que ilustra un método para interceptar correo basura en un ejemplo de la presente invención; y La figura 2 es un diagrama estructural que ilustra la implementación específica de un dispositivo para interceptar correo basura en otro ejemplo de la presente invención.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN En los ejemplos de la presente invención, se obtienen los datos de texto de un correo que requiere de procesamiento de filtrado. Se determina si los datos de texto obtenidos del correo contienen una palabra clave en una cadena en una base de datos de cadena para el filtrado de correo y cuando los datos de texto obtenidos contienen la palabra clave, se determina adicionalmente si los datos de texto contienen la cadena correspondiente a la palabra clave en la base de datos de cadena. De conformidad con un resultado de determinación concerniente a si los datos de texto contienen la cadena correspondiente a la palabra clave en la base de datos de cadena y de conformidad con una política de determinación predeterminada, se determina si el correo es correo basura y el correo es interceptado si el correo es correo basura.
Además, después de que es recibido el correo que requiere de procesamiento de filtrado, se obtienen el título y contenido de cuerpo principal del correo. Después, el título y contenido de cuerpo principal se emplean para obtener una parte de los datos de texto y los datos de texto obtenidos se determinan como los datos de texto del correo que requieren del procesamiento de filtrado. De preferencia podrían almacenarse los datos de texto.
Además, la cadena contenida en la base de datos de cadena se construye a través de una o más unidades de caracteres. Una unidad de carácter incluye por lo menos una de una palabra en inglés, una palabra única en chino, una letra única en inglés, la mitad de la palabra única en chino o una puntuación de ancho completo/mitad de ancho.
Además, la base de datos de cadena corresponde a una tabla maestra de hash y a una tabla maestra de enlace, en donde la palabra clave en la cadena contenida en la base de datos de cadena y la información de longitud de la cadena correspondiente a la palabra clave, se almacenan en la tabla maestra de hash, así como la información completa de la construcción de caracteres de la cadena correspondiente a la palabra clave, se almacena en la tabla maestra de enlace.
Cuando se ejecuta una operación de determinación descrita anteriormente, el detalles es como sigue: extraer un número predeterminado de caracteres iniciando a partir de una primera unidad de carácter de los datos de texto, detectar si la tabla maestra de hash contiene la palabra clave que es la misma que el número predeterminado de caracteres, y si es así, obtener la información de longitud (específicamente, un valor de longitud) correspondiente a la palabra clave, sacar la cadena correspondiente a partir de los datos de texto de conformidad con la información de longitud, detectar si la tabla maestra de enlace contiene la cadena sacada, y si es así, determinar que los datos de texto sean impactados por la revisión una vez, así como registrar el número de veces que los datos de texto son impactados por la revisión, así como la información de la cadena y palabra clave correspondientes.
Si la tabla maestra de hash no contiene la palabra clave que es la misma que el número predeterminado de caracteres, o bien si la tabla maestra de enlace no contiene la cadena sacada, el número predeterminado de caracteres se saca después de desplazarse hacia atrás en una unidad de carácter a partir de la primera unidad de carácter of los datos de texto y los caracteres sacados son procesados de conformidad con una operación de procesamiento para el número predeterminado de caracteres sacados de la primera unidad de carácter de los datos de texto, hasta que el último número predeterminado de caracteres en los datos de texto es detectado.
Además, la tabla maestra de hash y la tabla maestra de enlace son establecidas a través de: sacar el número predeterminado de caracteres comenzando con el primer carácter en una primera cadena contenida en la base de datos de cadena, considerar los caracteres sacados como una palabra clave, determinar si el número predeterminado de caracteres de la primera unidad de carácter en otra cadena distinta a la primera cadena en la base de datos de cadena es el mismo que la palabra clave, y si es así, registrar la información de longitud de la otra cadena y la palabra clave en la tabla maestra de hash y registrar la información de construcción de caracteres completa de la otra cadena en la tabla maestra de enlace para posteriormente: determinar adicionalmente una segunda cadena distinta a una cadena registrada en la tabla maestra de enlace en la base de datos de cadena, así como procesar la segunda cadena de conformidad con una operación de procesamiento para el número predeterminado de caracteres sacados de la primera cadena, hasta registrar todas las secciones de caracteres sacadas al comenzar a partir de la primera unidad respectiva de caracteres de todas las cadenas en la base de datos de cadena e información de longitud de las mismas en la tabla maestra de hash, así como registrar la información de construcción de caracteres completa respectiva de la totalidad de las cadenas correspondientes en la tabla maestra de enlace.
Adicionalmente, la determinación de si el correo es correo basura incluye lo siguiente: obtener el número registrado de veces que los datos de texto son impactados por la revisión, así como la información registrada sobre la palabra clave la cadena correspondientes se registra cuando los datos de texto contienen la cadena correspondiente a la palabra clave en la base de datos de cadena y se obtiene entonces; y de conformidad con el número registrado de veces que los datos de texto son impactados por la revisión, así como con la información registrada sobre la cadena y palabra clave correspondientes, se determina si el correo es correo basura con base en la política de determinación predeterminada y el correo es interceptado si el correo es correo basura.
Adicionalmente, la política de determinación predeterminada contiene lo siguiente: el correo es determinado como correo basura cuando el número de veces que los datos de texto son impactados por la revisión es mayor que un número de veces predeterminado; o bien si la información de la cadena es la longitud de la cadena impactada por la revisión, la política de determinación predeterminada incluye lo siguiente: el correo es determinado como correo basura cuando el número de veces que los datos de texto son impactados por la revisión es mayor que el número de veces predeterminado y la longitud de la cadena impactada por la revisión es mayor que una longitud predeterminada.
Con el fin de facilitar la comprensión de los ejemplos de la presente invención, se provee una explicación adicional a continuación en la presente a través de varios ejemplos específicos, en combinación con los dibujos anexos y no se pretende que los ejemplos respectivos limiten los ejemplos de la presente invención.
Un esquema de hash es una estructura de almacenamiento. En el esquema de hash, se establece una relación correspondiente entre una posición de almacenamiento de los datos y la palabra clave de los datos, así como un conjunto de las palabras clave es mapeado a una ubicación que se define a través de la relación correspondiente. La especificación de la relación correspondiente es flexible, dado que el tamaño de la ubicación establecida no va más allá de un rango permisible. El esquema de hash incluye típicamente una tabla maestra de hash y una tabla maestra de enlace. En aplicaciones prácticas, se requiere constituir la tabla maestra de hash y la tabla maestra de enlace de conformidad con una situación real.
De conformidad con un ejemplo, un procedimiento de procesamiento de un método para interceptar correo basura se muestra en la figura 1 y el método incluye los siguientes pasos de procesamiento: Paso 11 : Se obtienen los datos de texto del correo que requieren de procesamiento de filtrado.
Los detalles son como sigue: después de que se recibió el correo que requiere de procesamiento de filtrado, se produce la decodificación del correo y la obtención del título y contenido de cuerpo principal del correo; se obtiene una parte de los datos de texto a través del uso directo del título y contenido de cuerpo principal; se determinan los datos de texto obtenidos como los datos de texto de correo que requieren de procesamiento de filtrado en el paso 11.
En la presente, con el fin de facilitar la intercepción en el siguiente paso, que se muestra de manera específica en el paso 13 que aparece más adelante, los datos de texto pueden almacenarse primero de forma temporal.
Paso 12: De conformidad con una base de datos de cadena cargada, la tabla maestra de hash y la tabla maestra de enlace son establecidas.
En la presente, dado que la tabla maestra de hash y la tabla maestra de enlace se establecen de conformidad con la base de datos de cadena, puede considerarse que la base de datos de cadena tiene una relación correspondiente con la tabla maestra de hash y la tabla maestra de enlace.
Debe explicarse que la cadena contenida en la base de datos de cadena se construye a través de una o más unidades de caracteres. Específicamente, la unidad de carácter puede ser por lo menos una de una palabra en inglés, una palabra única en chino, una letra única en inglés, la mitad de la palabra única en chino o una puntuación de ancho completo/mitad de ancho. Puede observarse que la cadena contenida en la base de datos de cadena podría no ser una frase o palabra única existente, sino una sección de cadena que tiene una estructura flexible. La sección de cadena puede ser por lo menos una o cualquier combinación de una palabra en inglés, la palabra única en chino y la puntuación. Típicamente, en aplicaciones prácticas, la cadena existe fundamentalmente en un correo basura o un correo normal. De preferencia, se toma como ejemplo una situación en la que la cadena contenida en la base de datos de cadena se presenta en el correo basura. Debe advertirse que este ejemplo toma la situación de que la cadena contenida en la base de datos de cadena se presente en el correo basura como un ejemplo. Considerando el alcance de una aplicación de los ejemplos de la presente invención, la cadena contenida en la base de datos de cadena descrita anteriormente también puede ser, a manera de ejemplo, la cadena existente en el correo normal, es decir, las cadenas tanto en el correo normal como en el correo basura se emplean de manera simultánea. De preferencia, cuando ambos se utilizan simultáneamente, pueden revisarse y determinarse datos de texto específicos usando un método como cualquier algoritmo de clasificación estadística y/o algoritmo de clasificación de inteligencia artificial. Por ejemplo, los dos tipos de cadenas en el correo normal y el correo basura pueden entrenarse y someterse a prueba utilizando un algoritmo bayesiano para obtener un modelo de clasificación y el modelo de clasificación se emplea para realizar la determinación subsiguiente del contenido del texto de un correo. Por lo tanto, puede observarse que la figura 1 meramente muestra un ejemplo y no se pretende que limite la aplicación de los ejemplos de la presente invención.
En el ejemplo, el esquema de hash descrito anteriormente se introduce y, de conformidad con la base de datos de cadena cargada, la tabla maestra de hash y la tabla maestra de enlace son establecidas. El proceso para establecer la tabla maestra de hash y la tabla maestra de enlace es como sigue: las cadenas en la base de datos de cadena descrita anteriormente, son revisadas de manera secuencia desde el inicio de la base de datos de cadena. En primer lugar los primeros n caracteres de una primera cadena se toman como índice de hash de primer nivel. Con fines de conveniencia en la descripción, se supone que n es 2. El índice de hash de primer nivel se determina entonces como la palabra clave. Por ejemplo, la palabra clave es "sanlu", que representa una palabra china formada por dos caracteres chinos. Entonces, con la palabra clave como índice, se busca una cadena distinta a la primera cadena en la base de datos de cadena descrita anteriormente y se determina si los primeros 2 caracteres de la otra cadena son los mismos que la palabra clave. Si los primeros 2 caracteres de la otra cadena son los mismos que la palabra clave, se obtiene la información de construcción de caracteres y la información de longitud completas de la otra cadena.
De preferencia, en este ejemplo, la información de longitud de la totalidad de las cadenas que toman la palabra clave, v.g. "sanlu", como los primeros 2 caracteres chinos, podría almacenarse en la tabla maestra de hash. Una estructura de la tabla maestra de hash es como aquella mostrada en la tabla 1 que aparece más adelante. Posteriormente, la información completa respectiva de construcción de caracteres de la totalidad de las cadenas que toman la palabra clave, v.g. "sanlu", como los primeros 2 caracteres, se almacena en la tabla maestra de enlace. Una estructura de la tabla maestra de enlace es como aquella mostrada en la tabla 2 enumerada más adelante. Por lo tanto, puede observarse que una palabra clave corresponde a una tabla maestra de enlace. En el esquema de hash, existe únicamente una tabla maestra de hash, en donde se almacenan todas las palabras clave y la información de longitud de las cadenas que toman cada palabra clave como los primeros n caracteres. Puede haber múltiples tablas maestra de enlace, las cuales corresponden a palabras clave respectivas en la tabla maestra de hash.
CUADRO 1 Tabla maestra de hash CUADRO 2 Tabla maestra de enlace sanlu milk: leche sanlu sanlu puré milk: leche pura sanlu sanlu infant milk: leche infantil sanlu Después del procesamiento anterior como sacar la palabra clave para la primera cadena y llenar la tabla 1 y la tabla 2 de conformidad con la palabra clave, el procesamiento anterior como sacar la palabra clave y llenar la tabla 1 y tabla 2 de conformidad con la palabra clave se realiza entonces para otra cadena distinta a las cadenas registradas en la tabla maestra de enlace mostrada en la tabla 2 en la base de datos de cadena descrita anteriormente, hasta que la información de longitud y los primeros n caracteres de la totalidad de las cadenas en la base de datos de cadena se registran en la tabla maestra de hash y la información de construcción de caracteres completa de la totalidad de las cadenas se almacena en la tabla maestra de enlace.
Por lo tanto, a pesar de los pasos descritos anteriormente, la tabla maestra de hash y las correspondientes tablas maestra de enlace pueden establecerse con respecto a la base de datos de cadena.
Paso 13: Los datos de texto del correo se revisan empleando la tabla maestra de hash y la tabla maestra de enlace, si el correo es correo basura se determina de conformidad con un resultado de revisión y una política de determinación predeterminada y el correo es interceptado si el correo es correo basura.
Después de que la tabla maestra de hash y la tabla maestra de enlace descritas anteriormente son establecidas, para los datos de texto del correo que requiere de procesamiento de filtrado, una cadena construida por los primeros n caracteres (en donde n puede ser específicamente 2 u otro valor) se saca comenzando con el primer carácter de los datos de texto y se detecte si existe una palabra clave que es la misma que la cadena sacada en la tabla maestra de hash establecida. Si existe dicha palabra clave, se obtiene un primer valor de longitud correspondiente a la cadena. Entonces, la cadena correspondiente es sacada de los datos de texto de conformidad con el primer valor de longitud y se detecta si la cadena sacada existe en la tabla maestra de enlace. Si existe dicha cadena, se determina que la revisión impacta los datos de texto una vez y la información como la palabra clave correspondiente y se registra la cadena impactada por la revisión. Si dicha cadena no existe, no se registrará información alguna. La tabla maestra de hash se verifica de nuevo en relación con un próximo valor de longitud correspondiente a la cadena, hasta que la totalidad de los valores de longitud correspondientes a la cadena son detectados.
Si la palabra clave que es la misma que la cadena sacada no existe en la tabla maestra de hash, la tabla maestra de enlace no requiere ser verificada. Posteriormente, comenzando con el segundo carácter de los datos de texto, la cadena con 2 caracteres es sacada y se detecta si la tabla maestra de hash incluye una palabra clave que sea la misma que la cadena sacada comenzando con el segundo carácter de los datos de texto y el proceso anterior de detección y determinación con respecto a la cadena sacada iniciando a partir del primer carácter, se repite hasta que se detecta la cadena construida por los últimos 2 caracteres de los datos de texto.
Entonces, de conformidad con la información registrada sobre el número de veces que la revisión impacta a los datos de texto y la información como la palabra clave correspondiente y la cadena impactada por la revisión, si el hecho de que el correo es correo basura es determinado con base en la política de determinación predeterminada. La política de determinación predeterminada se diseña de conformidad con la situación real y la política de determinación puede ser como sigue: si el número de veces que los datos de texto son impactados por la revisión es mayor a 5, el correo es determinado como correo basura, o bien si el número de veces que los datos de texto que son impactados por la revisión es mayor a 4 y la longitud de la cadena impactada por la revisión es mayor a 4, el correo es determinado como el correo basura.
La política de determinación predeterminada debe asegurar que un índice positive falso completo deba ser menor a un índice positivo falso aceptable, v.g. 0.1%, y un índice de intercepción completo debe ser mayor a un índice de intercepción aceptable, v.g. 70%.
Entonces, el correo basura determinado es interceptado y el correo normal que no es correo basura pasa.
En el proceso anterior para revisar el correo, los datos de texto del correo se revisan primero de conformidad con la palabra clave y, después de que se encuentra que los datos de texto del correo contienen la palabra clave, los datos de texto del correo se revisan entonces de conformidad con la cadena correspondiente a la palabra clave. Por lo tanto, puede mejorarse la eficiencia y velocidad de revisión.
Otro ejemplo de la presente invención provee también un dispositivo para interceptar un correo basura. Su estructura de implementación específica es como aquella mostrada en la figura 2. El dispositivo puede incluir específicamente lo siguiente: un módulo de obtención de datos de texto 21 , configurado para obtener los datos de texto de un correo que requiere de procesamiento de filtrado; un módulo de determinación de caracteres 22, configurado para determinar sí los datos de texto contienen una palabra clave en una cadena contenida en una base de datos de cadena para el filtrado de correo, y sí es así, determinar adicionalmente si los datos de texto contienen la cadena correspondiente a la palabra clave contenida en la base de datos de cadena; y un módulo de procesamiento de correo 23, configurado para: de conformidad con un resultado adicional de determinación a partir del módulo de determinación de caracteres 22 y una política de determinación predeterminada, determinar si el correo es correo basura, así como interceptar el correo si se trata de correo basura. En la presente, el resultado de determinación adicional del módulo de determinación de caracteres 22 podría ser específicamente un resultado de determinación concerniente a si los datos de texto contienen la cadena correspondiente a la palabra clave contenida en la base de datos de cadena.
El módulo de determinación de caracteres 22 puede incluir de manera específica lo siguiente: un módulo de establecimiento de hash 221 , configurado para establecer un tabla maestra de hash y una tabla maestra de enlace que corresponden a la base de datos de cadena, en donde la tabla maestra de hash almacena la palabra clave en la cadena contenida en la base de datos de cadena y la información de longitud de la cadena correspondiente a la palabra clave, así como la tabla maestra de enlace almacena la información de construcción de carácter completa de la cadena correspondiente a la palabra clave; y un módulo de procesamiento de revisión 222, configurado para extraer un número predeterminado de caracteres comenzando con una primera unidad de carácter de los datos de texto, detectar si la tabla maestra de hash contiene la palabra clave que es la misma que el número predeterminado de caracteres, y si es así, obtener la información de longitud (específicamente, un valor de longitud) correspondiente a la palabra clave, sacar la cadena correspondiente a partir de los datos de texto de conformidad con la información de longitud, detectar si la cadena sacada existe en la tabla maestra de enlace, y si es así, determinar que los datos de texto son impactados por la revisión una vez, así como registrar el número de veces que los datos de texto son impactados por la revisión, así como la información de la cadena y palabra clave correspondientes.
Si la tabla maestra de hash no contiene la palabra clave que es la misma que el número predeterminado de caracteres, o bien si la tabla maestra de enlace no contiene la cadena sacada, el número predeterminado de caracteres se saca de los datos de texto después de desplazarse hacia atrás en una unidad de carácter a partir del primer carácter de los datos de texto, así como los caracteres sacados después de desplazarse hacia atrás en una unidad de carácter a partir del primer carácter de los datos de texto, se procesan de conformidad con una operación de procesamiento para el número predeterminado de caracteres tomado del primer carácter de los datos de texto, hasta que el último número predeterminado de caracteres en los datos de texto es detectado.
El módulo de procesamiento de correo 23 incluye específicamente lo siguiente: un módulo de obtención de información de revisión 231 , configurado para obtener la información registrada sobre el número de veces que los datos de texto son impactados por la revisión, así como la información registrada sobre la cadena y la palabra clave correspondientes. Específicamente, la información sobre el número de veces que los datos de texto son impactados por la revisión, así como la información sobre la cadena y palabra clave correspondientes, se registran cuando los datos de texto contienen la cadena correspondiente a la palabra clave en la base de datos de cadena; y un módulo de determinación e intercepción 232, configurado para determinar, de conformidad con la información sobre el número de veces que los datos de texto son impactados por la revisión, así como de conformidad con la información de la cadena y palabra clave correspondientes, si el correo es correo basura con base en la política de determinación predeterminada; e interceptar el correo si el correo se determina como correo basura.
El experto en la técnica puede comprender que la totalidad o parte del procedimiento en el método en los ejemplos descritos arriba, podría implementarse con un programa de computadora que instruye a hardware relevante. El programa puede almacenarse en una medio que puede leerse a través de una computadora. Cuando el programa es ejecutado, el procedimiento en los ejemplos para los métodos respectivos descritos anteriormente, puede implementarse. Específicamente, el medio de almacenamiento puede ser un disco magnético, un disco óptico, una memoria de sólo lectura (ROM, por sus siglas en inglés) o una memoria de acceso aleatorio (RAM, por sus siglas en inglés), etcétera.
Para resumir, al usar la sección de cadena que tiene la estructura flexible que se presenta solamente en el correo basura en lugar de emplear una sola frase o palabra, los ejemplos de la presente invención pueden resolver el falso problema de la determinación en la técnica anterior y tener un índice positivo también relativamente bajo y un índice de intercepción relativamente alto.
Al emplear la tabla maestra de hash y la tabla maestra de enlace en el esquema de hash, los ejemplos de la presente invención revisan los datos de texto del correo, que pueden mejorar considerablemente la eficiencia de revisión y mejorar la velocidad de revisión, así como pueden implementar el filtrado en tiempo real para el correo, incluso cuando la base de datos de cadena tiene una dimensión relativamente grande.
Lo anterior es meramente los ejemplos preferidos de la presente invención y el alcance de la presente invención no se limita a ello. Cualquier variación o alternancia realizada fácilmente sin desviarse del alcance técnico de la presente invención por parte del experto en la técnica, debe englobarse dentro del alcance de la presente invención. Por lo tanto, el alcance de la presente invención debe ser según se define por las reivindicaciones anexas.

Claims (10)

NOVEDAD DE LA INVENCIÓN REIVINDICACIONES
1- Un método para interceptar correo basura, el cual comprende los pasos de: A: obtener datos de texto de un correo que requiere de procesamiento de filtrado; B: determinar si los datos de texto comprenden una clave en una cadena contenida en una base de datos de cadena para el filtrado de correo, asi como si los datos de texto comprenden la clave en la cadena contenida en la base de datos de cadena para el filtrado de correo, determinando adicionalmente si los datos de texto comprenden una cadena correspondiente a la clave contenida en la base de datos de cadena; y C: determinar si el correo es correo basura de conformidad con un resultado de la determinación adicional y de conformidad con una política de determinación predeterminada, así como interceptar el correo si el correo es correo basura.
2. - El método de conformidad con la reivindicación 1 , caracterizado además porque el Paso A comprende: después de recibir el correo que requiere de procesamiento de filtrado, obtener un título y contenido de cuerpo principal del correo; emplear el título y el contenido del cuerpo principal para obtener datos de texto; determinar los datos de texto obtenidos como los datos de texto de correo que requieren de procesamiento de filtrado.
3. - El método de conformidad con la reivindicación 1 , caracterizado además porque la cadena contenida en la base de datos de cadena se construye a través de una o más unidades de caracteres; en donde la unidad de carácter comprende por lo menos una de una palabra en inglés, una palabra única en chino, una letra única en inglés, la mitad de la palabra única en chino o una puntuación de ancho completo/mitad de ancho.
4.- El método de conformidad con cualquiera de las reivindicaciones 1 a 3, caracterizado además porque la base de datos de cadena corresponde a una tabla maestra de hash y a una tabla maestra de enlace; en donde la tabla maestra de hash almacena la palabra clave en la cadena contenida en la base de datos de cadena y la información de longitud de la cadena correspondiente a la palabra clave, así como la tabla maestra de enlace almacena la información de construcción de carácter completa de la cadena correspondiente a la palabra clave; en donde el Paso B comprende: B1 : extraer un número predeterminado de caracteres comenzando de un primer carácter de los datos de texto, detectar si la tabla maestra de hash contiene una palabra clave que es la misma que el número predeterminado de caracteres, así como si la tabla maestra de hash contiene una palabra clave que es la misma que el número predeterminado de caracteres, obtener la información de longitud correspondiente a la palabra clave, sacar una cadena de los datos de texto de conformidad con la información de longitud, detectar si la tabla maestra de enlace contiene la cadena sacada; y si la tabla maestra de enlace contiene la cadena sacada, determinar que los datos de texto, sean impactados por la revisión una vez y registrar el número de veces que los datos de texto son impactados por la revisión, así como información sobre la palabra clave y la cadena correspondiente a la palabra clave; y B2: si la tabla maestra de hash no contiene la palabra clave que es la misma que el número predeterminado de caracteres, o bien si la tabla maestra de enlace no contiene la cadena sacada, sacar el número predeterminado de caracteres después de desplazar hacia atrás en una unidad de carácter del primer carácter de los datos de texto, así como procesar los caracteres sacados de conformidad con una operación de procesamiento para el número predeterminado de caracteres tomado del primer carácter de los datos de texto en el Paso B1, hasta detectar un último número predeterminado de caracteres en los datos de texto.
5.- El método de conformidad con la reivindicación 4, caracterizado además porque la tabla maestra de hash y la tabla maestra de enlace son establecidas a través de: B01 : sacar el número predeterminado de caracteres comenzando con la primera unidad de carácter en una primera cadena contenida en la base de datos de cadena, considerar los caracteres sacados como la palabra clave, determinar si el número predeterminado de caracteres de la primera unidad de carácter en otra cadena distinta a la primera cadena en la base de datos de cadena, es el mismo que la palabra clave, y si es así, registrar la palabra clave e información de longitud de la otra cadena en la tabla maestra de hash y registrar la información de construcción de caracteres en su totalidad de la otra cadena en la tabla maestra de enlace; y B02: determinar adicionalmente una segunda cadena distinta a una cadena registrada en la tabla maestra de enlace in la base de datos de cadena, así como procesar la segunda cadena de conformidad con una operación de procesamiento para la primera cadena en el Paso B01 , hasta terminar la operación de procesamiento para la primera cadena en el Paso B01 para todas las cadenas contenidas en la base de datos de cadena.
6 - El método de conformidad con la reivindicación 4, caracterizado además porque el Paso C comprende: C1 : obtener el número registrado de veces que los datos de texto son impactados por la revisión, así como la información registrada sobre la palabra clave y la cadena correspondiente a la palabra clave; y C2: de conformidad con el número registrado de veces que los datos de texto son impactados por la revisión, así como la información registrada sobre la palabra clave y la cadena correspondiente a la palabra clave, determinar si el correo es correo basura con base en la política predeterminada, así como interceptar el correo si el correo es correo basura.
7.- El método de conformidad con la reivindicación 6, caracterizado además porque la política de determinación predeterminada comprende: el correo es determinado como correo basura cuando el número de veces que los datos de texto son impactados por la revisión es mayor que un número de veces predeterminado; o bien si la información sobre la cadena en el Paso C1 es la longitud de la cadena impactada por la revisión, la política de determinación predeterminada en el Paso C2 comprende: el correo es determinado como correo basura cuando el número de veces que los datos de texto son impactados por la revisión es mayor que el número de veces predeterminado y la longitud de la cadena impactada por la revisión es mayor que una longitud predeterminada.
8. - Un dispositivo para interceptar correo basura, el cual comprende: un módulo de obtención de datos de texto, configurado para obtener los datos de texto de un correo que requiere de procesamiento de filtrado; un módulo de determinación de caracteres, configurado para determinar si los datos de texto comprenden una palabra clave en una cadena contenida en una base de datos para el filtrado de correo, así como si los datos de texto comprenden la clave en la cadena contenida en la base de datos de cadena para el filtrado de correo, determinar adicionalmente si los datos de texto comprenden una cadena correspondiente a la clave contenida en la base de datos de cadena; y un módulo de procesamiento de correo, configurado para determinar, de conformidad con el resultado de la determinación adicional a partir del módulo de determinación de caracteres así como con una política de determinación predeterminada, si el correo es correo basura, así como interceptar el correo si el correo es correo basura.
9. - El dispositivo de conformidad con la reivindicación 8, caracterizado además porque el módulo de determinación de caracteres comprende: un módulo de establecimiento de hash, configurado para establecer una tabla maestra de hash y una tabla maestra de enlace que corresponden a la base de datos de cadena, en donde la tabla maestra de hash almacena la palabra clave en la cadena contenida en la base de datos de cadena y la información de longitud de la cadena correspondiente a la palabra clave, así como la tabla maestra de enlace almacena la información de construcción de carácter completa de la cadena correspondiente a la palabra clave; y un módulo de procesamiento de revisión, configurado para extraer un número predeterminado de caracteres comenzando con una primera unidad de carácter de los datos de texto, detectar si la tabla maestra de hash contiene la palabra clave que es la misma que el número predeterminado de caracteres, y si la tabla maestra de hash contiene una palabra clave que es la misma que el número predeterminado de caracteres, obtener la información de longitud correspondiente a la palabra clave, tomar una cadena a partir de los datos de texto de conformidad con la información de longitud, detectar si la tabla maestra de enlace contiene la cadena sacada, y si la tabla maestra de enlace contiene la cadena sacada, determinar que los datos de texto sean impactados por la revisión una vez, así como registrar el número de veces que los datos de texto son impactados por la revisión, así como la información sobre la palabra clave y la cadena correspondiente a la palabra clave; y si la tabla maestra de hash no contiene la palabra clave que es la misma que el número predeterminado de caracteres o si la tabla maestra de enlace no contiene la cadena sacada, configurar para sacar el número predeterminado de caracteres después de desplazarse hacia atrás en una unidad de carácter a partir del primer carácter de los datos de texto, así como procesar los caracteres sacados después de desplazarse hacia atrás en una unidad de carácter a partir del primer carácter de los datos de texto de conformidad con una operación de procesamiento para el número predeterminado de caracteres tomados al comenzar a partir de la primera unidad de carácter de los datos de texto hasta detectar un último número predeterminado de caracteres en los datos de texto.
10.- El dispositivo de conformidad con la reivindicación 9, caracterizado además porque el módulo de procesamiento de correo comprende: un módulo de obtención de información de revisión, configurado para obtener el número registrado de veces que los datos de texto son impactados por la revisión, así como la información registrada sobre la palabra clave y la cadena correspondiente a la palabra clave; y un módulo de determinación e intercepción, configurado para determinar, de conformidad con el número registrado de veces que los datos de texto son impactados por la revisión, así como de conformidad con la información registrada sobre la palabra clave y la cadena correspondiente a la palabra clave, si el correo es correo basura con base en la política de determinación predeterminada, así como interceptar el correo si el correo es correo basura.
MX2011005771A 2008-12-02 2009-11-17 Metodo y dispositivo para interceptar correo basura. MX2011005771A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810227762XA CN101415159B (zh) 2008-12-02 2008-12-02 对垃圾邮件进行拦截的方法和装置
PCT/CN2009/074991 WO2010063213A1 (zh) 2008-12-02 2009-11-17 对垃圾邮件进行拦截的方法和装置

Publications (1)

Publication Number Publication Date
MX2011005771A true MX2011005771A (es) 2011-06-20

Family

ID=40595414

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2011005771A MX2011005771A (es) 2008-12-02 2009-11-17 Metodo y dispositivo para interceptar correo basura.

Country Status (7)

Country Link
US (1) US20110202620A1 (es)
CN (1) CN101415159B (es)
BR (1) BRPI0922719B1 (es)
CA (1) CA2743273C (es)
MX (1) MX2011005771A (es)
RU (1) RU2474970C1 (es)
WO (1) WO2010063213A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
CN101610251B (zh) * 2009-07-21 2012-12-05 山东竞星信息科技有限公司 一种预定义关键字的信息拦截方法和设备
CN102377690B (zh) * 2011-10-10 2014-09-17 网易(杭州)网络有限公司 反垃圾邮件网关系统及方法
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
CN102685151A (zh) * 2012-06-05 2012-09-19 陈云昊 语音过滤及转发的方法
US9420437B2 (en) * 2012-09-25 2016-08-16 Business Texter, Inc. Mobile device communication system
CN103793398B (zh) * 2012-10-30 2018-09-04 腾讯科技(深圳)有限公司 检测垃圾数据的方法和装置
WO2015025325A1 (en) 2013-08-20 2015-02-26 Longsand Limited Private tokens in electronic messages
CN103441924B (zh) * 2013-09-03 2016-06-08 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN104038391B (zh) * 2014-07-02 2017-11-17 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN106156093A (zh) * 2015-04-01 2016-11-23 阿里巴巴集团控股有限公司 广告内容的识别方法和装置
CN105007218B (zh) * 2015-08-20 2018-07-31 世纪龙信息网络有限责任公司 反垃圾电子邮件方法和系统
CN106211165B (zh) * 2016-06-14 2020-04-21 北京奇虎科技有限公司 检测外文骚扰短信的方法、装置及相应的客户端
CN113067765B (zh) * 2020-01-02 2023-01-13 中国移动通信有限公司研究院 一种多媒体消息监控方法、装置及设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
US7321922B2 (en) * 2000-08-24 2008-01-22 Yahoo! Inc. Automated solicited message detection
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
US8046832B2 (en) * 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US7500096B2 (en) * 2002-12-31 2009-03-03 Pitney Bowes Inc. System and method for message filtering by a trusted third party
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US20050216564A1 (en) * 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
US7664819B2 (en) * 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US20060259551A1 (en) * 2005-05-12 2006-11-16 Idalis Software Detection of unsolicited electronic messages
US20070016641A1 (en) * 2005-07-12 2007-01-18 International Business Machines Corporation Identifying and blocking instant message spam
CN101087259A (zh) * 2006-06-07 2007-12-12 深圳市都护网络科技有限公司 一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法
US20080059590A1 (en) * 2006-09-05 2008-03-06 Ecole Polytechnique Federale De Lausanne (Epfl) Method to filter electronic messages in a message processing system
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
WO2008075426A1 (ja) * 2006-12-20 2008-06-26 Duaxes Corporation 通信制御装置及び通信制御方法
US8458262B2 (en) * 2006-12-22 2013-06-04 At&T Mobility Ii Llc Filtering spam messages across a communication network
US20090138565A1 (en) * 2007-11-26 2009-05-28 Gil Shiff Method and System for Facilitating Content Analysis and Insertion
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置

Also Published As

Publication number Publication date
CN101415159B (zh) 2010-06-02
BRPI0922719B1 (pt) 2021-01-19
RU2474970C1 (ru) 2013-02-10
WO2010063213A1 (zh) 2010-06-10
CA2743273C (en) 2016-01-12
CN101415159A (zh) 2009-04-22
BRPI0922719A2 (pt) 2016-01-05
CA2743273A1 (en) 2010-06-10
US20110202620A1 (en) 2011-08-18

Similar Documents

Publication Publication Date Title
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
WO2020108430A1 (zh) 一种微博情感分析方法及系统
TWI501097B (zh) 文字串流訊息分析系統和方法
CN104268192B (zh) 一种网页信息提取方法、装置及终端
CN111581355A (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN102541937A (zh) 一种网页信息探测方法及系统
CN105677661A (zh) 一种检测社交媒体重复数据的方法
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN110442679A (zh) 一种基于融合模型算法的文本去重方法
CN103455597A (zh) 面向海量web图像的分布式信息隐藏检测方法
CN107145568A (zh) 一种快速的新闻事件聚类系统及方法
CN111985896A (zh) 邮件过滤方法及装置
US8566317B1 (en) Apparatus and methods for scalable object clustering
CN114707003B (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN101576872B (zh) 一种中文文本处理方法及装置
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN107391684A (zh) 一种威胁情报生成的方法及系统
KR20210083510A (ko) 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법
Alves et al. Leveraging BERT's Power to Classify TTP from Unstructured Text
Sagcan et al. Toponym recognition in social media for estimating the location of events
US11429819B2 (en) Packer classification apparatus and method using PE section information
CN109284465A (zh) 一种基于url的网页分类器构建方法及其分类方法

Legal Events

Date Code Title Description
FG Grant or registration