WO2008006905A2 - Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten - Google Patents

Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten Download PDF

Info

Publication number
WO2008006905A2
WO2008006905A2 PCT/EP2007/057266 EP2007057266W WO2008006905A2 WO 2008006905 A2 WO2008006905 A2 WO 2008006905A2 EP 2007057266 W EP2007057266 W EP 2007057266W WO 2008006905 A2 WO2008006905 A2 WO 2008006905A2
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
feature pattern
communication network
message
messages
Prior art date
Application number
PCT/EP2007/057266
Other languages
English (en)
French (fr)
Other versions
WO2008006905A3 (de
Inventor
Joachim Charzinski
Original Assignee
Nokia Siemens Networks Gmbh & Co. Kg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Siemens Networks Gmbh & Co. Kg filed Critical Nokia Siemens Networks Gmbh & Co. Kg
Priority to EP07787534A priority Critical patent/EP2044588A2/de
Priority to US12/373,633 priority patent/US20100131270A1/en
Priority to CA002658152A priority patent/CA2658152A1/en
Publication of WO2008006905A2 publication Critical patent/WO2008006905A2/de
Publication of WO2008006905A3 publication Critical patent/WO2008006905A3/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1076Screening of IP real time communications, e.g. spam over Internet telephony [SPIT]
    • H04L65/1079Screening of IP real time communications, e.g. spam over Internet telephony [SPIT] of unsolicited session attempts, e.g. SPIT
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53333Message receiving aspects
    • H04M3/5335Message type or catagory, e.g. priority, indication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/253Telephone sets using digital voice transmission
    • H04M1/2535Telephone sets using digital voice transmission adapted for voice communication over an Internet Protocol [IP] network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/663Preventing unauthorised calls to a telephone set
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer

Definitions

  • the invention relates to a method and system for reducing the reception of unwanted messages by using feature patterns.
  • VoIP Voice over IP
  • SPIT Packet over Internet telephony
  • PSTN Public Switched Telephone Network
  • VoIP subscribers can be conducted almost free of charge for the caller due to the deviating billing model, which can be expected to generate a massive amount of SPIT for the future.
  • the ability to send recorded voice files in bulk should be interesting for advertisers. It can be assumed that the affected VoIP subscribers will ask their respective VoIP provider for appropriate measures to be protected against unwanted calls.
  • a whitelist for a subscriber X contains subscriber-specific information on such other subscribers Y in the communication network that have been classified as trustworthy and are thus entitled to call subscriber X.
  • a blacklist contains subscriber-specific information about such other subscribers Y who have been classified as untrustworthy and who are therefore not authorized to call subscriber X.
  • SPIT protection using white and black lists is ineffective in the case of a first-time calling, unknown subscriber, since in this case the subscriber-specific data of the unknown subscriber can not be contained in a white or a black list of the called subscriber.
  • the object of the invention is to provide a method and a system in such a way that the reception of unwanted messages in a communication network is reduced.
  • the invention relates to a method for determining a feature pattern for a voice message, wherein the voice message is in the form of a number-encoded audio signal generated by sampling.
  • the method includes at least the following steps for determining the feature pattern on the basis of the number-coded audio signal: In a first step, suppression of non-speech portions of the audio signal by filtering irrelevant frequency ranges in the course of application of a suitable signal filter to the audio signal, in particular application of a bandpass filter.
  • a mapping rule (SQR) is used for mapping all elements of the number-encoded audio signal into the area of the positive numbers.
  • a third step an adaptation of a sample rate characterizing the sampling of the audio signal.
  • the new value range of all elements of the number-coded audio signal resulting from the adaptation of the sampling rate is normalized with respect to a maximum value and an average value.
  • the invention relates to a system for carrying out the illustrated method as well as devices and a corresponding communication network.
  • the invention has the advantage that the reception of unwanted messages is reduced.
  • FIG. 1 Block diagram for generating a feature pattern FP for a message M
  • Figure 2 Variants of the generation of the feature pattern FP with additional differentiator DA
  • Figure 3 variant of the generation of the feature pattern FP with additional threshold filter SWF and sample counter SZ
  • FIG. 4 Comparison of two feature patterns FP1, FP2 for two messages M1, M2
  • a feature pattern FP is determined for a message M.
  • the message M is a voice message in a communication network, for example a voice over IP communication network.
  • the message M is present in the form of a number-encoded audio signal generated by sampling.
  • the inventive method is characterized by a plurality of steps, in the course of which the feature pattern FP is determined on the basis of the number-coded audio signal. The determination of the feature pattern FP is irreversible, thus the message M can not be reconstructed from the feature pattern FP.
  • the particular feature pattern FP can be stored, for example, and / or transmitted to components within or outside the communication network for further processing. Furthermore, it is possible to compare the particular feature pattern FP with a second feature pattern FP of a second follower M and to determine whether the content of both messages is congruent.
  • FIG. 1 shows a block diagram for generating a feature pattern FP from a message M. The steps illustrated in the block diagram are explained below.
  • non-speech components of the audio signal are suppressed by filtering irrelevant frequency ranges during the application of a suitable signal filter to the audio signal.
  • a bandpass filter BPF is advantageous, since the bandpass filter BPF mainly Although the frequency domain remains unchanged, non-speech components are largely filtered out.
  • a mapping instruction SQR is used to map all elements of the number-coded audio signal (English samples) into the range of the positive numbers. For example, in the case of the squaring module, all elements of the numerically coded audio signal are squared, in the case of the absolute value module the corresponding amount is formed for all elements of the number-coded audio signal.
  • an adaptation of a sampling rate of the audio signal characterizing the scanning takes place by means of an addition module AS.
  • the addition module AS successively combines in each case a set of elements of the number-coded audio signal, resulting in a changed sampling rate of the audio signal.
  • the number of samples summarized per second can be set.
  • a normalization of the new value range of all elements of the number-coded audio signal resulting from the adaptation of the sampling rate takes place with respect to a maximum value and an average value by means of a normalizer RA.
  • the normalizer RA performs a linear transformation of the samples of the audio signal in such a way that a normalization to a maximum value of 1 and an average value of 0 takes place.
  • Result of the illustrated method is a sequence of numbers between -1 and 1, which represent the feature pattern FP for the message M.
  • the above sequence of steps is variable and not limited to the sequence shown. In particular, steps can be omitted, changed over, or executed several times.
  • the temporal duration of the audio signal is limited to a predefined level, wherein the restriction step can be carried out at any desired point in the method.
  • the length limitation occurs as early as possible in the sequence of steps in order to minimize the computational effort in the subsequent steps.
  • a removal of the DC component of the audio signal takes place, wherein the DC component represents the long-term average value of the audio signal.
  • FIG. 2 shows variants of the generation of the feature pattern FP with an additional differentiator DA.
  • FIG. 3 shows a variant of the generation of the feature pattern FP with an additional threshold filter SWF and a
  • Sample counter SZ By applying the threshold filter SWF, all sample values are extracted from the audio signal. tert, which are below a limit. The use of the sample counter SZ ensures that the number of samples of the resulting feature pattern is correct. In this way, for example, very quiet sections of the audio signal can be filtered out.
  • the application of the threshold filter SWF and the sample counter SZ is possible at any point of the method described above. Preferably, the application of the threshold filter SWF after application of the bandpass filter BPF and before the application of the normalizer RA and before a possible application of the differentiator DA.
  • FIG. 4 shows the comparison of two feature patterns FP1, FP2 for two messages M1, M2.
  • the inventive method makes it possible to compare a first message Ml on the basis of a first calculated feature pattern FP1 with a second feature pattern FP2 of a second message M2. In this way it is possible to determine whether two messages Ml, M2 are identical in content or almost identical.
  • the cross-correlation function c (k) of the two feature patterns is determined.
  • This function c (k) is defined as follows for two data series sl (i) and s2 (j), the two data series representing the samples of the first and the second message, respectively:
  • the messages are classified as identical. Otherwise, the messages are rated as not identical.
  • a continuous or a multi-stage Measure for the equality of two messages Ml, M2 are derived.
  • a continuous measure of equality has infinitely many intermediate stages, whereas a multilevel has only a finite number of intermediate stages.
  • the ratio Cl / CO between the maximum of the cross-correlation function c (k) and the maximum CO of the auto-correlation function (feature pattern of the first message Ml) can also be correlated for determining a measure for the equality of two messages Ml, M2 with himself).
  • the threshold value predetermined for the correlation function c (k) or the reference value for a multi-level classification can be determined from the auto and cross-correlation functions of other messages stored in the system.
  • the inventive method is efficient because a feature pattern FP for a message M contains only a small amount of data. In this way, the feature space is greatly reduced starting from a message M.
  • the small amount of data per feature pattern FP allows, for example, a very efficient storage and / or forwarding of a feature pattern FP within a communication system.
  • the method according to the invention is also suitable for comparing messages which are independent of one another, for example after transmission by analog voice network or after recoding the messages - were digitized.
  • the inventive method is insensitive to a certain amount of superimposed noise in different variants of a message M.
  • the resulting size of the feature patterns FP1, FP2 can be influenced by adjusting the data rate and by limiting the length of the audio signal.
  • a further advantage of the invention is that a feature pattern FP1 for a message M1 is indeed suitable for comparison with a second feature pattern FP2 for a second message M2, that it is no longer possible to recalculate the original voice message from a feature pattern FP1, FP2. Only in this way can the method also be used in a distributed analysis system in which feature patterns in the communication network are transmitted with the aim of comparison, without the receiver being able to obtain knowledge of the original voice message.
  • the method according to the invention is executed by a voicebox server.
  • the inventive method is executed in a communication network of at least one client and at least one server, wherein the client performs the determination of a feature pattern FP for a message M, and wherein the server compares feature patterns FP for different messages M performs.
  • the client represents, for example, a network-based voicebox system or a terminal such as an answering machine.
  • the server is made available, for example, by a network operator as part of an answering service. Alternatively, the server can also be offered by an independent operator.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Gegenstand der Erfindung ist ein Verfahren zur Bestimmung eines Merkmalsmusters für eine Sprachnachricht, wobei die Sprachnachricht in Form eines durch Abtastung erzeugten zahlenkodierten Audiosignals vorliegt. Das Verfahren umfasst zumindest die folgenden Schritte zur Bestimmung des Merkmalsmusters auf Basis des zahlenkodierten Audiosignals: In einem ersten Schritt erfolgt eine Unterdrückung nicht- sprachlicher Anteile des Audiosignals durch Ausfilterung irrelevanter Frequenzbereiche im Zuge einer Anwendung eines geeigneten Signalfilters auf das Audiosignal, insbesondere Anwendung eines Bandpassfilters. In einem zweiten Schritt erfolgt eine Anwendung einer Abbildungsvorschrift (SQR) zur Abbildung aller Elemente des zahlenkodierten Audiosignals in den Bereich der positiven Zahlen. In einem dritten Schritt erfolgt eine Anpassung einer die Abtastung charakterisierenden Abtastrate des Audiosignals. In einem vierten Schritt erfolgt eine Normierung des durch die Anpassung der Abtastrate entstandenen neuen Wertebereichs aller Elemente des zahlenkodierten Audiosignals bezüglich eines Maximalwertes und eines Mittelwertes. Weiterhin betrifft die Erfindung ein System zur Ausführung des dargestellten Verfahrens sowie Vorrichtungen und ein entsprechendes Kommunikationsnetz.

Description

Beschreibung
Verfahren und System zur Reduzierung des Empfangs unerwünschter Nachrichten
Die Erfindung betrifft ein Verfahren und ein System zur Reduzierung des Empfangs unerwünschter Nachrichten durch Verwendung von Merkmalsmustern.
Mit der zunehmenden Verbreitung der Internettelefonie (Voice over IP, kurz VoIP) wird erwartet, dass VoIP-Teilnehmer in zunehmendem Ausmaß sogenanntem SPIT (SPAM over Internet Te- lephony) ausgesetzt sein werden. Derzeit werden Werbeanrufe zu konventionellen PSTN-Teilnehmern (PSTN für Public Switched Telephone Network) normalerweise immer zu Lasten des Anrufenden vergebührt. Anrufe zu VoIP-Teilnehmern können hingegen aufgrund des abweichenden Vergebührungsmodells für den Anrufenden nahezu kostenfrei geführt werden, was ein massives SPIT-Aufkommen für die Zukunft erwarten lässt. Insbesondere die Möglichkeit, aufgezeichnete Sprachdateien in Massen zu versenden, dürfte für Werbetreibende interessant sein. Es ist davon auszugehen, dass die betroffenen VoIP-Teilnehmer ihren jeweiligen VoIP-Provider zu geeigneten Maßnahmen auffordern werden, um vor unerwünschten Anrufen geschützt zu sein.
Als Gegenmaßnahme gegen SPIT werden unter anderem so genannte Weiße Listen (englisch White lists) und Schwarze Listen (englisch Black lists) eingesetzt. Eine Weiße Liste enthält für einen Teilnehmer X teilnehmerspezifische Informationen zu solchen anderen Teilnehmern Y im Kommunikationsnetz, die als vertrauenswürdig eingestuft wurden und somit berechtigt sind, Teilnehmer X anzurufen. Eine Schwarze Liste enthält hingegen teilnehmerspezifische Informationen zu solchen anderen Teilnehmern Y, die als nicht vertrauenswürdig eingestuft wurden und somit nicht berechtigt sind, Teilnehmer X anzurufen. Der SPIT-Schutz mithilfe von Weißen und Schwarzen Listen ist jedoch wirkungslos im Falle eines erstmalig anrufenden, unbekannten Teilnehmers, da in diesem Fall die teilnehmerspezifischen Daten des unbekannten Teilnehmers weder auf einer Wei- ßen noch auf einer Schwarzen Liste des angerufenen Teilnehmers enthalten sein können.
Es ist weiterhin denkbar, Nachrichten aufgrund ihrer Ähnlichkeit zu einer zuvor als SPIT-Nachricht erkannten Nachricht ebenfalls als SPIT zu klassifizieren. Falls eine Nachricht gehäuft auftritt, ist dies ebenfalls ein starkes Indiz für eine unerwünschte Nachricht.
Ein exakter Vergleich, beispielsweise in Form reines Ver- gleich auf Ebene der die zu vergleichenden Nachrichten repräsentierenden Bitströme, führt dabei jedoch nicht zum Ziel, da schon eine geringfügige, für den Angerufenen nicht hörbare Modifikation, beispielsweise durch Neukodierung oder eine zufällige Verzögerung zu Beginn der Nachricht, zu einem Unter- schied zwischen den verglichenen Nachrichten führen würde.
Die Aufgabe der Erfindung besteht darin, ein Verfahren und ein System dahingehend auszugestalten, dass der Empfang unerwünschter Nachrichten in einem Kommunikationsnetz reduziert wird.
Diese Aufgabe wird durch die Merkmale der Patentansprüche 1 und 6 hinsichtlich des Verfahrens und durch die Merkmale des Patentanspruchs 7 hinsichtlich des Systems gelöst. Weiterbil- düngen der Erfindung sind in den abhängigen Ansprüchen angegeben .
Gegenstand der Erfindung ist ein Verfahren zur Bestimmung eines Merkmalsmusters für eine Sprachnachricht, wobei die Sprachnachricht in Form eines durch Abtastung erzeugten zahlenkodierten Audiosignals vorliegt. Das Verfahren umfasst zu- mindest die folgenden Schritte zur Bestimmung des Merkmalsmusters auf Basis des zahlenkodierten Audiosignals: In einem ersten Schritt erfolgt eine Unterdrückung nichtsprachlicher Anteile des Audiosignals durch Ausfilterung ir- relevanter Frequenzbereiche im Zuge einer Anwendung eines geeigneten Signalfilters auf das Audiosignal, insbesondere Anwendung eines Bandpassfilters.
In einem zweiten Schritt erfolgt eine Anwendung einer Abbildungsvorschrift (SQR) zur Abbildung aller Elemente des zah- lenkodierten Audiosignals in den Bereich der positiven Zahlen .
In einem dritten Schritt erfolgt eine Anpassung einer die Abtastung charakterisierenden Abtastrate des Audiosignals. In einem vierten Schritt erfolgt eine Normierung des durch die Anpassung der Abtastrate entstandenen neuen Wertebereichs aller Elemente des zahlenkodierten Audiosignals bezüglich eines Maximalwertes und eines Mittelwertes.
Weiterhin betrifft die Erfindung ein System zur Ausführung des dargestellten Verfahrens sowie Vorrichtungen und ein entsprechendes Kommunikationsnetz.
Die Erfindung bringt den Vorteil mit sich, dass der Empfang unerwünschter Nachrichten reduziert wird.
Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird im Folgenden näher beschrieben.
Es zeigen:
Figur 1: Blockdiagramm zur Erzeugung eines Merkmalsmusters FP für eine Nachricht M
Figur 2: Varianten der Erzeugung des Merkmalsmusters FP mit zusätzlichem Differenzierer DA Figur 3: Variante der Erzeugung des Merkmalsmusters FP mit zusätzlichem Schwellwertfilter SWF und Sample-Zähler SZ
Figur 4: Vergleich zweier Merkmalsmuster FPl, FP2 für zwei Nachrichten Ml, M2
Erfindungsgemäß wird für eine Nachricht M ein Merkmalsmuster FP bestimmt. Bei der Nachricht M handelt es sich dabei um ei- ne Sprachnachricht in einem Kommunikationsnetz, beispielsweise einem Voice over IP-Kommunikationsnetz . Die Nachricht M liegt dabei in Form eines durch Abtastung erzeugten zahlenkodierten Audiosignals vor. Das erfindungsgemäße Verfahren ist durch eine Mehrzahl von Schritten gekennzeichnet, in deren Zuge auf Basis des zahlenkodierten Audiosignals das Merkmalsmuster FP bestimmt wird. Die Bestimmung des Merkmalsmusters FP ist dabei unumkehrbar, aus dem Merkmalsmuster FP kann somit die Nachricht M nicht rekonstruiert werden.
Das bestimmte Merkmalsmuster FP kann beispielsweise gespeichert und/oder zur Weiterverarbeitung an Komponenten innerhalb oder außerhalb des Kommunikationsnetzes übertragen werden. Weiterhin ist es möglich, das bestimmte Merkmalsmuster FP mit einem zweiten Merkmalsmuster FP einer zweiten Nach- rieht M zu vergleichen und festzustellen, ob beide Nachrichten inhaltlich deckungsgleich sind.
Figur 1 zeigt ein Blockdiagramm zur Erzeugung eines Merkmalsmusters FP aus einer Nachricht M. Die im Blockdiagramm darge- stellten Schritte werden im Folgenden erläutert.
Zunächst werden in einem ersten Schritt nichtsprachliche Anteile des Audiosignals durch Ausfilterung irrelevanter Frequenzbereiche im Zuge einer Anwendung eines geeigneten Sig- nalfilters auf das Audiosignal unterdrückt. Dabei ist insbesondere die Anwendung eines Bandpassfilters BPF vorteilhaft, da der Bandpassfilter BPF hauptsächlich den für Sprache rele- vanten Frequenzbereich unverändert lässt, nichtsprachliche Anteile jedoch weitgehend herausfiltert.
In einem zweiten Schritt erfolgt eine Anwendung einer Abbil- dungsvorschrift SQR zur Abbildung aller Elemente des zahlenkodierten Audiosignals (englisch Samples) in den Bereich der positiven Zahlen. Vorteilhaft stellt die Abbildungsvorschrift SQR beispielsweise ein Quadrier- oder Absolutwert-Modul dar: Im Falle des Quadrier-Moduls werden alle Elemente des zahlen- kodierten Audiosignals quadriert, im Falle des Absolutwert- Moduls wird für alle Elemente des zahlenkodierten Audiosignals der entsprechende Betrag gebildet.
In einem dritten Schritt erfolgt eine Anpassung einer die Ab- tastung charakterisierenden Abtastrate des Audiosignals mittels eines Additionsmoduls AS. Das Additionsmodul AS fasst schrittweise jeweils eine Menge von Elementen des zahlenkodierten Audiosignals zusammen, so dass eine geänderte Abtastrate des Audiosignals resultiert. Die Anzahl n von pro Sekun- de zusammengefassten Samples ist einstellbar.
In einem vierten Schritt erfolgt eine Normierung des durch die Anpassung der Abtastrate entstandenen neuen Wertebereichs aller Elemente des zahlenkodierten Audiosignals bezüglich ei- nes Maximalwertes und eines Mittelwertes mittels eines Normierers RA. Vorzugsweise führt der Normierer RA eine lineare Transformation der Samples des Audiosignals dergestalt durch, dass eine Normierung auf einen Maximalwert von 1 und einen Mittelwert von 0 erfolgt.
Im Anschluss an das dargestellte Verfahren erfolgt eine Ausgabe aller modifizierten Elemente des zahlenkodierten Audiosignals. Ergebnis des dargestellten Verfahrens ist eine Folge von Zahlen zwischen -1 und 1, die das Merkmalsmuster FP für die Nachricht M darstellen. Die oben dargestellte Abfolge der Schritte ist variierbar und nicht auf die dargestellte Abfolge beschränkt. Insbesondere können Schritte ausgelassen, umgestellt oder mehrfach ausgeführt werden.
In einer weiteren Ausprägung der Erfindung erfolgt in einem zusätzlichen Beschränkungs-Schritt eine Beschränkung der zeitlichen Dauer des Audiosignals auf ein vorgegebenes Maß, wobei der Beschränkungs-Schritt an beliebiger Stelle des Ver- fahrens ausführbar ist. Vorzugsweise erfolgt die Längenbegrenzung möglichst früh in der Abfolge der Schritte, um den Rechenaufwand in den darauf folgenden Schritten zu minimieren .
In einer weiteren Ausprägung der Erfindung erfolgt vor Anwendung des Bandfilters BPF eine Entfernung des Gleichanteils des Audiosignals, wobei der Gleichanteil den Langzeit- Mittelwert des Audiosignals darstellt.
Figur 2 zeigt Varianten der Erzeugung des Merkmalsmusters FP mit einem zusätzlichen Differenzierer DA. Der Differenzierer DA stellt zu einer Folge von Samples X1, i=l,2,..., N eine zweite Folge von Samples V1 = x1+i - X1, i=l, 2, ... N-I zur Verfügung. Auf diese Weise wird anstelle der Energie in den einzelnen Zeitabschnitten die Änderung der Energie von einem Zeitabschnitt zum nächsten als Bewertungsgröße verwendet. Aus der Anwendung des Differenzierers DA resultiert vorteilhaft eine Robustheit gegen überlagernde Störungen wie beispielsweise Störsignale konstanter Lautstärke. Wie in Figur 2 ge- zeigt, erfolgt die Anwendung des Differenzierers DA vorzugsweise nach der Anwendung des Additionsmoduls AS oder nach Anwendung des Normierers RA.
Figur 3 zeigt eine Variante der Erzeugung des Merkmalsmusters FP mit einem zusätzlichen Schwellwertfilter SWF und einem
Sample-Zähler SZ. Durch die Anwendung des Schwellwertfilters SWF werden alle Sample-Werte aus dem Audiosignal herausgefil- tert, die unterhalb eines Grenzwertes liegen. Die Anwendung des Sample-Zählers SZ stellt sicher, dass die Anzahl der Sam- ples des resultierenden Merkmalsmusters korrekt ist. Auf diese Weise lassen sich beispielsweise sehr leise Abschnitte des Audiosignals herausfiltern. Die Anwendung des Schwellwertfilters SWF und des Sample-Zählers SZ ist an beliebiger Stelle des oben dargestellten Verfahrens möglich. Vorzugsweise erfolgt die Anwendung des Schwellwertfilters SWF nach Anwendung des Bandpassfilters BPF und vor Anwendung des Normierers RA sowie vor einer möglichen Anwendung des Differenzierers DA.
Figur 4 zeigt den Vergleich zweier Merkmalsmuster FPl, FP2 für zwei Nachrichten Ml, M2. Das erfindungsgemäße Verfahren ermöglicht es, eine erste Nachricht Ml auf Basis eines ersten errechneten Merkmalsmusters FPl mit einem zweiten Merkmalsmuster FP2 einer zweiten Nachricht M2 zu vergleichen. Auf diese Weise ist es möglich, festzustellen, ob zwei Nachrichten Ml, M2 inhaltlich identisch oder fast identisch sind.
Für den Vergleich eines zweiten Merkmalsmusters FP2 einer zweiten Nachricht M2 mit einem ersten Merkmalsmusters FPl einer ersten Nachricht Ml wird die Kreuzkorrelationsfunktion c(k) der beiden Merkmalsmuster bestimmt. Diese Funktion c(k) ist für zwei Datenreihen sl(i) und s2(j) folgendermaßen defi- niert, wobei die zwei Datenreihen die Samples der ersten beziehungsweise der zweiten Nachricht darstellen:
c(k)=∑ (i)s2 (i-k)
Falls einer der Ergebniswerte der Korrelationsfunktion c(k) einen vorgegebenen Schwellwert überschreitet, werden die Nachrichten als identisch klassifiziert. Ansonsten werden die Nachrichten als nicht identisch bewertet.
In einer weiteren Ausprägung der Erfindung kann aus dem Maximalwert von c(k) ein kontinuierliches oder ein mehrstufiges Maß für die Gleichheit zweier Nachrichten Ml, M2 abgeleitet werden. Ein kontinuierliches Maß für die Gleichheit hat dabei unendlich viele Zwischenstufen, ein mehrstufiges dagegen nur eine endliche Anzahl von Zwischenstufen.
In einer weiteren Ausprägung der Erfindung kann für die Bestimmung eines Maßes für die Gleichheit zweier Nachrichten Ml, M2 auch das Verhältnis Cl/CO zwischen dem Maximum der Kreuzkorrelationsfunktion c(k) und dem Maximum CO der Auto- korrelationsfunktion (Merkmalsmuster der ersten Nachricht Ml korreliert mit sich selbst) verwendet werden.
In einer weiteren Ausprägung der Erfindung kann der bezüglich der Korrelationsfunktion c(k) vorgegebene Schwellwert oder der Bezugswert für eine mehrstufige Klassifikation aus den Auto- und Kreuzkorrelationsfunktionen anderer im System gespeicherter Nachrichten bestimmt werden.
Das erfindungsgemäße Verfahren ist effizient, da ein Merk- malsmuster FP für eine Nachricht M nur eine kleine Datenmenge enthält. Auf diese Weise wird der Merkmalsraum ausgehend von einer Nachricht M stark reduziert. Die kleine Datenmenge pro Merkmalsmuster FP erlaubt beispielsweise eine sehr effiziente Speicherung und/oder Weitervermittlung eines Merkmalsmusters FP innerhalb eines Kommunikationssystems. Im Gegensatz zu einem bitweisen Vergleich von Nachrichten M oder einem Vergleich von direkt aus dem Audiosignal einer Nachricht M abgeleiteten Werten wie zum Beispiel Hash-Werten eignet sich das erfindungsgemäße Verfahren auch zum Vergleich von Nachrich- ten, die unabhängig voneinander - beispielsweise nach Übertragung durch ein analoges Sprachnetz oder nach Umkodierung der Nachrichten - digitalisiert wurden. Weiterhin ist das erfindungsgemäße Verfahren unempfindlich gegenüber einem gewissen Maß an überlagernden Störgeräuschen in verschiedenen Va- rianten einer Nachricht M. Die Erkennung inhaltlich gleicher oder fast gleicher Nachrichten M ist sicher und robust möglich. Auch bei kleineren Unterschieden zwischen zwei Nach- richten Ml, M2 wie beispielsweise einer unterschiedlichen Anrede oder Einfügen kleiner individueller Anteile in eine der Nachrichten Ml, M2 sind inhaltlich prinzipiell gleiche Nachrichten zuverlässig zu erkennen. Das Verfahren erlaubt es so- mit, festzustellen, dass zwei Nachrichten Ml, M2 mit hoher
Wahrscheinlichkeit dieselbe Sprachinformation tragen. Die resultierende Größe der Merkmalsmuster FPl, FP2 ist dabei durch die Anpassung der Datenrate und durch Längenbegrenzung des Audiosignals beeinflussbar.
Ein weiterer Vorteil der Erfindung liegt darin, dass ein Merkmalsmuster FPl für eine Nachricht Ml zwar zum Vergleich mit einem zweiten Merkmalsmuster FP2 für eine zweite Nachricht M2 geeignet ist, dass man aus einem Merkmalsmuster FPl, FP2 die ursprüngliche Sprachnachricht nicht mehr zurückrechnen kann. Nur so kann das Verfahren auch in einem verteilten Analysesystem eingesetzt werden, in dem Merkmalsmuster im Kommunikationsnetz mit dem Ziel des Vergleichens übertragen werden, ohne dass dadurch der Empfänger Kenntnis von der ursprünglichen Sprachnachricht erhalten kann.
In einer Ausprägung der Erfindung wird das erfindungsgemäße Verfahren von einem Voicebox-Server ausgeführt.
In einer weiteren Ausprägung der Erfindung wird das erfindungsgemäße Verfahren in einem Kommunikationsnetz von mindestens einem Client und mindestens einem Server ausgeführt, wobei der Client die Bestimmung eines Merkmalsmuster FP für eine Nachricht M durchführt, und wobei der Server den Vergleich von Merkmalsmustern FP für verschiedene Nachrichten M durchführt. Der Client stellt dabei beispielsweise ein netzbasiertes Voicebox-System oder ein Endgerät wie beispielsweise einen Anrufbeantworter dar. Der Server wird beispielsweise von einem Netzbetreiber im Rahmen eines Anrufbeantworterdienstes zur Verfügung gestellt. Alternativ kann der Server auch von einem unabhängigen Betreiber angeboten werden.

Claims

Patentansprüche
1. Verfahren zur Bestimmung eines Merkmalsmusters (FP) für eine Sprachnachricht (M) , wobei die Sprachnachricht (M) in Form eines durch Abtastung erzeugten zahlenkodierten Audiosignals vorliegt, dadurch gekennzeichnet, dass das Verfahren zumindest die folgenden Schritte zur Bestimmung des Merkmalsmusters (FP) auf Basis des zahlenkodierten Audio- Signals umfasst: in einem ersten Schritt: Unterdrückung nichtsprachlicher Anteile des Audiosignals durch Ausfilterung irrelevanter Frequenzbereiche im Zuge einer Anwendung eines geeigneten Signalfilters auf das Audiosignal, insbesondere Anwendung eines Bandpassfilters (BPF) in einem zweiten Schritt: Anwendung einer Abbildungsvorschrift (SQR) zur Abbildung aller Elemente des zahlenkodierten Audiosignals in den Bereich der positiven Zahlen in einem dritten Schritt: Anpassung einer die Abtastung charakterisierenden Abtastrate des Audiosignals in einem vierten Schritt: Normierung des durch die Anpassung der Abtastrate entstandenen neuen Wertebereichs aller Elemente des zahlenkodierten Audiosignals bezüglich eines Maximalwertes und eines Mittelwertes.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Abfolge der Schritte variierbar ist, und/oder ein oder mehrere Schritte überspringbar oder wiederholt anwendbar sind, und/oder die Bestimmung des Merkmalsmusters (FP) unumkehrbar ist.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass in einem zusätzlichen Beschränkungs-Schritt eine Beschränkung der zeitlichen Dauer des Audiosignals auf ein vorgegebenes Maß erfolgt, wobei der Beschränkungs-Schritt an beliebiger Stelle des Verfahrens ausführbar ist.
4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass in einem zusätzlichen Differenzierungs-Schritt mittels eines Differenzierers (DA) zu einer Folge von das Audiosignal repräsentierenden Samples X1, i=l,2,..., N eine zweite Folge von Samples V1 = x1+i - X1, i=l, 2, ... N-I bestimmt wird, so dass anstelle der absoluten Sample-Werte des Audiosignals statt- dessen die Differenz zwischen zwei aufeinander folgenden Sam- ple-Werten für die Bestimmung des Merkmalsmuster (FP) verwendet wird, wobei der Differenzierungs-Schritt an beliebiger Stelle des Verfahrens ausführbar ist.
5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass vor der Unterdrückung nichtsprachlicher Anteile des Audiosignals eine Entfernung eines Gleichanteils des Audiosignals erfolgt, wobei der Gleichanteil den Langzeit-Mittelwert des Au- diosignals darstellt.
6. Verfahren zum inhaltlichen Vergleich von Sprachnachrichten (Ml, M2) bei dem in einem ersten Schritt für eine erste Sprach- nachricht (Ml) ein erstes Merkmalsmuster (FPl) gemäß Anspruch 1 bestimmt wird, und bei dem in einem zweiten Schritt für eine zweite Sprachnachricht (M2) ein zweites Merkmalsmuster (FP2) gemäß Anspruch 1 bestimmt wird, und - bei dem ein Vergleich des ersten und des zweiten Merkmalsmusters (FPl, FP2) mittels einer Kreuzkorrelationsfunktion (c(k)) vorgenommen wird, wobei die erste und die zweite Sprachnachricht (Ml, M2 ) als identisch hinsichtlich ihres Inhaltes bewertet wer- den, wenn mindestens ein Wert aus der Ergebnismenge der Kreuzkorrelationsfunktion (c(k)) einen vorgegebenen Schwellwert überschreitet.
7. System zur Identifizierung fast gleicher Sprachnachrichten (Ml, M2 ) mit Mitteln zum inhaltlichen Vergleich von Sprachnachrichten (Ml, M2 ) gemäß dem Verfahren nach An- spruch 6.
8. Kommunikationsnetz, aufweisend zumindest ein System gemäß Anspruch 7.
9. Kommunikationsnetz nach Anspruch 8, wobei das Kommunikationsnetz ein Voice over IP-Kommunikationsnetz darstellt.
10. Voicebox-Server mit Mitteln zur Ausführung des Verfahrens gemäß Anspruch 1.
11. Client mit Mitteln zur Bestimmung eines Merkmalsmuster (FP) für eine Nachricht (M) gemäß Anspruch 1.
12. Server mit Mitteln zum inhaltlichen Vergleich von Sprachnachrichten (Ml, M2 ) gemäß Anspruch 6.
13. Verwendung des Verfahrens gemäß Anspruch 6 in einem Kommunikationsnetzwerk .
14. Verwendung des Verfahrens gemäß Anspruch 6 in einem VoIP-Kommunikationsnetzwerk .
PCT/EP2007/057266 2006-07-13 2007-07-13 Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten WO2008006905A2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP07787534A EP2044588A2 (de) 2006-07-13 2007-07-13 Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten
US12/373,633 US20100131270A1 (en) 2006-07-13 2007-07-13 Method and system for reducing reception of unwanted messages
CA002658152A CA2658152A1 (en) 2006-07-13 2007-07-13 Method and system for reducing reception of unwanted messages

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006032543A DE102006032543A1 (de) 2006-07-13 2006-07-13 Verfahren und System zur Reduzierung des Empfangs unerwünschter Nachrichten
DE102006032543.5 2006-07-13

Publications (2)

Publication Number Publication Date
WO2008006905A2 true WO2008006905A2 (de) 2008-01-17
WO2008006905A3 WO2008006905A3 (de) 2008-04-17

Family

ID=38825258

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2007/057266 WO2008006905A2 (de) 2006-07-13 2007-07-13 Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten

Country Status (6)

Country Link
US (1) US20100131270A1 (de)
EP (1) EP2044588A2 (de)
CN (1) CN101490742A (de)
CA (1) CA2658152A1 (de)
DE (1) DE102006032543A1 (de)
WO (1) WO2008006905A2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8141152B1 (en) * 2007-12-18 2012-03-20 Avaya Inc. Method to detect spam over internet telephony (SPIT)
JP2015521421A (ja) * 2012-06-08 2015-07-27 インテル コーポレイション 長く遅延したエコーのためのエコーキャンセレーションアルゴリズム
US9564147B2 (en) * 2013-04-30 2017-02-07 Rakuten, Inc. Audio communication system, audio communication method, audio communication purpose program, audio transmission terminal, and audio transmission terminal purpose program
US9531778B2 (en) * 2014-07-24 2016-12-27 Combined Conditional Access Development And Support, Llc Message rate mixing for bandwidth management

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096899A1 (en) * 2003-11-04 2005-05-05 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
US5436653A (en) * 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5526419A (en) * 1993-12-29 1996-06-11 At&T Corp. Background noise compensation in a telephone set
EP0887958B1 (de) * 1997-06-23 2003-01-22 Liechti Ag Verfahren für die Kompression der Aufnahmen von Umgebungsgeräuschen, Verfahren für die Erfassung von Programmelementen darin, Vorrichtung und Computer-Programm dafür
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US8121839B2 (en) * 2005-12-19 2012-02-21 Rockstar Bidco, LP Method and apparatus for detecting unsolicited multimedia communications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096899A1 (en) * 2003-11-04 2005-05-05 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MACINTOSH R ET AL: "Detection and mitigation of spam in IP telephony networks using signaling protocol analysis" ADVANCES IN WIRED AND WIRELESS COMMUNICATION, 2005 IEEE/SARNOFF SYMPOSIUM ON PRINCETON, NEW JERSEY, USA APRIL 18-19, 2005, PISCATAWAY, NJ, USA,IEEE, 18. April 2005 (2005-04-18), Seiten 49-52, XP010793744 ISBN: 0-7803-8854-2 *
WADA N ET AL: "Robust speech recognition with feature extraction using combined method of RSF and DRA" COMMUNICATIONS AND INFORMATION TECHNOLOGY, 2004. ISCIT 2004. IEEE INTERNATIONAL SYMPOSIUM ON SAPPORO, JAPAN OCT. 26-29, 2004, PISCATAWAY, NJ, USA,IEEE, 26. Oktober 2004 (2004-10-26), Seiten 1001-1004, XP010783524 ISBN: 0-7803-8593-4 *

Also Published As

Publication number Publication date
WO2008006905A3 (de) 2008-04-17
EP2044588A2 (de) 2009-04-08
DE102006032543A1 (de) 2008-01-17
US20100131270A1 (en) 2010-05-27
CA2658152A1 (en) 2008-01-17
CN101490742A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE10308467A1 (de) Verfahren zur Signalton-/Alarmsignaldetektion und Telefonalarmsignaldetektor
DE19939102C1 (de) Verfahren und Anordnung zum Erkennen von Sprache
DE102005029287A1 (de) Verfahren zum Unterbinden einer Vermittlung von unerwünschten Telefonanrufen
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE10358333A1 (de) Verfahren, Netzelement und Netzanordnung zur Telekommunikationsüberwachung
DE102016225204B4 (de) Verfahren zum Betrieb eines Hörgerätes
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE102011085361A1 (de) Mikrofoneinrichtung
EP2044588A2 (de) Verfahren und system zur reduzierung des empfangs unerwünschter nachrichten
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE60124192T2 (de) HMM-basierte Erkennung von verrauschter Sprache
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
EP1249016A1 (de) Verfahren zur sprachgesteuerten identifizierung des nutzers eines telekommunikationsanschlusses im telekommunikationsnetz beim dialog mit einem sprachgesteuerten dialogsystem
EP3693960A1 (de) Verfahren für eine individualisierte signalverarbeitung eines audiosignals eines hörgeräts
DE102019118175A1 (de) Schutzvorrichtung, Telekommunikationseinrichtung mit entsprechender Schutzvorrichtung, Betreiben einer entsprechenden Schutzvorrichtung und Verfahren zum Erkennen einer Absicht durch eine entsprechende Schutzvorrichtung
EP0902416B1 (de) Verfahren und Einrichtung zum Erkennen einer Spracheingabe während einer Ansage
EP1266513A1 (de) Verifikation eines anrufers durch ein biometrisches verfahren
DE102019108178B3 (de) Verfahren und Vorrichtung zur automatischen Überwachung von Telefonaten
WO2007039350A1 (de) Verfahren und vorrichtungen zur vermeidung des empfangs unerwünschter nachrichten in einem ip-kommunikationsnetzwerk
EP3893476B1 (de) Verfahren zur verbesserten identifizierung und/oder authentifizierung eines nutzers im rahmen einer telefonverbindung oder eines sprachanrufs des nutzers mit einem sprachtelefoniesystem, system, telekommunikationsnetz, computerprogramm und computerlesbares medium
DE102006043240A1 (de) Verfahren und Vorrichtung zur Teilnehmeridentifizierung
EP0238075B1 (de) Verfahren zur Unterscheidung von Sprachsignalen von Signalen geräuschfreier oder geräuschbehafteter Sprachpausen
DE10204436A1 (de) Kontinuierliche Benutzerauthentisierung mittels Spracheingabe
DE102008040002A1 (de) Verfahren zur szenariounabhängigen Sprechererkennung

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780026502.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07787534

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 2007787534

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2658152

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWE Wipo information: entry into national phase

Ref document number: 12373633

Country of ref document: US