WO2014076129A1 - Method for operating a telephone conference system, and telephone conference system - Google Patents

Method for operating a telephone conference system, and telephone conference system Download PDF

Info

Publication number
WO2014076129A1
WO2014076129A1 PCT/EP2013/073720 EP2013073720W WO2014076129A1 WO 2014076129 A1 WO2014076129 A1 WO 2014076129A1 EP 2013073720 W EP2013073720 W EP 2013073720W WO 2014076129 A1 WO2014076129 A1 WO 2014076129A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
audio signals
audio signal
activity
linguistic
Prior art date
Application number
PCT/EP2013/073720
Other languages
German (de)
French (fr)
Other versions
WO2014076129A8 (en
Inventor
Christian Hoene
Michael Haun
Patrick SCHREINER
Original Assignee
Symonics GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Symonics GmbH filed Critical Symonics GmbH
Publication of WO2014076129A1 publication Critical patent/WO2014076129A1/en
Publication of WO2014076129A8 publication Critical patent/WO2014076129A8/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5072Multiple active speakers

Definitions

  • the invention relates to a method for operating a telephone conference system and a telephone conference system.
  • a telephone conference system In the course of a telephone conference, speech-based audio signals of the respective call participants of the telephone conference are mixed, so that a respective call participant can hear the other call participants.
  • a system that interconnects several call participants in this way is called a telephone conference system.
  • a moderator In a traditional telephone conference based on single-channel audio signal transmission, a moderator typically decides who is allowed to speak. As a rule, all participants in the conversation try to avoid interrupting others.
  • a technologically sophisticated alternative to deal with multiple simultaneous conversation participants or speakers is the use of surround sound, surround or stereo transmission technologies. For a listener can separate voices that come from different directions and focus on one. This is also called cocktail party effect.
  • the invention has for its object to provide a method for operating a telephone conference system and a telephone conference system available, which allow the use of single-channel (mono) transmission channels while separability of the individual call shares without, for example, a moderator decides who may speak. The invention solves this problem by a method according to claim 1 and a telephone conference system according to claim 3.
  • the method is used to operate a telephone conference system for at least two (call) participants.
  • the method comprises the following steps:
  • a linguistic activity of a respective conversation participant determined, i. For example, it is determined whether a respective conversation participant speaks or is silent. In the event that a linguistic activity is detected in more than one interviewee, i. if several call participants are speaking at the same time, only a single linguistic activity (i.e., the conversation contribution of a single conversation participant) is played back at a time, and the remaining linguistic activities or conversational messages are played back one after the other with a time delay.
  • the linguistic activities can be sequentially reproduced in the order of their temporal origin.
  • the determination of the linguistic activity may include a so-called Voice Activity Detection (VAD).
  • VAD Voice Activity Detection
  • the presence or absence of human speech or conversation contribution is determined, i. It is determined whether a conversation participant is silent or speaks. Consequently, silence and speech activity can be detected or recognized by means of VAD. Switching between conversation participants or conversation contributions can be carried out, for example, at the beginning of a speech break. Incidentally, reference is also made to the relevant specialist literature.
  • Linguistic activity determination can be further performed based on whether important or unimportant speech segments are involved. In the case of an audio signal or speech segment classified as important, a linguistic activity is determined or recognized. In the case of a classified as not important audio signal or speech segment, no linguistic activity is detected or detected.
  • Audio signals from different participants in the conversation in which several speech segments are present, which are classified as unimportant and thus not as linguistic activity, can be mixed with one another and simultaneously played back.
  • Unimportant parts would be, for example, speech segments in which speech characteristics do not change, for example during an "aaah".
  • a so-called codec which compresses an audio signal in the form of an audio stream at a variable bit rate, then a linguistic activity can be excluded with high probability if the codec generates a compressed data stream with a low bit rate.
  • the telephone conference system is intended for at least two call participants and is preferably designed to carry out the above-mentioned method.
  • the telephone conference system comprises at least two audio signal sources, wherein a respective audio signal source is assigned to a conversation participant and designed to generate an audio signal in dependence on a speech activity of the conversation participant.
  • the audio signal may be an analog audio signal. Typically, however, it is a digital audio signal.
  • At least one buffer or intermediate memory is provided, wherein the intermediate memory is designed to temporarily store at least a part of a respective audio signal.
  • the buffer can be designed as a first-in-first-out memory.
  • the intermediate memory can also be designed as a ring memory.
  • the latch may store the (digital) audio signal in response to a control signal generated by a controller upon storage need.
  • the buffer may be an electrical memory such as RAM, magnetic memory, etc. It can be provided exactly one buffer or it can be provided per audio signal, a buffer.
  • at least one voice activity recognition device is provided, which is designed to determine a linguistic activity in a respective audio signal.
  • the voice activity recognition device can be designed as a microprocessor on which a suitable voice activity recognition software runs. Precisely one voice activity recognition device can be provided, or one voice activity recognition device can be provided per audio signal.
  • a (digital) audio signal mixing device configured to mix input (digital) audio signals with each other and to output the mixed input audio signals as the output audio signal.
  • the output audio signal can be output simultaneously to a plurality of outputs of the audio signal mixing device.
  • At least two loudspeakers are provided, wherein a loudspeaker is assigned to a conversation participant, receives the output audio signal of the audio signal mixing device and outputs it as a corresponding sound signal.
  • a control device of the telephone conference system is adapted, in the event that in more than one of the audio signals, a linguistic activity is detected, only a single one of those audio signals in which a linguistic activity is detected, output to the audio signal mixing device as an audio input signal and not audio signals output to the audio signal mixing device as audio input signals in which a linguistic activity is detected, to be buffered in the buffer, ie For example, to control the latch for caching the audio signals, and time-delayed output as an audio input signal to the audio signal mixing device, so that they are reproduced with a time delay.
  • the audio signals can be cached before their reproduction exclusively during their determined linguistic activity.
  • At least one speaker collision detection device can be provided.
  • the speaker collision detection device is designed to detect or recognize simultaneous linguistic activities in a plurality of associated audio signals.
  • the speaker collision detection device can be part of the voice activity recognition device or can be formed separately from the voice activity recognition device. If the voice activity recognition device and the speaker collision recognition device are implemented separately from one another, the speaker collision recognition device can be arranged, for example, between the voice activity recognition device and the control device, wherein the voice collision engine Identification device, for example, recognizes multiple simultaneous speakers and passes this information to the controller.
  • the control device may be designed to check, in the event that no linguistic activity is detected in any of the audio signals, whether cached audio signals are present, and if cached audio signals are present, the cached audio signals one by one or mixed so long to the audio signal Mixer output as audio input signals until no cached audio signals are available.
  • the control device can be configured to output all audio signals as audio input signals to the audio signal mixing device in the event that no linguistic activity is detected in any of the audio signals and no cached audio signals are present.
  • the control device may be configured to output only the audio signal in which a linguistic activity is detected as audio input signal to the audio signal mixing device in the event that a linguistic activity is detected in only one of the audio signals and no cached audio signals are present ,
  • the audio signals can be mono audio signals.
  • the audio signal sources may be microphones of headsets and / or telephone handsets, and the loudspeakers may be the speakers of the headsets or handset, i. be integrated into the headsets and / or the telephone handset.
  • the voice activity recognition device or the speaker collision detection device can be designed to transform the audio signals into the frequency domain.
  • the voice activity recognition device or the speaker collision detection device can also be designed to examine whether the transformed audio signals are superposed in one or more frequency bands, ie to investigate whether linguistic activities can be recognized in a plurality of frequency bands.
  • the voice activity recognition device or the speaker collision detection device can be designed to indicate the thus determined speaker collision to transmit the control device.
  • Fig. 1 is a telephone conference system for several participants in the conversation.
  • Fig. 1 shows a telephone conference system for several participants.
  • the telephone conference system has, by way of example, two audio signal sources in the form of microphones 1_1 and 1_2 of two telephone handsets or headsets and two loudspeakers 5_1 and 5_2, which are part of the telephone handset or headsets.
  • the microphones 1_1 and 1_2 are assigned to a conversation participant and designed to generate a mono audio signal AS_1 or AS_2 depending on a linguistic activity of the respective conversation participant.
  • the audio signals AS_1 and AS_2 are digital audio signals, wherein the digitization of the linguistic activity in the microphones or in a downstream, not shown A D converter can be done.
  • the telephone conference system further has two latches 2_1 and 2_2, wherein a respective latch 2_1 and 2_2 is configured to latch an associated audio signal AS_1 or AS_2 in response to a memory control signal generated by a control device 6a and 6b when memory is required.
  • the telephone conference system further has a voice activity recognition device 3, which is designed to detect or recognize a linguistic activity in a respective audio signal AS_1 and AS_2 and to transmit the result of the determination to the control device 6a and 6b.
  • a voice activity recognition device 3 which is designed to detect or recognize a linguistic activity in a respective audio signal AS_1 and AS_2 and to transmit the result of the determination to the control device 6a and 6b.
  • a (digital) audio signal mixing device 4 which is designed to mix input audio signals with one another and to output the mixed input audio signals as output audio signal OS to two output terminals by way of example.
  • the control device has components 6a and 6b.
  • the control device component 6a is in data connection with the voice activity recognition device 3 and receives information regarding the linguistic activity of the audio signals AS_1 and AS_2 from the voice activity recognition device 3.
  • the control device Component 6a is further connected to the buffers 2_1 and 2_2 and controls these if necessary for buffering the associated audio signals AS_1 or AS_2.
  • the control device component 6b is connected on the input side to the microphones 1_1 and 1_2 and the latches 2_1 and 2_2 and on the output side to the audio signal mixing device 4.
  • the control device component 6b has internal switching logic, not shown, whose switching positions are determined by the control device component 6a. By means of the switching logic is determined which input or which inputs are looped through to the audio signal mixing device 4.
  • the control device or its components 6a and 6b is / are designed for the case in which a linguistic activity is detected in both audio signals AS_1 and AS_2, i. Both participants in the conversation speak to output only one of the two audio signals AS_1 or AS_2 via the control device component 6b to the audio signal mixing device 4 as the audio input signal and to buffer the other audio signal AS_1 or AS_2 in the associated buffer 2_1 or 2_2 and then as an audio input signal to the audio signal mixing device 4 with a time delay issue.
  • the audio signal AS_1 or AS_2 that is not output can be delayed in time until no linguistic activity is detected in the other audio signal AS_1 or AS_2.
  • the decision as to which of the two audio signals AS_1 and AS_2 is first output to the audio signal mixing device 4 may be based on the fact in which the audio signal AS_1 or AS_2 has first been recognized as having a linguistic activity.
  • the control device 6a and 6b is further adapted, in the event that in any of the audio signals AS_1 and AS_2 a linguistic activity is detected to check whether cached audio signals are present, and if cached audio signals are present, the cached audio signals one by one long to the audio signal mixing device 4 output as audio input signals until no cached audio signals are available.
  • an audio signal mixing device 4 which mixes two or more audio signals AS_1 and AS_2 in order to generate one or more identical output audio signals OS therefrom.
  • a conventional voice activity detector as used in the telephone system, can be used to distinguish phases of silence from phases of active speech.
  • the audio signals AS_1 and AS_2 can be delayed (reproduced). This means that they are not forwarded directly to the loudspeakers 5_1 and 5_2 or the audio signal mixing device 4, but can be buffered for any period of time in order to be forwarded later to the audio signal mixing device 4.
  • the latches 2_1 and 2_2 may be implemented as FIFO memories. For algorithmic efficiency reasons, it may be useful to store not only the audio signals AS_1 and AS_2 in the latches 2_1 and 2_2, but also the associated linguistic activity information.
  • the control device 6a and 6b monitors whether the voice activity recognition device 3 detects active or relevant signals and whether acoustic signals are stored in the latches 2_1 and 2_2.
  • all the audio signals AS_1 and AS_2 in the audio signal mixing device 4 can be mixed. This is the case, for example, when all conference or conversation participants are silent.
  • the audio signal mixing device 4 If only one relevant audio signal AS_1 or AS_2 is present, it is forwarded to the audio signal mixing device 4. This is the case, for example, when a conversation participant begins to talk. If further audio signals now become relevant or active, they are not forwarded without delay to the audio signal mixing device 4, but are stored in the latches 2_1 and 2_2. It avoids thus that a second participant in the conversation breaks the first participant in the conversation. As soon as the previously reproduced audio signal no longer contains any relevant information, ie is no longer active in speech, one of the stored audio signals is retrieved from the associated buffer memory 2_1 or 2_2 and routed to the audio signal mixing device 4 and thus to the loudspeakers 5_1 and 5_2. The second caller is now played delayed after the first is silent. This process continues until no latches 2_1 and 2_2 have stored more audio signals.
  • the two audio signal sources 1_1 and 1_2, the two latches 2_1 and 2_2 and the two loudspeakers 5_1 and 5_2 represent only an exemplary number. Of course, any number of these components can be used.
  • the voice activity recognition device 3 can be designed to transform the audio signals AS_1 and AS_2 into the frequency domain, to examine whether the transformed audio signals are superposed in one or more frequency bands and, in the event that the transformed audio signals in one or more frequency bands overlap, determine that there is linguistic activity in more than a single one of the audio signals AS_1 and AS_2.
  • the voice activity recognizer 3 may transmit the result of the determination to the controller 6a.

Abstract

A method for operating a telephone conference system for at least two participants comprises the following steps: detection of verbal activity of a respective participant, and, in the event that verbal activity is detected for more than one participant, reproduction of only one verbal activity and time-delayed reproduction of the other verbal activities.

Description

TELEFONKONFERENZ MIT VERMEIDUNG VON SPRACHKOLLISIONEN  TELEPHONE CONFERENCE WITH AVOIDANCE OF LANGUAGE COLLISIONS
Die Erfindung betrifft ein Verfahren zum Betreiben eines Telefon konferenzsystems und ein Telefonkonferenzsystem. The invention relates to a method for operating a telephone conference system and a telephone conference system.
In Zuge einer Telefon konferenz werden auf Sprache basierende Audiosignale der jeweiligen Gesprächsteilnehmer der Telefonkonferenz gemischt, so dass ein jeweiliger Gesprächsteilnehmer die anderen Gesprächsteilnehmer hören kann. Ein System, das mehrere Gesprächsteilnehmer derart zusammenschaltet, wird als Telefon konferenzsystem bezeichnet. In the course of a telephone conference, speech-based audio signals of the respective call participants of the telephone conference are mixed, so that a respective call participant can hear the other call participants. A system that interconnects several call participants in this way is called a telephone conference system.
Bei Telefon konferenzsystemen, die zur Übertragung von auf Sprache basierenden Audiosignalen einkanalige (mono) Übertragungskanäle verwenden, sollte vermieden werden, dass mehre- re Gesprächsteilnehmer gleichzeitig sprechen, da basierend auf dem überlagerten Audiosignal ein Separieren der Gesprächsteilnehmer nur schwer möglich ist. For telephone conference systems which use single-channel (mono) transmission channels for the transmission of speech-based audio signals, it should be avoided that several call participants speak at the same time, because it is difficult to separate the call participants based on the superimposed audio signal.
In einer klassischen Telefon konferenz basierend auf einkanaliger Audiosignalübertragung entscheidet daher typischer Weise ein Moderator darüber, wer gerade sprechen darf. In der Regel versuchen alle Gesprächsteilnehmer es zu vermeiden, anderen ins Wort zu fallen. Eine technologisch anspruchsvolle Alternative um mit mehreren gleichzeitigen Gesprächsteilnehmern bzw. Sprechern umzugehen ist die Verwendung von Raumklang-, Surround- oder Stereoübertragungstechnologien. Ein Hörer kann nämlich Stimmen, die aus unterschiedlichen Richtungen kommen, separieren und sich auf eine fokussieren. Dies wird auch Cocktail-Party- Effekt genannt. Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Betreiben eines Telefonkonferenzsystems und ein Telefonkonferenzsystem zur Verfügung zu stellen, die die Verwendung einkanaliger (mono) Übertragungskanäle bei gleichzeitiger Separierbarkeit der einzelnen Gesprächsanteile ermöglichen, ohne dass beispielweise ein Moderator entscheidet, wer gerade sprechen darf. Die Erfindung löst diese Aufgabe durch ein Verfahren nach Anspruch 1 und ein Telefonkonferenzsystem nach Anspruch 3. In a traditional telephone conference based on single-channel audio signal transmission, a moderator typically decides who is allowed to speak. As a rule, all participants in the conversation try to avoid interrupting others. A technologically sophisticated alternative to deal with multiple simultaneous conversation participants or speakers is the use of surround sound, surround or stereo transmission technologies. For a listener can separate voices that come from different directions and focus on one. This is also called cocktail party effect. The invention has for its object to provide a method for operating a telephone conference system and a telephone conference system available, which allow the use of single-channel (mono) transmission channels while separability of the individual call shares without, for example, a moderator decides who may speak. The invention solves this problem by a method according to claim 1 and a telephone conference system according to claim 3.
Das Verfahren dient zum Betreiben eines Telefonkonferenzsystems für mindestens zwei (Ge- sprächs-)Teilnehmer. Das Verfahren weist folgende Schritte auf: The method is used to operate a telephone conference system for at least two (call) participants. The method comprises the following steps:
Es wird, insbesondere fortlaufend, eine sprachliche Aktivität eines jeweiligen Gesprächsteilnehmers ermittelt, d.h. es wird beispielsweise ermittelt, ob ein jeweiliger Gesprächsteilnehmer spricht oder schweigt. Für den Fall, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität ermittelt wird, d.h. es sprechen mehrere Gesprächsteilnehmer gleichzeitig, wird nur eine einzelne sprachliche Aktivität (d.h. der Gesprächsbeitrag eines einzelnes Gesprächsteilnehmers) zu einem Zeitpunkt wiedergegeben und die verbleibenden sprachlichen Aktivitäten bzw. Gesprächsbeiträge werden zeitverzögert nacheinander wiedergegeben. Hierbei können die sprachlichen Aktivitäten in der Reihenfolge ihres zeitlichen Entstehens sequentiell wiedergegeben werden. It is, in particular continuously, a linguistic activity of a respective conversation participant determined, i. For example, it is determined whether a respective conversation participant speaks or is silent. In the event that a linguistic activity is detected in more than one interviewee, i. if several call participants are speaking at the same time, only a single linguistic activity (i.e., the conversation contribution of a single conversation participant) is played back at a time, and the remaining linguistic activities or conversational messages are played back one after the other with a time delay. Here, the linguistic activities can be sequentially reproduced in the order of their temporal origin.
Die Ermittlung der sprachlichen Aktivität kann eine so genannte Voice Activity Detection (VAD) umfassen. Grundsätzlich wird im Zuge der VAD die Anwesenheit oder Abwesenheit menschlicher Sprache bzw. eines Gesprächsbeitrags ermittelt, d.h. es wird ermittelt, ob ein Gesprächsteilnehmer schweigt oder spricht. Mittels VAD kann folglich Stille und Sprachaktivität ermittelt bzw. erkannt werden. Ein Umschalten zwischen Gesprächsteilnehmern oder Gesprächsbeiträgen kann beispielsweise am Beginn einer Sprachpause durchgeführt werden. Im Übrigen sei auch auf die einschlägige Fachliteratur verwiesen. The determination of the linguistic activity may include a so-called Voice Activity Detection (VAD). Basically, in the course of the VAD, the presence or absence of human speech or conversation contribution is determined, i. It is determined whether a conversation participant is silent or speaks. Consequently, silence and speech activity can be detected or recognized by means of VAD. Switching between conversation participants or conversation contributions can be carried out, for example, at the beginning of a speech break. Incidentally, reference is also made to the relevant specialist literature.
Die Ermittlung der sprachlichen Aktivität kann weiter basierend darauf durchgeführt werden, ob es sich um wichtige oder unwichtige Sprachsegmente handelt. Für den Fall eines als wichtig klassifizierten Audiosignals bzw. Sprachsegments, wird eine sprachliche Aktivität ermittelt oder erkannt. Für den Fall eines als nicht wichtig klassifizierten Audiosignals bzw. Sprachsegments, wird keine sprachliche Aktivität ermittelt oder erkannt. Linguistic activity determination can be further performed based on whether important or unimportant speech segments are involved. In the case of an audio signal or speech segment classified as important, a linguistic activity is determined or recognized. In the case of a classified as not important audio signal or speech segment, no linguistic activity is detected or detected.
Audiosignale verschiedener Gesprächsteilnehmer, in denen mehrere Sprachsegmente präsent sind, die als unwichtig und somit nicht als sprachliche Aktivität klassifiziert sind, können mitei- nander gemischt und gleichzeitig wiedergegeben werden. Unwichtige Teile wären zum Beispiel Sprachsegmente, in denen sich Sprachmerkmale nicht verändern, beispielsweise während eines„aaah". Audio signals from different participants in the conversation, in which several speech segments are present, which are classified as unimportant and thus not as linguistic activity, can be mixed with one another and simultaneously played back. Unimportant parts would be, for example, speech segments in which speech characteristics do not change, for example during an "aaah".
Lediglich bei wichtigen Sprachsegmenten, d.h. bei ermittelter sprachlicher Aktivität, ist ein Mischen und gleichzeitiges Wiedergeben nicht empfehlenswert, da die unterschiedlichen und mit- einander gemischten Gesprächsanteile von einem Hörer nur schwer wieder separierbar sind, so dass die wichtigen Gesprächsanteile nacheinander wiederzugeben sind, obwohl sie zumindest teilweise gleichzeitig entstehen. Wichtige Teile sind in der Regel die Anlaute (Onsets), sobald angefangen wird zu sprechen. Merely with important speech segments, ie with determined linguistic activity, mixing and simultaneous reproduction is not recommended, since the different and mixed conversation parts are difficult to separate again by a listener, so that the important parts of the conversation are to be reproduced one after the other, although at least partly arise at the same time. Important parts are usually the onsets as soon as you start talking.
Wenn ein so genannter Codec verwendet wird, der mit variabler Bitrate ein Audiosignal in Form eines Audio-Stroms komprimiert, kann eine sprachliche Aktivität dann mit hoher Wahrschein- lichkeit ausgeschlossen werden, wenn der Codec einen komprimierten Datenstrom mit geringer Bitrate erzeugt. If a so-called codec is used which compresses an audio signal in the form of an audio stream at a variable bit rate, then a linguistic activity can be excluded with high probability if the codec generates a compressed data stream with a low bit rate.
Darüber hinaus ist es möglich, die Audiosignale in die Frequenzdomäne zu transformieren und zu untersuchen, ob sich die Audiosignale in einem oder mehreren Frequenzbändern überlagern. Wenn eine Überlagerung vorliegt, wird auf eine gleichzeitige sprachliche Aktivität ge- schlössen und es erfolgt keine gleichzeitige Wiedergabe. Wenn keine Überlagerung vorliegt, kann gemischt und gleichzeitig wiedergegeben werden. So würden zum Beispiel eine hohe und eine tiefe Stimme gleichzeitig wiedergegeben werden, wohingegen zwei gleichhohe Stimmen nicht gemischt und gleichzeitig wiedergegeben werden. In addition, it is possible to transform the audio signals into the frequency domain and to examine whether the audio signals are superimposed in one or more frequency bands. If there is an overlay, a simultaneous linguistic activity is concluded and no simultaneous playback occurs. If there is no overlay, it can be mixed and played simultaneously. For example, one high and one low voice would be played simultaneously, whereas two equally high voices would not be mixed and played simultaneously.
Eine Kombination der oben genannten Verfahren ist möglich. Das Telefonkonferenzsystem ist für mindestens zwei Gesprächsteilnehmer vorgesehen und ist bevorzugt zur Durchführung des oben genannten Verfahrens ausgebildet. A combination of the above methods is possible. The telephone conference system is intended for at least two call participants and is preferably designed to carry out the above-mentioned method.
Das Telefonkonferenzsystem umfasst mindestens zwei Audiosignalquellen, wobei eine jeweilige Audiosignalquelle einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet ist, in Abhängigkeit von einer sprachlichen Aktivität des Gesprächsteilnehmers ein Audiosignal zu er- zeugen. Das Audiosignal kann ein analoges Audiosignal sein. Typisch handelt es sich jedoch um ein digitales Audiosignal. The telephone conference system comprises at least two audio signal sources, wherein a respective audio signal source is assigned to a conversation participant and designed to generate an audio signal in dependence on a speech activity of the conversation participant. The audio signal may be an analog audio signal. Typically, however, it is a digital audio signal.
Weiter ist mindestens ein Puffer bzw. Zwischenspeicher vorgesehen, wobei der Zwischenspeicher dazu ausgebildet ist, zumindest einen Teil eines jeweiligen Audiosignals zwischenzuspei- chern. Der Zwischenspeicher kann als First-In-First-Out-Speicher ausgebildet sein. Der Zwi- schenspeicher kann weiter als Ringspeicher ausgebildet sein. Weiter kann der Zwischenspeicher das (digitale) Audiosignal in Abhängigkeit von einem Steuersignal speichern, das von einer Steuereinrichtung bei Speicherungsbedarf erzeugt wird. Der Zwischenspeicher kann ein elektrischer Speicher, beispielsweise RAM, magnetischer Speicher, usw. sein. Es kann genau ein Zwischenspeicher vorgesehen sein oder es kann pro Audiosignal ein Zwischenspeicher vorge- sehen sein. Weiter ist mindestens eine Sprachaktivitätserkennungseinrichtung vorgesehen, die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal zu ermitteln. Die Sprach- aktivitätserkennungseinrichtung kann als Mikroprozessor ausgebildet sein, auf dem eine geeignete Sprachaktivitätserkennungssoftware abläuft. Es kann genau eine Sprachaktivitätserken- nungseinrichtung vorgesehen sein oder es kann pro Audiosignal eine Sprachaktivitätserken- nungseinrichtung vorgesehen sein. Furthermore, at least one buffer or intermediate memory is provided, wherein the intermediate memory is designed to temporarily store at least a part of a respective audio signal. The buffer can be designed as a first-in-first-out memory. The intermediate memory can also be designed as a ring memory. Further, the latch may store the (digital) audio signal in response to a control signal generated by a controller upon storage need. The buffer may be an electrical memory such as RAM, magnetic memory, etc. It can be provided exactly one buffer or it can be provided per audio signal, a buffer. Furthermore, at least one voice activity recognition device is provided, which is designed to determine a linguistic activity in a respective audio signal. The voice activity recognition device can be designed as a microprocessor on which a suitable voice activity recognition software runs. Precisely one voice activity recognition device can be provided, or one voice activity recognition device can be provided per audio signal.
Weiter ist eine (digitale) Audiosignalmischeinnchtung vorgesehen, die dazu ausgebildet ist, (digitale) Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal auszugeben. Das Ausgangsaudiosignal kann gleichzeitig an mehreren Ausgängen der Audiosignalmischeinnchtung ausgegeben werden. Further, there is provided a (digital) audio signal mixing device configured to mix input (digital) audio signals with each other and to output the mixed input audio signals as the output audio signal. The output audio signal can be output simultaneously to a plurality of outputs of the audio signal mixing device.
Weiter sind mindestens zwei Lautsprecher vorgesehen, wobei ein Lautsprecher einem Gesprächsteilnehmer zugeordnet ist, das Ausgangsaudiosignal der Audiosignalmischeinnchtung empfängt und als korrespondierendes Schallsignal ausgibt. Furthermore, at least two loudspeakers are provided, wherein a loudspeaker is assigned to a conversation participant, receives the output audio signal of the audio signal mixing device and outputs it as a corresponding sound signal.
Eine Steuereinrichtung des Telefon konferenzsystems ist dazu ausgebildet, für den Fall, dass in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird, nur ein einzelnes derjenigen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, an die Audiosignalmischeinnchtung als Audioeingangssignal auszugeben und die nicht an die Audiosignalmischeinnchtung als Audioeingangssignal ausgegebenen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, in dem Zwischenspeicher zwischenzuspeichern, d.h. beispielsweise den Zwischenspeicher zum Zwischenspeichern der Audiosignale anzusteuern, und zeitverzögert als Audioeingangssignal an den Audiosignalmischeinnchtung auszugeben, damit diese zeitverzögert wiedergegeben werden. Die Audiosignale können vor ihrer Wiedergabe ausschließlich während ihrer ermittelten sprachlichen Aktivität zwischengespeichert werden. A control device of the telephone conference system is adapted, in the event that in more than one of the audio signals, a linguistic activity is detected, only a single one of those audio signals in which a linguistic activity is detected, output to the audio signal mixing device as an audio input signal and not audio signals output to the audio signal mixing device as audio input signals in which a linguistic activity is detected, to be buffered in the buffer, ie For example, to control the latch for caching the audio signals, and time-delayed output as an audio input signal to the audio signal mixing device, so that they are reproduced with a time delay. The audio signals can be cached before their reproduction exclusively during their determined linguistic activity.
Zur Erkennung, ob in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität vorliegt, d.h. zur Erkennung einer Sprecherkollision, kann mindestens eine Sprecherkollisionser- kennungseinrichtung vorgesehen sein. Die Sprecherkollisionserkennungseinrichtung ist dazu ausgebildet, gleichzeitige sprachliche Aktivitäten in mehreren zugehörigen Audiosignalen zu ermitteln bzw. zu erkennen. Die Sprecherkollisionserkennungseinrichtung kann Bestandteil der Sprachaktivitätserkennungseinrichtung sein oder von der Sprachaktivitätserkennungseinrich- tung getrennt ausgebildet sein. Wenn die Sprachaktivitätserkennungseinrichtung und die Sprecherkollisionserkennungseinrichtung getrennt voneinander ausgeführt sind, kann die Sprecherkollisionserkennungseinrichtung beispielsweise zwischen der Sprachaktivitätserken- nungseinrichtung und der Steuereinrichtung angeordnet sein, wobei die Sprecherkollisionser- kennungseinrichtung beispielsweise mehrere gleichzeitige Sprecher erkennt und diese Information an die Steuereinrichtung weitergibt. In order to detect whether there is a linguistic activity in more than one of the audio signals, ie to detect a speaker collision, at least one speaker collision detection device can be provided. The speaker collision detection device is designed to detect or recognize simultaneous linguistic activities in a plurality of associated audio signals. The speaker collision detection device can be part of the voice activity recognition device or can be formed separately from the voice activity recognition device. If the voice activity recognition device and the speaker collision recognition device are implemented separately from one another, the speaker collision recognition device can be arranged, for example, between the voice activity recognition device and the control device, wherein the voice collision engine Identification device, for example, recognizes multiple simultaneous speakers and passes this information to the controller.
Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander oder gemischt so lange an den Audiosignal- mischeinrichtung als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind. The control device may be designed to check, in the event that no linguistic activity is detected in any of the audio signals, whether cached audio signals are present, and if cached audio signals are present, the cached audio signals one by one or mixed so long to the audio signal Mixer output as audio input signals until no cached audio signals are available.
Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass in keinem der Audiosigna- le eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, sämtliche Audiosignale als Audioeingangssignale an die Audiosignalmischeinrich- tung auszugeben. The control device can be configured to output all audio signals as audio input signals to the audio signal mixing device in the event that no linguistic activity is detected in any of the audio signals and no cached audio signals are present.
Die Steuereinrichtung kann dazu ausgebildet sein, für den Fall, dass nur in einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audio- Signale vorhanden sind, nur das Audiosignal, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinrichtung auszugeben. The control device may be configured to output only the audio signal in which a linguistic activity is detected as audio input signal to the audio signal mixing device in the event that a linguistic activity is detected in only one of the audio signals and no cached audio signals are present ,
Die Audiosignale können Mono-Audiosignale sein. The audio signals can be mono audio signals.
Die Audiosignalquellen können Mikrofone von Headsets und/oder Telefonhörern sein und die Lautsprecher können die Lautsprecher der Headsets bzw. Telefonhörer sein, d.h. in die Headsets und/oder die Telefonhörer integriert sein. The audio signal sources may be microphones of headsets and / or telephone handsets, and the loudspeakers may be the speakers of the headsets or handset, i. be integrated into the headsets and / or the telephone handset.
Die Sprachaktivitätserkennungseinrichtung bzw. die Sprecherkollisionserkennungseinrichtung kann dazu ausgebildet sein, die Audiosignale in die Frequenzdomäne zu transformieren. Die Sprachaktivitätserkennungseinrichtung bzw. die Sprecherkollisionserkennungseinrichtung kann weiter dazu ausgebildet sein, zu untersuchen, ob sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, d.h. zu untersuchen, ob sich sprachliche Aktivitäten in mehreren Frequenzbänder erkennen lassen. Für den Fall, dass sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, d.h. sich in einem oder mehreren Frequenzbändern bei mehreren Audiosignalen eine sprachliche Aktivität feststellen lässt, kann die Sprachaktivitätserkennungseinrichtung bzw. die Sprecherkollisionserkennungs- einrichtung dazu ausgebildet sein, die derart ermittelte Sprecherkollision an die Steuereinrichtung zu übertragen. Die Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnung beschrieben. Hierbei zeigt schematisch: The voice activity recognition device or the speaker collision detection device can be designed to transform the audio signals into the frequency domain. The voice activity recognition device or the speaker collision detection device can also be designed to examine whether the transformed audio signals are superposed in one or more frequency bands, ie to investigate whether linguistic activities can be recognized in a plurality of frequency bands. In the event that the transformed audio signals are superimposed in one or more frequency bands, ie if a linguistic activity can be detected in one or more frequency bands for a plurality of audio signals, the voice activity recognition device or the speaker collision detection device can be designed to indicate the thus determined speaker collision to transmit the control device. The invention will be described below with reference to the drawing. This shows schematically:
Fig. 1 ein Telefonkonferenzsystem für mehrere Gesprächsteilnehmer. Fig. 1 is a telephone conference system for several participants in the conversation.
Fig. 1 zeigt ein Telefon konferenzsystem für mehrere Gesprächsteilnehmer. Das Telefonkonferenzsystem weist exemplarisch zwei Audiosignalquellen in Form von Mikrofonen 1_1 und 1_2 von zwei Telefonhörern oder Headsets und zwei Lautsprecher 5_1 und 5_2 auf, die Teil der Telefonhörer bzw. Headsets sind. Fig. 1 shows a telephone conference system for several participants. The telephone conference system has, by way of example, two audio signal sources in the form of microphones 1_1 and 1_2 of two telephone handsets or headsets and two loudspeakers 5_1 and 5_2, which are part of the telephone handset or headsets.
Die Mikrofone 1_1 und 1_2 sind einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet, in Abhängigkeit von einer sprachlichen Aktivität des jeweiligen Gesprächsteilnehmers ein Mono- Audiosignal AS_1 bzw. AS_2 zu erzeugen. Die Audiosignale AS_1 und AS_2 sind digitale Audiosignale, wobei die Digitalisierung der sprachlichen Aktivität in den Mikrofonen oder in einem nachgeschalteten, nicht näher dargestellten A D-Wandler erfolgen kann. The microphones 1_1 and 1_2 are assigned to a conversation participant and designed to generate a mono audio signal AS_1 or AS_2 depending on a linguistic activity of the respective conversation participant. The audio signals AS_1 and AS_2 are digital audio signals, wherein the digitization of the linguistic activity in the microphones or in a downstream, not shown A D converter can be done.
Das Telefonkonferenzsystem weist weiter zwei Zwischenspeicher 2_1 und 2_2 auf, wobei ein jeweiliger Zwischenspeicher 2_1 und 2_2 dazu ausgebildet ist, ein zugehöriges Audiosignal AS_1 bzw. AS_2 in Abhängigkeit von einem von einer Steuereinrichtung 6a und 6b bei Speicherbedarf erzeugten Speichersteuersignal zwischenzuspeichern. The telephone conference system further has two latches 2_1 and 2_2, wherein a respective latch 2_1 and 2_2 is configured to latch an associated audio signal AS_1 or AS_2 in response to a memory control signal generated by a control device 6a and 6b when memory is required.
Das Telefonkonferenzsystem weist weiter eine Sprachaktivitätserkennungseinrichtung 3 auf, die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal AS_1 und AS_2 zu ermitteln bzw. zu erkennen und das Ergebnis der Ermittlung an die Steuereinrichtung 6a und 6b zu übermitteln. The telephone conference system further has a voice activity recognition device 3, which is designed to detect or recognize a linguistic activity in a respective audio signal AS_1 and AS_2 and to transmit the result of the determination to the control device 6a and 6b.
Weiter ist eine (digitale) Audiosignalmischeinrichtung 4 vorgesehen, die dazu ausgebildet ist, Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal OS an exemplarisch zwei Ausgangsanschlüssen auszugeben. Furthermore, a (digital) audio signal mixing device 4 is provided, which is designed to mix input audio signals with one another and to output the mixed input audio signals as output audio signal OS to two output terminals by way of example.
Die Steuereinrichtung weist Komponenten 6a und 6b auf. Die Steuereinrichtungskomponente 6a ist mit der Sprachaktivitätserkennungseinrichtung 3 in Datenverbindung und erhält von der Sprachaktivitätserkennungseinrichtung 3 Informationen betreffend die sprachliche Aktivität der Audiosignale AS_1 und AS_2. Die Steuereinrichtungs- komponente 6a ist weiter mit den Zwischenspeichern 2_1 und 2_2 verbunden und steuert diese bei Bedarf zum Zwischenspeichern der zugehörigen Audiosignale AS_1 bzw. AS_2 an. The control device has components 6a and 6b. The control device component 6a is in data connection with the voice activity recognition device 3 and receives information regarding the linguistic activity of the audio signals AS_1 and AS_2 from the voice activity recognition device 3. The control device Component 6a is further connected to the buffers 2_1 and 2_2 and controls these if necessary for buffering the associated audio signals AS_1 or AS_2.
Die Steuereinrichtungskomponente 6b ist eingangsseitig mit den Mikrofonen 1_1 und 1_2 und den Zwischenspeichern 2_1 und 2_2 und ausgangsseitig mit der Audiosignalmischeinrichtung 4 verbunden. Die Steuereinrichtungskomponente 6b weist interne, nicht näher dargestellte Schaltlogik auf, deren Schaltstellungen von der Steuereinrichtungskomponente 6a bestimmt werden. Mittels der Schaltlogik wird bestimmt, welcher Eingang bzw. welche Eingänge auf die Audiosignalmischeinrichtung 4 durchgeschleift werden. The control device component 6b is connected on the input side to the microphones 1_1 and 1_2 and the latches 2_1 and 2_2 and on the output side to the audio signal mixing device 4. The control device component 6b has internal switching logic, not shown, whose switching positions are determined by the control device component 6a. By means of the switching logic is determined which input or which inputs are looped through to the audio signal mixing device 4.
Die Steuereinrichtung bzw. deren Komponenten 6a und 6b ist/sind dazu ausgebildet, für den Fall, dass in beiden Audiosignalen AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, d.h. beide Gesprächsteilnehmer sprechen, nur eines der beiden Audiosignale AS_1 oder AS_2 über die Steuereinrichtungskomponente 6b an die Audiosignalmischeinrichtung 4 als Audioeingangssignal auszugeben und das andere Audiosignal AS_1 oder AS_2 in dem zugehörigen Zwischenspeicher 2_1 bzw. 2_2 zwischenzuspeichern und dann zeitverzögert als Audioein- gangssignal an den Audiosignalmischeinrichtung 4 auszugeben. The control device or its components 6a and 6b is / are designed for the case in which a linguistic activity is detected in both audio signals AS_1 and AS_2, i. Both participants in the conversation speak to output only one of the two audio signals AS_1 or AS_2 via the control device component 6b to the audio signal mixing device 4 as the audio input signal and to buffer the other audio signal AS_1 or AS_2 in the associated buffer 2_1 or 2_2 and then as an audio input signal to the audio signal mixing device 4 with a time delay issue.
Das nicht ausgegebene Audiosignal AS_1 oder AS_2 kann so lange zeitverzögert werden, bis in dem anderen Audiosignal AS_1 oder AS_2 keine sprachliche Aktivität mehr ermittelt wird. The audio signal AS_1 or AS_2 that is not output can be delayed in time until no linguistic activity is detected in the other audio signal AS_1 or AS_2.
Die Entscheidung, welches der beiden Audiosignal AS_1 bzw. AS_2 zuerst an die Audiosignalmischeinrichtung 4 ausgegeben wird, kann darauf basieren, in welchem der Audiosignal AS_1 bzw. AS_2 zuerst eine sprachliche Aktivität erkannt worden ist. The decision as to which of the two audio signals AS_1 and AS_2 is first output to the audio signal mixing device 4 may be based on the fact in which the audio signal AS_1 or AS_2 has first been recognized as having a linguistic activity.
Die Steuereinrichtung 6a und 6b ist weiter dazu ausgebildet, für den Fall, dass in keinem der Audiosignale AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander so lange an den Audiosignalmischeinrichtung 4 als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind. The control device 6a and 6b is further adapted, in the event that in any of the audio signals AS_1 and AS_2 a linguistic activity is detected to check whether cached audio signals are present, and if cached audio signals are present, the cached audio signals one by one long to the audio signal mixing device 4 output as audio input signals until no cached audio signals are available.
Für den Fall, dass in keinem der Audiosignale AS_1 und AS_2 eine sprachliche Aktivität erkannt wird, beispielsweise weil die Audiosignale AS_1 und AS_2 als unwichtig klassifiziert sind, und keine zwischengespeicherten Audiosignale (mehr) vorhanden sind, können sämtliche Au- diosignale AS_1 und AS_2 als Audioeingangssignale an die Audiosignalmischeinrichtung 4 ausgegeben werden. Für den Fall, dass nur in einem einzelnen der Audiosignale AS_1 oder AS_2 eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, kann nur das Audiosignal AS_1 oder AS_2, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinnchtung 4 ausgegeben werden. Erfindungsgemäß ist eine Audiosignalmischeinnchtung 4 vorgesehen, die zwei oder mehr Audiosignale AS_1 und AS_2 mischt, um daraus ein oder mehrere gleiche Ausgangsaudiosignale OS zu erzeugen. In the event that no linguistic activity is detected in any of the audio signals AS_1 and AS_2, for example because the audio signals AS_1 and AS_2 are classified as unimportant, and no cached audio signals (more) are present, all the audio signals AS_1 and AS_2 can be used as audio input signals are output to the audio signal mixing device 4. In the event that a linguistic activity is detected in only one of the audio signals AS_1 or AS_2 and no cached audio signals are present, only the audio signal AS_1 or AS_2 in which a linguistic activity is detected can be output to the audio signal mixing device 4 as an audio input signal , According to the invention, an audio signal mixing device 4 is provided which mixes two or more audio signals AS_1 and AS_2 in order to generate one or more identical output audio signals OS therefrom.
Zunächst wird überprüft, ob auf einem oder mehreren der Audiosignale AS_1 und AS_2 Geräusche vorliegen, die für die jeweilige Anwendung des Systems als relevant oder wichtig erachtet werden. Hierzu kann ein herkömmlicher Sprachaktivitätsdetektor verwenden werden, wie er bei Telefonsystem verwendet wird, um Phasen der Stille von Phasen des aktiven Sprechens zu unterscheiden. First, it is checked whether there are noises on one or more of the audio signals AS_1 and AS_2 which are considered to be relevant or important for the respective application of the system. For this purpose, a conventional voice activity detector, as used in the telephone system, can be used to distinguish phases of silence from phases of active speech.
Die Audiosignale AS_1 und AS_2 können zeitlich verzögert (wiedergegeben) werden. Das bedeutet, dass sie nicht direkt an die Lautsprecher 5_1 und 5_2 bzw. die Audiosignalmischeinrich- tung 4 weiter geleitet werden, sondern für einen beliebigen Zeitraum zwischengespeichert werden können, um später an die Audiosignalmischeinnchtung 4 weitergeleitet zu werden. The audio signals AS_1 and AS_2 can be delayed (reproduced). This means that they are not forwarded directly to the loudspeakers 5_1 and 5_2 or the audio signal mixing device 4, but can be buffered for any period of time in order to be forwarded later to the audio signal mixing device 4.
Die Zwischenspeicher 2_1 und 2_2 können als FIFO-Speicher implementiert sein. Aus algorithmischen Effizienzgründen kann es sinnvoll sein, in den Zwischenspeichern 2_1 und 2_2 nicht nur die Audiosignale AS_1 und AS_2 zu speichern, sondern auch die zugehörigen sprachlichen Aktivitätsinformationen. The latches 2_1 and 2_2 may be implemented as FIFO memories. For algorithmic efficiency reasons, it may be useful to store not only the audio signals AS_1 and AS_2 in the latches 2_1 and 2_2, but also the associated linguistic activity information.
Die Steuereinrichtung 6a und 6b überwacht, ob die Sprachaktivitätserkennungseinrichtung 3 aktive bzw. relevante Signale erkennt und ob in den Zwischenspeichern 2_1 und 2_2 akustische Signale gespeichert sind. The control device 6a and 6b monitors whether the voice activity recognition device 3 detects active or relevant signals and whether acoustic signals are stored in the latches 2_1 and 2_2.
Wenn kein aktives bzw. relevantes Audiosignal AS_1 und AS_2 vorliegt und in den Zwischen- speichern 2_1 und 2_2 keine Audiosignale gespeichert sind, können alle Audiosignale AS_1 und AS_2 in der Audiosignalmischeinnchtung 4 gemischt werden. Dies ist beispielsweise der Fall, wenn alle Konferenz- oder Gesprächsteilnehmer schweigen. If no active or relevant audio signal AS_1 and AS_2 is present and no audio signals are stored in the intermediate memories 2_1 and 2_2, all the audio signals AS_1 and AS_2 in the audio signal mixing device 4 can be mixed. This is the case, for example, when all conference or conversation participants are silent.
Wenn nur ein relevantes Audiosignal AS_1 bzw. AS_2 vorliegt, wird es an die Audiosignalmischeinnchtung 4 weitergeleitet. Dies ist beispielsweise der Fall, sobald ein Gesprächsteil- nehmer zu reden beginnt. Wenn nun weitere Audiosignale relevant bzw. aktiv werden, werden diese nicht unverzögert an die Audiosignalmischeinrichtung 4 weitergeleitet, sondern in den Zwischenspeichern 2_1 und 2_2 gespeichert. Man vermeidet somit, dass ein zweiter Gesprächsteilnehmer dem ersten Gesprächsteilnehmer ins Wort fällt. Sobald das bislang wiedergegebene Audiosignal keine relevanten Informationen mehr enthält, d.h. sprachlich nicht mehr aktiv ist, wird eines der gespeicherten Audiosignale aus dem zugehörigen Zwischenspeicher 2_1 bzw. 2_2 abgerufen und zur Audiosignalmischeinrichtung 4 und somit zu den Lautsprechern 5_1 und 5_2 geleitet. Der zweite Gesprächsteilnehmer wird nun verzögert ausgespielt, nachdem der erste verstummt ist. Dieser Prozess wird so lange fortgesetzt, bis kein Zwischenspeicher 2_1 und 2_2 mehr Audiosignale gespeichert hat. If only one relevant audio signal AS_1 or AS_2 is present, it is forwarded to the audio signal mixing device 4. This is the case, for example, when a conversation participant begins to talk. If further audio signals now become relevant or active, they are not forwarded without delay to the audio signal mixing device 4, but are stored in the latches 2_1 and 2_2. It avoids thus that a second participant in the conversation breaks the first participant in the conversation. As soon as the previously reproduced audio signal no longer contains any relevant information, ie is no longer active in speech, one of the stored audio signals is retrieved from the associated buffer memory 2_1 or 2_2 and routed to the audio signal mixing device 4 and thus to the loudspeakers 5_1 and 5_2. The second caller is now played delayed after the first is silent. This process continues until no latches 2_1 and 2_2 have stored more audio signals.
Es versteht sich, dass die beiden Audiosignalquellen 1_1 und 1_2, die beiden Zwischenspeicher 2_1 und 2_2 und die beiden Lautsprecher 5_1 und 5_2 lediglich eine exemplarische Anzahl darstellen. Selbstverständlich können beliebig viele dieser Komponenten verwendet wer- den. It is understood that the two audio signal sources 1_1 and 1_2, the two latches 2_1 and 2_2 and the two loudspeakers 5_1 and 5_2 represent only an exemplary number. Of course, any number of these components can be used.
Zur Erkennung des Falls, dass in beiden Audiosignalen AS_1 und AS_2 eine sprachliche Aktivität vorliegt, kann die Sprachaktivitätserkennungseinrichtung 3 dazu ausgebildet sein, die Audiosignale AS_1 und AS_2 in die Frequenzdomäne zu transformieren, zu untersuchen, ob sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, und für den Fall, dass sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, zu bestimmen bzw. festzulegen, dass in mehr als einem einzelnen der Audiosignale AS_1 und AS_2 eine sprachliche Aktivität vorliegt. Die Sprachaktivitätserkennungseinrichtung 3 kann das Ergebnis des Bestimmens bzw. Festlegens an die Steuereinrichtung 6a übertragen. In order to detect the case in which there is linguistic activity in both audio signals AS_1 and AS_2, the voice activity recognition device 3 can be designed to transform the audio signals AS_1 and AS_2 into the frequency domain, to examine whether the transformed audio signals are superposed in one or more frequency bands and, in the event that the transformed audio signals in one or more frequency bands overlap, determine that there is linguistic activity in more than a single one of the audio signals AS_1 and AS_2. The voice activity recognizer 3 may transmit the result of the determination to the controller 6a.

Claims

Patentansprüche claims
Verfahren zum Betreiben eines Telefon konferenzsystems für mindestens zwei Gesprächsteilnehmer, mit den Schritten: Method for operating a telephone conference system for at least two call participants, with the steps:
Ermitteln einer sprachlichen Aktivität eines jeweiligen Gesprächsteilnehmers und für den Fall, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität ermittelt wird, Wiedergeben nur einer einzelnen sprachlichen Aktivität und zeitverzögertes Wiedergeben der verbleibenden sprachlichen Aktivitäten.  Determine a linguistic activity of a respective conversation participant and in the event that a linguistic activity is detected in more than one participant, reproducing only a single linguistic activity and delayed playback of the remaining linguistic activities.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass zum Ermitteln des Falls, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität vorliegt, folgende Schritte durchgeführt werden: A method according to claim 1, characterized in that for determining the case that there is more than one conversation participants a linguistic activity, the following steps are performed:
Transformieren eines einem jeweiligen Gesprächspartner zugeordneten Audiosignals (AS_1 , AS_2) in die Frequenzdomäne,  Transforming an audio signal (AS_1, AS_2) assigned to a respective call partner into the frequency domain,
Untersuchen, ob sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, und  Examine whether the transformed audio signals are superimposed in one or more frequency bands, and
wenn sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, Bestimmen, dass bei mehr als einem Gesprächsteilnehmer eine sprachliche Aktivität vorliegt. if the transformed audio signals overlap in one or more frequency bands, determining that there is more than one conversation participant having a linguistic activity.
Telefonkonferenzsystem für mindestens zwei Gesprächsteilnehmer, insbesondere zur Durchführung des Verfahrens nach Anspruch 1 oder 2, aufweisend: Telephone conference system for at least two call participants, in particular for carrying out the method according to claim 1 or 2, comprising:
mindestens zwei Audiosignalquellen (1_1 , 1_2), wobei eine jeweilige Audiosignalquelle einem Gesprächsteilnehmer zugeordnet und dazu ausgebildet ist, in Abhängigkeit von einer sprachlichen Aktivität des Gesprächsteilnehmers ein Audiosignal (AS_1 , AS_2) zu erzeugen, at least two audio signal sources (1_1, 1_2), wherein a respective audio signal source is assigned to a call participant and is designed to generate an audio signal (AS_1, AS_2) in dependence on a linguistic activity of the call participant,
mindestens einen Zwischenspeicher (2_1 , 2_2), wobei der Zwischenspeicher dazu ausgebildet ist, zumindest einen Teil eines jeweiligen Audiosignals zwischenzuspeichern, mindestens eine Sprachaktivitätserkennungseinrichtung (3), die dazu ausgebildet ist, eine sprachliche Aktivität in einem jeweiligen Audiosignal zu ermitteln, at least one temporary store (2_1, 2_2), the temporary store being designed to temporarily store at least a part of a respective audio signal, at least one voice activity recognition device (3), which is designed to determine a linguistic activity in a respective audio signal,
eine Audiosignalmischeinrichtung (4), die dazu ausgebildet ist, Eingangsaudiosignale miteinander zu mischen und die gemischten Eingangsaudiosignale als Ausgangsaudiosignal (OS) auszugeben, audio signal mixing means (4) adapted to mix input audio signals with each other and to output the mixed input audio signals as output audio signal (OS);
mindestens zwei Lautsprecher (5_1 , 5_2), wobei ein Lautsprecher einem Gesprächsteilnehmer zugeordnet ist, das Ausgangsaudiosignal der Audiosignalmischeinrichtung empfängt und als korrespondierendes Schallsignal ausgibt, und at least two loudspeakers (5_1, 5_2), wherein a loudspeaker is assigned to a conversation participant, receives the output audio signal of the audio signal mixing device and outputs as a corresponding sound signal, and
eine Steuereinrichtung (6a, 6b), die dazu ausgebildet ist, für den Fall, dass in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird, nur ein einzelnes derjenigen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, an die Audiosignalmischeinrichtung als Audioeingangssignal auszugeben und die nicht an die Audiosignalmischeinrichtung als Audioeingangssignal ausgegebenen Audiosignale, in denen eine sprachliche Aktivität erkannt wird, in dem Zwischenspeicher zwischenzuspeichern und zeitverzögert als Audioeingangssignal an den Audiosignalmischeinrichtung auszugeben. a control device (6a, 6b) which is designed in the event that a linguistic activity is detected in more than a single one of the audio signals, outputting only one of those audio signals in which a linguistic activity is detected to the audio signal mixing device as the audio input signal and the audio signals not output to the audio signal mixing device as the audio input signal, which a linguistic activity is detected, in the buffer store and time-delayed output as an audio input signal to the audio signal mixing device.
Telefonkonferenzsystem nach Anspruch 3, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist Conference telephone system according to claim 3, characterized in that the control device is designed for this purpose
für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird, zu überprüfen, ob zwischengespeicherte Audiosignale vorhanden sind, und in the event that no linguistic activity is detected in any of the audio signals, check for cached audio signals, and
falls zwischengespeicherte Audiosignale vorhanden sind, die zwischengespeicherten Audiosignale einzeln nacheinander so lange an den Audiosignalmischeinrichtung als Audioeingangssignale auszugeben, bis keine zwischengespeicherten Audiosignale mehr vorhanden sind. if cached audio signals are present, output the cached audio signals individually one after the other as long as the audio signal mixing device as audio input signals until no cached audio signals are more present.
Telefonkonferenzsystem nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist Conference telephone system according to claim 3 or 4, characterized in that the control device is designed for this purpose
für den Fall, dass in keinem der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, sämtliche Audiosignale als Audioeingangssignale an die Audiosignalmischeinrichtung auszugeben. in the event that in any of the audio signals, a linguistic activity is detected and no cached audio signals are present to output all the audio signals as audio input signals to the audio signal mixing device.
Telefonkonferenzsystem nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die Steuereinrichtung dazu ausgebildet ist Conference telephone system according to one of claims 3 to 5, characterized in that the control device is designed for this purpose
für den Fall, dass nur in einem einzelnen der Audiosignale eine sprachliche Aktivität erkannt wird und keine zwischengespeicherten Audiosignale vorhanden sind, nur das Audiosignal, in dem eine sprachliche Aktivität erkannt wird, als Audioeingangssignal an die Audiosignalmischeinrichtung auszugeben. in the event that a linguistic activity is detected only in a single one of the audio signals and no cached audio signals are present, only the audio signal in which a linguistic activity is detected, output as an audio input signal to the audio signal mixing device.
Telefonkonferenzsystem nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die Audiosignale Mono-Audiosignale sind. Conference telephone system according to one of Claims 3 to 6, characterized in that the audio signals are mono audio signals.
Telefonkonferenzsystem nach einem der Ansprüche 3 bis 7, dadurch gekennzeichnet, dass die Audiosignalquellen Mikrofone von Headsets und/oder Telefonhörern sind und die Lautsprecher in die Headsets und/oder die Telefonhörer integriert sind. Conference telephone system according to one of Claims 3 to 7, characterized in that the audio signal sources are microphones of headsets and / or telephone handsets and the loudspeakers are integrated in the headsets and / or the telephone receivers.
9. Telefon konferenzsystem nach einem der Ansprüche 3 bis 8, dadurch gekennzeichnet, dass die Sprachaktivitätserkennungseinrichtung (3) dazu ausgebildet ist, 9. telephone conference system according to one of claims 3 to 8, characterized in that the voice activity recognition device (3) is adapted to
die Audiosignale in die Frequenzdomäne zu transformieren,  to transform the audio signals into the frequency domain,
zu untersuchen, ob sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, und  to investigate whether the transformed audio signals are superimposed in one or more frequency bands, and
wenn sich die transformierten Audiosignale in einem oder mehreren Frequenzbändern überlagern, zu bestimmen, dass in mehr als einem einzelnen der Audiosignale eine sprachliche Aktivität vorliegt.  if the transformed audio signals overlap in one or more frequency bands, determining that there is linguistic activity in more than a single one of the audio signals.
PCT/EP2013/073720 2012-11-13 2013-11-13 Method for operating a telephone conference system, and telephone conference system WO2014076129A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102012220688.4 2012-11-13
DE201210220688 DE102012220688A1 (en) 2012-11-13 2012-11-13 Method of operating a telephone conference system and telephone conference system

Publications (2)

Publication Number Publication Date
WO2014076129A1 true WO2014076129A1 (en) 2014-05-22
WO2014076129A8 WO2014076129A8 (en) 2014-07-31

Family

ID=49578306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2013/073720 WO2014076129A1 (en) 2012-11-13 2013-11-13 Method for operating a telephone conference system, and telephone conference system

Country Status (2)

Country Link
DE (1) DE102012220688A1 (en)
WO (1) WO2014076129A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015001492A1 (en) * 2013-07-02 2015-01-08 Family Systems, Limited Systems and methods for improving audio conferencing services
US11017790B2 (en) 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001035A2 (en) * 2007-06-22 2008-12-31 Wivenhoe Technology Ltd Transmission of audio information

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4420212A1 (en) * 1994-06-04 1995-12-07 Deutsche Bundespost Telekom Transmission system for simultaneous multiple sending of several picture and sound signals
US20050210394A1 (en) * 2004-03-16 2005-09-22 Crandall Evan S Method for providing concurrent audio-video and audio instant messaging sessions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009001035A2 (en) * 2007-06-22 2008-12-31 Wivenhoe Technology Ltd Transmission of audio information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015001492A1 (en) * 2013-07-02 2015-01-08 Family Systems, Limited Systems and methods for improving audio conferencing services
US9087521B2 (en) 2013-07-02 2015-07-21 Family Systems, Ltd. Systems and methods for improving audio conferencing services
US9538129B2 (en) 2013-07-02 2017-01-03 Family Systems, Ltd. Systems and methods for improving audio conferencing services
US10553239B2 (en) 2013-07-02 2020-02-04 Family Systems, Ltd. Systems and methods for improving audio conferencing services
US11017790B2 (en) 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences

Also Published As

Publication number Publication date
WO2014076129A8 (en) 2014-07-31
DE102012220688A1 (en) 2014-05-15

Similar Documents

Publication Publication Date Title
DE60209637T2 (en) Controlling a conference call
EP1613124A2 (en) Processing of stereo microphone signals for teleconferencing
DE102021204829A1 (en) AUTOMATIC CORRECTION OF INCORRECT AUDIO SETTINGS
DE112015006800T5 (en) Method and headset for improving sound quality
DE10251113A1 (en) Voice recognition method, involves changing over to noise-insensitive mode and/or outputting warning signal if reception quality value falls below threshold or noise value exceeds threshold
Carlile ACTIVE LISTENING: SPEECH INTELLIGIBILITY IN NOISY ENVIRONMENTS.
EP1912472A1 (en) Method for operating a hearing aid and hearing aid
DE102014214052A1 (en) Virtual masking methods
EP2077059B1 (en) Method for operating a hearing aid, and hearing aid
DE102012214611B4 (en) Improved sound quality in conference calls
EP2047668B1 (en) Method, spoken dialog system, and telecommunications terminal device for multilingual speech output
Schoenmaker et al. The multiple contributions of interaural differences to improved speech intelligibility in multitalker scenarios
DE102009035796B4 (en) Notification of audio failure in a teleconference connection
EP1438833A2 (en) Device and method for multichannel acoustic echo cancellation with a variable number of channels
WO2014076129A1 (en) Method for operating a telephone conference system, and telephone conference system
EP1808853A1 (en) Public address system, method and computer program to enhance the speech intelligibility of spoken messages
EP2047632B1 (en) Method for carrying out a voice conference, and voice conference system
EP1126687A2 (en) Method for coordinated echo and/or noise reduction
EP2080410A1 (en) Method for operating a hearing aid, and hearing aid
DE102014210760B4 (en) operation of a communication system
EP1062487B1 (en) Microphone device for speech recognition in variable spatial conditions
US10237413B2 (en) Methods for the encoding of participants in a conference
Schoenmaker et al. Better-ear rating based on glimpsing
JP2007096555A (en) Voice conference system, terminal, talker priority level control method used therefor, and program thereof
Liang et al. Cat-astrophic effects of sudden interruptions on spatial auditory attention

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13789567

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13789567

Country of ref document: EP

Kind code of ref document: A1