RU2658602C2 - Поддержание аудиосвязи в перегруженном канале связи - Google Patents

Поддержание аудиосвязи в перегруженном канале связи Download PDF

Info

Publication number
RU2658602C2
RU2658602C2 RU2016111281A RU2016111281A RU2658602C2 RU 2658602 C2 RU2658602 C2 RU 2658602C2 RU 2016111281 A RU2016111281 A RU 2016111281A RU 2016111281 A RU2016111281 A RU 2016111281A RU 2658602 C2 RU2658602 C2 RU 2658602C2
Authority
RU
Russia
Prior art keywords
communication
text
channel
speech
communication device
Prior art date
Application number
RU2016111281A
Other languages
English (en)
Other versions
RU2016111281A (ru
Inventor
Бижан КАРИМИ-ЧЕРКАНДИ
Фаррокх Мохаммадзадех КОУЧРИ
Шах Валли АЛИ
Original Assignee
Юнифай Гмбх Унд Ко. Кг
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Юнифай Гмбх Унд Ко. Кг filed Critical Юнифай Гмбх Унд Ко. Кг
Publication of RU2016111281A publication Critical patent/RU2016111281A/ru
Application granted granted Critical
Publication of RU2658602C2 publication Critical patent/RU2658602C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0015Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy
    • H04L1/0017Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy where the mode-switching is based on Quality of Service requirement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0058Allocation criteria
    • H04L5/006Quality of the received signal, e.g. BER, SNR, water filling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2227Quality of service monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/04Selecting arrangements for multiplex systems for time-division multiplexing
    • H04Q11/0428Integrated services digital network, i.e. systems for transmission of different types of digitised signals, e.g. speech, data, telecentral, television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/20Arrangements for detecting or preventing errors in the information received using signal quality detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/18Comparators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)

Abstract

Изобретение относится к системе связи. Технический результат изобретения заключается в возможности сохранения вызова в условиях плохого качества обслуживания. Способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи имеет по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется качеством обслуживания, содержит этапы, на которых во время аудиосвязи контролируется качество обслуживания канала полезной нагрузки. Если качество обслуживания канала полезной нагрузки ниже порогового значения, то речь на соответствующей отправляющей стороне преобразуется в текст и передается по удерживаемому каналу связи на соответствующую приемную сторону. Текст преобразовывается обратно в речь на приемной стороне. 3 н. и 10 з.п. ф-лы, 2 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к способу поддержания аудиосвязи в перегруженном канале связи, компьютерной программе для выполнения такого способа, долговременному компьютерно-читаемому носителю, содержащему приложение, сохраненное на нем для выполнения способа, и системе связи, адаптированной для выполнения способа.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
Пользователи часто сталкиваются с проблемами, связанными с передачей данных, таких как, в частности, речевые данные, которые возникают из-за проблем в работе сети, таких как высокий коэффициент битовых ошибок (BER) или потери пакетов. Эти проблемы возникают особенно часто при беспроводной аудиосвязи. В результате качество связи может падать и становиться очень плохим. Если эти ошибки возникают из-за проблем, связанных в целом с работой сети, а не с одним конкретным каналом связи, даже повторный набор не поможет установить вызов с более высоким качеством. Однако вызов может быть важным, как, например, экстренный вызов.
Следовательно, поставщики услуг связи должны предложить хорошее решение для сохранения аудиосвязи даже в случае серьезных проблем в работе сети.
Сохранение связи с согласованными и установленными кодеками и/или несущими каналами может быть невозможным из-за плохой полосы пропускания, высокой задержки пакетов, слишком больших потерь пакетов или высокого BER.
Согласно документу US 7,617,106 B2, для того, чтобы проверить корректность преобразования речи в текст (STT), преобразованный текст снова преобразуется в речь. Как первоначальная речь, так и речь, созданная из представления текста, воспроизводится затем через стереогарнитуру. Контрольный редактор (который в данном случае представляет собой контрольного слушателя) может легко найти различия между первоначальной и преобразованной речью. В документе US 7,697,551 B2 предложено соединить между собой телефон и систему мгновенной передачи текстовых сообщений (IM) через определенную систему. Эта система преобразует текст IM в речь и затем речь обратно в текст IM. В документе US 2002/123892 A1 раскрыта встроенная система для преобразования речи в текст, которая представляется на интерфейсе пользователю. В случае ошибки пользователь выдает в систему указание об ошибке неправильного распознавания. В свою очередь, ввод аудио наряду со ссылкой на модель общеупотребительных слов передается в процесс обучения. Согласно документу CN 201440733 U изображение языка жестов захватывается камерой устройства мобильной связи. Дорожка видеозаписи создается из изображений и преобразуется в неопределенную текстовую информацию. Этот текст дополнительно улучшается с помощью параметров грамматики и словосочетаний. В документе JP 2006005440 A показано, что в случае нахождения в шумной окружающей среде камера мобильного телефона захватывает картинки движения губ и передает их. На приемной стороне эти картинки отображаются в виде движущихся изображений. В качестве альтернативы, передаются только параметры движения губ. Согласно документу US 2005/049868 A1 слова или фразы передаются в приложение преобразования текста в речь. Затем созданная речь передается в один или более механизмов преобразования речи в текст. Полученным словам или фразам назначается уровень доверительной вероятности.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Проблему, упомянутую выше, можно решить с помощью способа по п. 1 формулы изобретения. Преимущественные варианты осуществления изобретения представляют собой предмет изобретения зависимых пунктов формулы изобретения.
Согласно изобретению способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи содержит по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется (переменным) качеством обслуживания, содержит следующие этапы, на которых: контролируют качество обслуживания канала полезной нагрузки, прерывают отправку речи с отправляющей стороны по каналу полезной нагрузки, при этом удерживая по меньшей мере канал сигнализации канала связи в случае, если качество обслуживания канала полезной нагрузки ниже заданного порогового значения. Другими словами, способ предусматривает, что отправка аудиоданных останавливается без разрыва канала связи, то есть поддерживается по меньшей мере часть сигнализации канала связи. Подразумевается, что это прерывание отправки речевых данных (которые кратко называются "речью") можно выполнить, поддерживая и "полноценный" канал связи, то есть также его канал полезной нагрузки. Вместо передачи речи от отправителя на приемную сторону речь преобразуется в текст и отправляется в виде текстовых данных на приемную сторону. Если не указано иное пользователем или центром управления способа связи, речь, произведенная на приемной стороне, будет преобразовываться в текст и отправляться на (бывшую) отправляющую сторону, которой теперь является приемная сторона. Другими словами, после переключения на передачу только текстовых данных, речь на соответствующей отправляющей стороне преобразуется в текст и передается на соответствующую приемную сторону.
Как объяснено выше, используя способ согласно настоящему изобретению, можно сохранить вызов даже в условиях плохого качества обслуживания.
Согласно одному аспекту изобретения передача текстовых данных происходит по каналу полезной нагрузки.
Настоящее изобретение основано на рассуждении о том, что полосы пропускания перегруженного канала связи может все еще быть достаточно для того, чтобы осуществлять связь/передавать необходимую информацию в виде текстовых данных и избежать потоковой передачи аудио, чтобы можно было использовать канал с низким качеством обслуживания или полосой пропускания. Качество обслуживания можно определить с помощью существующей матрицы всех типов связи. Качество обслуживания речевого потока в канале полезной нагрузки или в канале транспортного протокола реального времени (RTP) можно обнаружить, в частности, следующим образом:
1) Пакеты RTP (которые транспортируются в IP-пакетах протокола передачи дейтаграмм пользователя (UDP)) в потоке нумеруются последовательно. Потерю пакетов можно легко обнаружить в случае, когда отсутствует/отсутствуют один или более пакетов. Можно также обнаружить пакеты, которые остаются за пределами последовательности. Это может произойти тогда, когда пакеты IP получают различные маршруты в место назначения.
2) Пакеты с битовой ошибкой свидетельствуют о плохих пакетах. Хотя поток RTP может иметь не механизм обнаружения битовых ошибок, а только некоторые кодировки, полезные нагрузки RTP имеют возможность обнаружения битовых ошибок (согласно RFC 4867). В этом контексте можно использовать кодеки типа G.722 и кодек AMR типа.
3) Задержку пакета и буфер фазового дрожания, установленный в приемниках, можно также использовать для обнаружения плохого качества передачи. Интервал для передачи пакета RTP определяется на основании определенного/используемого кодека. Так как в течение периода передачи пакеты имеют задержку, обычно выделенный буфер используется для буферизации новых пакетов и сглаживания фазового дрожания при получении пакетов. Этот буфер приводит к отсроченному воспроизведению потока. Так как человек на приемной стороне не видит передатчик, допускается некоторая величина задержки (которая также называется "запаздывание"). Однако размер этого буфера является ограниченным, и когда прибытие пакетов задерживается более чем на размер буфера, приемная сторона будет затем распознавать паузы в речи. Отставание буфера фазового дрожания может также представлять собой индикацию плохого качества речи (качества обслуживания).
4) Анализ аудио после восстановления потока можно также использовать для обнаружения плохого качества аудио. На основании резких изменений аудио можно обнаружить нерегулярности.
Преимущество соответствующего приемника состоит в том, что способ согласно настоящему изобретению содержит этап преобразования принятого текста обратно в речь. В этом случае пользователи, участвующие в телефонном вызове или аудиосвязи, могут продолжить свое общение на устной основе, им не нужно читать переданные тексты, которые были ранее преобразованы из речи в текст. Конечно, возможно, что соответствующие пользователи на своем конце могут заставить систему продолжать отображать текст, передаваемый каналом связи, вместо того, чтобы повторно преобразовывать текст в речь.
В случае если качество обслуживания канала полезной нагрузки непрерывно контролируется, преимущественным может быть переключение обратно на передачу речи по удерживаемому каналу полезной нагрузки сразу после того, как будет обнаружено достаточное качество обслуживания, для того чтобы повторно установить "нормальную" аудиосвязь или телефонный вызов.
Преимущественным может быть то, что аварийное сообщение отправляется на соответствующую приемную сторону сразу, как только прерывается отправка речи, и вместо этого передаются текстовые данные, полученные в результате преобразования речи в текст. Это позволяет помочь соответствующему приемнику подготовиться к предстоящему изменению текущей связи.
В случае если текущая аудиосвязь шифруется с использованием определенного ключа и заданного алгоритма, преимущественным является также использование того же самого ключа и того же самого алгоритма для шифрования переданного текста. Таким образом, статус безопасного соединения можно поддерживать, несмотря на возникновение изменения на передачу только текстовых данных.
Согласно одному аспекту настоящего изобретения для передачи текста можно использовать только канал сигнализации. Тем самым можно исключить канал полезной нагрузки из текущего канала связи, например, в случае, когда качество обслуживания (качество передачи) становится слишком низким, или для того, чтобы сократить расходы на использование канала полезной нагрузки. В этом случае данные могут быть представлены в любом формате, таком как RAW, XML или другие форматы. Однако партнеру по связи должен быть передан сигнал о том, что будут поступать другие данные вместо ранее установленных/согласованных, и какой тип и формат текста будут поступать.
Согласно дополнительному аспекту изобретения этап обнаружения языка речи может быть включен для того, чтобы преобразовать речь в текст соответствующего языка. Так как технология преобразования речи в текст является достаточно продвинутой, это решение можно также использовать для настоящего изобретения. В случае если STT не может обнаружить язык, используемый язык должен быть указан исходя из настройки устройства связи на том конце текущей связи, на котором было инициировано изменение на передачу текста вместо речи.
Для того чтобы улучшить обработку, преимущественным является случай, когда предстоящее изменение с передачи речи на передачу текста, стороной, которая является отправителем в данный момент времени, согласовано в этот момент времени с другой участвующей стороной, например с приемником. При согласовании переключения на текст отправитель может также указать, какой язык по умолчанию используется для передачи текста.
Некоторые решения STT и TTS (преобразование текста в речь) позволяют пользователям определить дополнительные параметры, такие как категория типа голоса и предварительно определенный признак голоса, который должен использоваться в TTS на приемной стороне. Например, отправитель может указать в своей текстовой полезной нагрузке, что язык представляет собой американский английский язык и "голос=Майк". В некоторых решениях TTS предшествующего уровня техники используются эти предварительно определенные признаки голоса типа Майка (для лиц мужского пола) или Мэри (для лиц женского пола). Приемник может принять такой выбор или отклонить, делая свой собственный выбор или используя значение по умолчанию.
Чтобы облегчить процесс преобразования текста в речь на приемной стороне, на соответствующей отправляющей стороне предпочтительно использовать этап преобразования речи в фонетический тип текста.
Согласно дополнительному аспекту настоящего изобретения пользователи могут по требованию заставить систему связи переключиться с передачи речи на передачу текста путем ввода соответствующей команды. Например, для передачи заданного сообщения пользователь может захотеть использовать голос, который отличается от своего собственного голоса. Другим примером является уменьшение действующих фоновых помех, которое может быть получено путем переключения на передачу текста. Это хорошо работает в том случае, если устройство связи является достаточно продвинутым для распознавания соответствующей речи пользователя и оптимального преобразования ее в текст, после чего выходной сигнал будет увеличивать ясность на приемной стороне.
Проблема, упомянутая выше, решается также с помощью долговременного компьютерно-читаемого носителя, на котором хранится соответствующее приложение, которое позволяет выполнить способ, как описано выше. Подразумевается, что приложение должно быть разработано таким образом, чтобы его мог исполнить процессор соответствующего устройства связи.
Вышеупомянутая проблема также решается с помощью компьютерной программы или компьютерного программного продукта для процессора устройства связи, причем программа предназначена для выполнения способа, как описано выше.
Согласно дополнительному аспекту настоящего изобретения вышеупомянутую задачу можно также решить с помощью системы связи, которая содержит первое устройство связи, второе устройство связи, по меньшей мере один канал связи для установления соединения с первым устройством связи с помощью второго устройства связи и процессор для управления связью между первым устройством связи и вторым устройством связи таким образом, чтобы можно было выполнить способ, как описано выше. Первое и второе устройства связи могут представлять собой, например, настольный телефон, PDA, смартфон или компьютер, оборудованный микрофоном и подсоединенный к телефонной сети.
Подразумевается, что система связи согласно настоящему изобретению может содержать любой из признаков, которые описаны в связи со способом согласно настоящему изобретению, а также любое преимущество или особенность, которые описаны выше по отношению к способу, могут также присутствовать в системе.
Преимущество системы связи может состоять в том, что она дополнительно содержит средство обнаружения языка, предназначенное для обнаружения языка речи и преобразования ее в текст на соответствующем языке. Языки, используемые двумя пользователями на отправляющей стороне и на приемной стороне, необязательно должны быть одинаковыми, поэтому каждый пользователь может использовать, например, свой родной язык, который будет затем преобразовываться в соответствующий текст на этом же языке.
При отсутствии согласования языка абонент на приемной стороне может проигнорировать сообщение в том случае, если он не может понять указанный язык с отправляющей стороны. Кроме того, один пользователь может обратить внимание на отсутствие правильной связи, что может привести к молчанию. В этом случае соответствующий пользователь может продолжить связь/вызов, завершить вызов или просто передать сообщение о проблеме связи на другую сторону, говоря об этом факте в микрофон.
Если пользователь на приемной стороне не может обработать TTS в общепринятом или в текущем формате, соответствующий пользователь может проигнорировать этот факт или попытаться сообщить о проблеме другой стороне.
Как показано выше, переключение на передачу текста вместо речи происходит при выявлении того, что качество обслуживания является недостаточным для поддержания аудиосвязи без изменения.
Предпочтительные варианты осуществления настоящего изобретения показаны на чертеже в качестве примера, который не следует рассматривать ограничительным образом.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 изображает один возможный вариант осуществления системы связи согласно изобретению, в которой можно выполнить первый вариант осуществления способа согласно настоящему изобретению; и
Фиг. 2 изображает такую же систему связи, как и на фиг. 1, и показывает, как можно выполнить второй вариант осуществления способа согласно настоящему изобретению.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Как показано на фиг. 1, система 20 связи согласно изобретению содержит первое устройство А связи, второе устройство B связи и сеть 10 связи, с помощью которой два устройства А, B связи могут устанавливать соединения друг с другом. Сеть 10 связи может представлять собой коммутируемую телефонную сеть общего пользования (PSTN), сеть мобильной связи или любую другую подходящую сеть. В качестве одного компонента сети 10 связи представлен коммутатор 28. В качестве первого и второго устройств А, B связи можно использовать мобильные телефоны, смартфоны, настольные телефоны или аналогичные устройства. В качестве примера показаны две сигнальные линии или каналы 33 и 34, с помощью которых два устройства А и B связи, соответственно, могут устанавливать связь друг с другом. Такую связь можно установить с помощью канала 36 полезной нагрузки, который может также называться каналом RTP или несущим каналом.
Способ по настоящему изобретению можно реализовать с помощью предназначенной для этого компьютерной программы 52 или компьютерного программного продукта, который может предписать процессору 40 выполнять способ согласно настоящему изобретению. Процессор 40 изображен выполненным в первом и втором устройствах А и B связи. Между тем, в некоторых случаях, например, он может быть выполнен в коммутаторе 28 или в центре управления (не показан). Другими словами, способ согласно настоящему изобретению является компьютерно-реализуемым. В качестве альтернативы, способ можно реализовать также с помощью аппаратных средств. Компьютерная программа 52 символически изображена как хранящаяся на компьютерно-читаемом носителе 50, который может представлять собой флеш-накопитель, карту памяти, твердотельный накопитель или "обычный" жесткий диск, которые являются только примерами такого долговременного компьютерно-читаемого носителя.
Для описания способа согласно настоящему изобретению можно предположить, что разговор между первым устройством А связи и вторым устройством B связи был установлен с использованием канала 30 связи, который содержит канал 33, 34 сигнализации и канал 36 полезной нагрузки. В определенный момент времени первое устройство А связи обнаруживает, что качество обслуживания в канале 26 полезной нагрузки канала 30 связи стало настолько плохим, что недостаточно поддерживать аудиосвязь без выполнения изменения.
В целях описания способа согласно настоящему изобретению сначала первое устройство А связи образует отправляющую сторону 22 связи, и второе устройство B связи образует приемную сторону 24 связи.
Способ согласно настоящему изобретению описан с использованием протокола инициирования сеанса (SIP). Подразумевается, что вместо этого протокола можно использовать любой другой протокол связи, и что изобретение не ограничивается использованием SIP. С учетом этой ситуации первое устройство А связи отправляет сообщение приглашения через сигнальную линию 33 в коммутатор 28. В этом сообщении приглашения протокол описания сеанса (SDP) определен как неактивный. Затем коммутатор 28 отправляет сообщение приглашения во второе устройство B связи с SDP, определенным как неактивный. Второе устройство B связи отправляет обратно ответное сообщение в коммутатор 28 со все еще неактивным SDP. Коммутатор 28 отправляет так называемое сообщение 200OK со все еще неактивным SDP обратно в первое устройство А связи. Первое устройство А связи выполняет преобразование речи в текст (STT) речевых данных, записанных с помощью микрофона 21, который связан с первым устройством А связи. В качестве примера, предложение на немецком языке "Wie stark ist der Sturm?" (Насколько сильна буря?) размещается в сигнальной линии 33 в качестве текстовой информации вместе с указанием немецкого языка, используемого системой. То же самое сообщение размещается коммутатором 28 в сигнальной линии 34 и отправляется во второе устройство B связи. После приема на приемной стороне 24 (второе устройство B связи) выполняется преобразование текста в речь (TTS) этого сообщения, и результат выводится через громкоговоритель 23, связанный со вторым устройством B связи. Пользователь, использующий второе устройство B связи, может ответить на вопрос, говоря в свой микрофон (не показан): "The wind speed is 250 miles per hour" ("Скорость ветра равна 250 миль в час"). Эти речевые данные, поступающие из второго устройства B связи, которым теперь является отправляющая сторона 22, STT преобразуются, и данные размещаются в сообщении 200OK (вместе с указанием на то, что языком является американский английский язык) и отправляются в коммутатор 28. Коммутатор 28 передает это сообщение в первое устройство А связи, которое является теперь приемной стороной 24, где сообщение является преобразованным с помощью TTS и выводится через громкоговоритель (не показан).
Такого типа связь можно продолжать до тех пор, пока она будет желательна или необходима, или вплоть до окончания соответствующей связи. Следует отметить, что в данном случае отсутствует согласование языка. Если приемная сторона 24 не может интерпретировать указанный язык с отправляющей стороны 22, то приемная сторона 24 может или должна игнорировать соответствующие сообщения. Пользователь на приемной стороне 24 может заметить отсутствие правильной связи (например, когда он слышит только молчание), и от пользователя зависит, продолжит он или завершит вызов. То же самое применимо к пользователю на отправляющей стороне 22.
На фиг. 2 показана одинаковая окружающая обстановка системы 20 связи, как и на фиг. 1. Однако, как можно видеть на фиг. 2, выполняемый способ отличается от способа, показанного на фиг. 1. Хотя, согласно фиг. 1, данные (речевые данные, преобразованные с помощью STT в текстовые данные) размещаются в канале 33, 34 сигнализации, вместо этого согласно фиг. 2 используется канал 36 полезной нагрузки. При выявлении неприемлемого качества обслуживания в канале 30 связи, первое устройство А связи отправляет сообщение приглашения в коммутатор 28 со спецификацией: SDP: аудиокодек: неактивный, код TTS: активный, язык: немецкий. То же сообщение передается с помощью коммутатора 28 во второе устройство B связи. Второе устройство B связи отвечает путем отправки ответного сообщения со спецификацией: SDP: аудиокодек: неактивный, код TTS: активный, язык: английский. Это означает, что второе устройство B связи, которым теперь является отправляющая сторона 22, собирается использовать в качестве языка американский английский. После получения ответного сообщения коммутатор 28 отправляет сообщение 200OK с той же самой спецификацией в первое устройство А связи. Таким образом, два устройства А, B связи осуществляют согласование использования текстовых данных, преобразованных из речевых данных, и использования немецкого языка и американского английского языка для двух устройств 22 и 24 связи соответственно. После этого поток RTP может передавать вопрос-ответ туда и обратно по каналу 36 полезной нагрузки, например, вопрос "Wie stark ist der Sturm?" (Насколько сильна буря?) и ответ "The wind speed is 250 miles per hour" ("Скорость ветра равна 250 миль в час"), как известно из приведенного выше описания. Как уже было описано, соответствующие текстовые данные будут затем преобразовываться с помощью TTS на соответствующих приемных сторонах и выводиться на соответствующие громкоговорители.
В вышеописанном способе можно определить новый тип полезной нагрузки в RTP. Список примеров типов полезной нагрузки можно найти на следующих сайтах:
http://en.wikipedia.org/wiki/Packet_loss
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1559904&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D1559904
http://vonage.nmhoy.net/packetloss.html
http://pe.org.pl/articles/2011/10/78.pdf
http://voip.netlab.uky.edu/~fei/teaching/cs671/slides/rtp.pdf
Если согласование включено в протокол, можно применять стандартные процедуры повторного согласования, предусмотренного в протоколе. Согласно одному аспекту изобретения канал 36 полезной нагрузки можно постоянно контролировать для того, чтобы обнаружить, достигло ли снова качество обслуживания приемлемого уровня для того, чтобы переключиться снова на нормальную передачу речевых сообщений вместо передачи текстовых сообщений.
Как можно увидеть из приведенного выше описания, преобразование текста в речь может быть опциональным. Другими словами, пользователь может настроить свое устройство на отмену преобразования из текста в речь.
Дополнительный аспект настоящего изобретения состоит в том, что переключение на передачу текстовых данных может быть также вызвано по требованию пользователем. Например, пользователь может захотеть использовать речь, которая отличается от своего собственного голоса, или разговору может помешать посторонний шум. В последнем случае, если устройство связи является достаточно продвинутым для того, чтобы распознавать речь пользователя и оптимальным образом преобразовывать ее в текст, преобразованный с помощью TTS выходной сигнал будет увеличивать ясность на соответствующей приемной стороне, поскольку шум был подавлен.
Хотя изобретение было описано по отношению к ограниченному числу вариантов осуществления, их следует истолковывать не как ограничивающие объем настоящего изобретения, а скорее как примеры некоторых возможных вариантов осуществления. Специалисты в данной области техники могут представить себе и другие возможные варианты, модификации и реализации, которые также находятся в пределах объема настоящего изобретения. Следует понимать, что некоторые отдельные признаки различных вариантов осуществления могут быть объединены друг с другом способами, которые отличаются от описанных. Это касается, например, типа устройств, используемых в системе связи, или типа сообщений, используемых для выполнения способа.
С другой стороны, специалистам в данной области техники должно быть очевидно, что изобретение можно осуществить на практике без некоторых конкретных деталей, представленных в данном документе. Кроме того, некоторые известные этапы или компоненты могут быть описаны только в общих чертах или даже опущены ради ясности иллюстрации.
Способ и система связи согласно настоящему изобретению могут относиться и могут использоваться в ISDN и VoIP или в любой другой подходящей окружающей среде, при этом не ограничиваясь ими.

Claims (21)

1. Способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи содержит по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется качеством обслуживания, содержащий этапы, на которых:
контролируют качество обслуживания канала полезной нагрузки;
прерывают отправку речи с отправляющей стороны по каналу полезной нагрузки, при этом удерживая по меньшей мере канал сигнализации канала связи, если качество обслуживания канала полезной нагрузки ниже порогового значения;
преобразуют речь на соответствующей отправляющей стороне в текст; и
передают текст по удерживаемому каналу связи на соответствующую приемную сторону.
2. Способ по п. 1, дополнительно содержащий этап, на котором преобразуют принятый текст на соответствующей приемной стороне в речь.
3. Способ по п. 1, дополнительно содержащий этап, на котором возобновляют передачу речи по удерживаемому каналу полезной нагрузки после обнаружения достаточного качества обслуживания.
4. Способ по п. 1, дополнительно содержащий этап, на котором отправляют аварийное сообщение на приемную сторону при прерывании отправки речи с отправляющей стороны.
5. Способ по п. 1, в котором текущая аудиосвязь была зашифрована с использованием ключа и заданного алгоритма, причем способ дополнительно содержит этап, на котором шифруют текст с помощью того же самого ключа и того же самого алгоритма.
6. Способ по п. 1, дополнительно содержащий этап, на котором используют только канал сигнализации для передачи текста.
7. Способ по п. 1, дополнительно содержащий этап, на котором обнаруживают язык речи и преобразуют его в текст на соответствующем языке.
8. Способ по п. 1, дополнительно содержащий этап, на котором согласуют предстоящее изменение с передачи речи на передачу текста с приемной стороной.
9. Способ по п. 1, дополнительно содержащий этап, на котором преобразуют речь на соответствующей отправляющей стороне в фонетический тип текста.
10. Способ по п. 1, дополнительно содержащий этап, на котором принимают пользовательский ввод для того, чтобы выполнить по требованию пользователя этапы прерывания отправки речи, преобразования речи в текст и передачи текста.
11. Компьютерно-читаемый носитель, содержащий сохраненное на нем приложение, причем приложение определяет инструкции, исполняемые процессором устройства связи для выполнения способа по меньшей мере по одному из пп. 1-10.
12. Система связи, содержащая:
первое устройство связи,
второе устройство связи,
по меньшей мере один канал связи для соединения первого устройства связи со вторым устройством связи, и
процессор для управления связью между первым устройством связи и вторым устройством связи, причем процессор предназначен для выполнения способа по меньшей мере по одному из пп. 1-10.
13. Система связи по п. 12, дополнительно содержащая средство обнаружения языка для обнаружения языка речи и преобразования ее в текст на соответствующем языке.
RU2016111281A 2013-08-29 2013-08-29 Поддержание аудиосвязи в перегруженном канале связи RU2658602C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/057261 WO2015030769A1 (en) 2013-08-29 2013-08-29 Maintaining audio communication in a congested communication channel

Publications (2)

Publication Number Publication Date
RU2016111281A RU2016111281A (ru) 2017-10-02
RU2658602C2 true RU2658602C2 (ru) 2018-06-22

Family

ID=49170888

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016111281A RU2658602C2 (ru) 2013-08-29 2013-08-29 Поддержание аудиосвязи в перегруженном канале связи

Country Status (9)

Country Link
US (1) US9712666B2 (ru)
EP (1) EP3039803B1 (ru)
JP (1) JP6355741B2 (ru)
KR (1) KR101787594B1 (ru)
CN (1) CN105493425B (ru)
AR (1) AR097465A1 (ru)
RU (1) RU2658602C2 (ru)
TW (1) TWI590620B (ru)
WO (1) WO2015030769A1 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6562844B2 (ja) * 2016-01-08 2019-08-21 三菱電機株式会社 車載端末、情報サービスセンタシステム、および車載端末の接続先選択方法
US11495232B2 (en) 2017-04-20 2022-11-08 Telefonaktiebolaget Lm Ericsson (Publ) Handling of poor audio quality in a terminal device
US10565994B2 (en) 2017-11-30 2020-02-18 General Electric Company Intelligent human-machine conversation framework with speech-to-text and text-to-speech
US11234243B2 (en) * 2019-08-09 2022-01-25 Samsung Electronics Co., Ltd Method and system for transitioning station to uplink multi-user disable mode and uplink multi-user enable mode
CN111294346B (zh) * 2020-01-22 2022-09-13 深圳国人无线通信有限公司 VoLTE语音业务优化方法与优化系统
US11580954B2 (en) * 2021-02-03 2023-02-14 Qualcomm Incorporated Systems and methods of handling speech audio stream interruptions
US20220230643A1 (en) * 2022-04-01 2022-07-21 Intel Corporation Technologies for enhancing audio quality during low-quality connection conditions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278688B1 (en) * 1997-03-18 2001-08-21 Nokia Telecommunications Oy Procedure for ensuring the operation of signalling channels in a V5 interface
US20040192396A1 (en) * 2002-09-26 2004-09-30 Jean-Philippe Fournier Method of accessing a service via a mobile telephone network taking account of "data" link quality
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
RU2450344C2 (ru) * 2007-02-16 2012-05-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и метод формирования потока данных и устройство и метод считывания потока данных
US20130177143A1 (en) * 2012-01-09 2013-07-11 Comcast Cable Communications, Llc Voice Transcription

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW298593B (ru) 1993-02-12 1997-02-21 Hoechst Ag
US5805771A (en) 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
US6754627B2 (en) 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
US7080248B1 (en) 2001-04-23 2006-07-18 At&T Corp. System providing dynamic quality of service signaling messages in a cable telephony network
JP3938033B2 (ja) * 2002-12-13 2007-06-27 株式会社日立製作所 通信端末およびそれを用いたシステム
US20050049868A1 (en) 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
DE602004018385D1 (de) 2003-11-05 2009-01-22 Philips Intellectual Property Fehlerdetektion für sprach-zu-text-transkriptionssysteme
TW200539668A (en) 2004-05-19 2005-12-01 Meng-Song Hu Voice mobile secretary system and information receiving and processing method thereof
JP2006005440A (ja) 2004-06-15 2006-01-05 Sony Corp 通話送受信方法および通話端末
JP5026964B2 (ja) * 2004-07-09 2012-09-19 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチメディア通信システムにおいて異なったサービスを提供する方法および装置
CN100372348C (zh) * 2004-07-28 2008-02-27 沈逸林 网络媒体话机终端的应用和通信方法
CN100423510C (zh) * 2004-09-17 2008-10-01 大唐高鸿数据网络技术股份有限公司 监控rtp/rtcp流以提高多媒体通信质量的方法
ZA200507606B (en) * 2004-10-22 2007-05-30 Microsoft Corp Distributed speech service
US7565357B2 (en) * 2004-12-30 2009-07-21 Alcatel Lucent Multi-sensor communication system
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US20080059200A1 (en) * 2006-08-22 2008-03-06 Accenture Global Services Gmbh Multi-Lingual Telephonic Service
US7697551B2 (en) 2006-09-01 2010-04-13 Nuance Communications, Inc. System for instant message to telephone speech and back
JP5176302B2 (ja) * 2006-09-28 2013-04-03 富士通株式会社 通信メディア自動変換システム
US8213580B2 (en) 2007-10-25 2012-07-03 International Business Machines Corporation Automated message conversion based on availability of bandwidth
JP4958174B2 (ja) * 2007-12-28 2012-06-20 株式会社Kddi研究所 グループ通信におけるメディア切替方法、セッション管理サーバ、端末及びプログラム
CN201440733U (zh) 2009-07-31 2010-04-21 深圳市同洲电子股份有限公司 一种适用于语言障碍人士的移动通话终端
JP5691586B2 (ja) * 2010-09-28 2015-04-01 沖電気工業株式会社 秘話通信システム、装置及びプログラム
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
KR101907406B1 (ko) * 2012-05-08 2018-10-12 삼성전자 주식회사 통신 서비스 운용 방법 및 시스템
US20140278402A1 (en) * 2013-03-14 2014-09-18 Kent S. Charugundla Automatic Channel Selective Transcription Engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278688B1 (en) * 1997-03-18 2001-08-21 Nokia Telecommunications Oy Procedure for ensuring the operation of signalling channels in a V5 interface
US20040192396A1 (en) * 2002-09-26 2004-09-30 Jean-Philippe Fournier Method of accessing a service via a mobile telephone network taking account of "data" link quality
RU2450344C2 (ru) * 2007-02-16 2012-05-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и метод формирования потока данных и устройство и метод считывания потока данных
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
US20130177143A1 (en) * 2012-01-09 2013-07-11 Comcast Cable Communications, Llc Voice Transcription

Also Published As

Publication number Publication date
KR20160048912A (ko) 2016-05-04
TW201517565A (zh) 2015-05-01
JP2016529839A (ja) 2016-09-23
AR097465A1 (es) 2016-03-16
EP3039803A1 (en) 2016-07-06
CN105493425B (zh) 2019-04-30
JP6355741B2 (ja) 2018-07-11
WO2015030769A1 (en) 2015-03-05
US9712666B2 (en) 2017-07-18
RU2016111281A (ru) 2017-10-02
KR101787594B1 (ko) 2017-10-18
US20160198040A1 (en) 2016-07-07
TWI590620B (zh) 2017-07-01
CN105493425A (zh) 2016-04-13
EP3039803B1 (en) 2017-07-19

Similar Documents

Publication Publication Date Title
RU2658602C2 (ru) Поддержание аудиосвязи в перегруженном канале связи
US10069965B2 (en) Maintaining audio communication in a congested communication channel
JP5112447B2 (ja) 通信ネットワーク環境におけるアナウンスメディアの処理
JP5528811B2 (ja) 効率的なメディアの扱いのための受信機の動作及び実装
JP5852104B2 (ja) 帯域内信号を使用するコーデック展開
JP2006222822A (ja) ハンドオーバシステム
US20170178630A1 (en) Sending a transcript of a voice conversation during telecommunication
US9826072B1 (en) Network-terminal interoperation using compatible payloads
US8116442B2 (en) Method and apparatus for audio conference bridge initiated remote device muting
US11563784B2 (en) Caption assisted calling to maintain connection in challenging network conditions
CA2922654C (en) Methods and apparatus for conducting internet protocol telephony communications
US7821957B2 (en) Acknowledgment of media waveforms between telecommunications endpoints
CN102100057B (zh) 数字电信系统、用于管理此类系统的方法
Pearce et al. An architecture for seamless access to distributed multimodal services.
JP2014116677A (ja) メディア通信装置及びメディア通信システム
KR20080065401A (ko) 화상 서비스 및 브이오아이피를 이용한 통화 서비스 동시제공 방법 및 장치