RU2658602C2 - Поддержание аудиосвязи в перегруженном канале связи - Google Patents
Поддержание аудиосвязи в перегруженном канале связи Download PDFInfo
- Publication number
- RU2658602C2 RU2658602C2 RU2016111281A RU2016111281A RU2658602C2 RU 2658602 C2 RU2658602 C2 RU 2658602C2 RU 2016111281 A RU2016111281 A RU 2016111281A RU 2016111281 A RU2016111281 A RU 2016111281A RU 2658602 C2 RU2658602 C2 RU 2658602C2
- Authority
- RU
- Russia
- Prior art keywords
- communication
- text
- channel
- speech
- communication device
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000011664 signaling Effects 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 abstract 1
- 230000000717 retained effect Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0015—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy
- H04L1/0017—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy where the mode-switching is based on Quality of Service requirement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
- H04L5/0058—Allocation criteria
- H04L5/006—Quality of the received signal, e.g. BER, SNR, water filling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2227—Quality of service monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/04—Selecting arrangements for multiplex systems for time-division multiplexing
- H04Q11/0428—Integrated services digital network, i.e. systems for transmission of different types of digitised signals, e.g. speech, data, telecentral, television signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0289—Congestion control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/20—Arrangements for detecting or preventing errors in the information received using signal quality detector
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/18—Comparators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/39—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Time-Division Multiplex Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Communication Control (AREA)
Abstract
Изобретение относится к системе связи. Технический результат изобретения заключается в возможности сохранения вызова в условиях плохого качества обслуживания. Способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи имеет по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется качеством обслуживания, содержит этапы, на которых во время аудиосвязи контролируется качество обслуживания канала полезной нагрузки. Если качество обслуживания канала полезной нагрузки ниже порогового значения, то речь на соответствующей отправляющей стороне преобразуется в текст и передается по удерживаемому каналу связи на соответствующую приемную сторону. Текст преобразовывается обратно в речь на приемной стороне. 3 н. и 10 з.п. ф-лы, 2 ил.
Description
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к способу поддержания аудиосвязи в перегруженном канале связи, компьютерной программе для выполнения такого способа, долговременному компьютерно-читаемому носителю, содержащему приложение, сохраненное на нем для выполнения способа, и системе связи, адаптированной для выполнения способа.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
Пользователи часто сталкиваются с проблемами, связанными с передачей данных, таких как, в частности, речевые данные, которые возникают из-за проблем в работе сети, таких как высокий коэффициент битовых ошибок (BER) или потери пакетов. Эти проблемы возникают особенно часто при беспроводной аудиосвязи. В результате качество связи может падать и становиться очень плохим. Если эти ошибки возникают из-за проблем, связанных в целом с работой сети, а не с одним конкретным каналом связи, даже повторный набор не поможет установить вызов с более высоким качеством. Однако вызов может быть важным, как, например, экстренный вызов.
Следовательно, поставщики услуг связи должны предложить хорошее решение для сохранения аудиосвязи даже в случае серьезных проблем в работе сети.
Сохранение связи с согласованными и установленными кодеками и/или несущими каналами может быть невозможным из-за плохой полосы пропускания, высокой задержки пакетов, слишком больших потерь пакетов или высокого BER.
Согласно документу US 7,617,106 B2, для того, чтобы проверить корректность преобразования речи в текст (STT), преобразованный текст снова преобразуется в речь. Как первоначальная речь, так и речь, созданная из представления текста, воспроизводится затем через стереогарнитуру. Контрольный редактор (который в данном случае представляет собой контрольного слушателя) может легко найти различия между первоначальной и преобразованной речью. В документе US 7,697,551 B2 предложено соединить между собой телефон и систему мгновенной передачи текстовых сообщений (IM) через определенную систему. Эта система преобразует текст IM в речь и затем речь обратно в текст IM. В документе US 2002/123892 A1 раскрыта встроенная система для преобразования речи в текст, которая представляется на интерфейсе пользователю. В случае ошибки пользователь выдает в систему указание об ошибке неправильного распознавания. В свою очередь, ввод аудио наряду со ссылкой на модель общеупотребительных слов передается в процесс обучения. Согласно документу CN 201440733 U изображение языка жестов захватывается камерой устройства мобильной связи. Дорожка видеозаписи создается из изображений и преобразуется в неопределенную текстовую информацию. Этот текст дополнительно улучшается с помощью параметров грамматики и словосочетаний. В документе JP 2006005440 A показано, что в случае нахождения в шумной окружающей среде камера мобильного телефона захватывает картинки движения губ и передает их. На приемной стороне эти картинки отображаются в виде движущихся изображений. В качестве альтернативы, передаются только параметры движения губ. Согласно документу US 2005/049868 A1 слова или фразы передаются в приложение преобразования текста в речь. Затем созданная речь передается в один или более механизмов преобразования речи в текст. Полученным словам или фразам назначается уровень доверительной вероятности.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Проблему, упомянутую выше, можно решить с помощью способа по п. 1 формулы изобретения. Преимущественные варианты осуществления изобретения представляют собой предмет изобретения зависимых пунктов формулы изобретения.
Согласно изобретению способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи содержит по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется (переменным) качеством обслуживания, содержит следующие этапы, на которых: контролируют качество обслуживания канала полезной нагрузки, прерывают отправку речи с отправляющей стороны по каналу полезной нагрузки, при этом удерживая по меньшей мере канал сигнализации канала связи в случае, если качество обслуживания канала полезной нагрузки ниже заданного порогового значения. Другими словами, способ предусматривает, что отправка аудиоданных останавливается без разрыва канала связи, то есть поддерживается по меньшей мере часть сигнализации канала связи. Подразумевается, что это прерывание отправки речевых данных (которые кратко называются "речью") можно выполнить, поддерживая и "полноценный" канал связи, то есть также его канал полезной нагрузки. Вместо передачи речи от отправителя на приемную сторону речь преобразуется в текст и отправляется в виде текстовых данных на приемную сторону. Если не указано иное пользователем или центром управления способа связи, речь, произведенная на приемной стороне, будет преобразовываться в текст и отправляться на (бывшую) отправляющую сторону, которой теперь является приемная сторона. Другими словами, после переключения на передачу только текстовых данных, речь на соответствующей отправляющей стороне преобразуется в текст и передается на соответствующую приемную сторону.
Как объяснено выше, используя способ согласно настоящему изобретению, можно сохранить вызов даже в условиях плохого качества обслуживания.
Согласно одному аспекту изобретения передача текстовых данных происходит по каналу полезной нагрузки.
Настоящее изобретение основано на рассуждении о том, что полосы пропускания перегруженного канала связи может все еще быть достаточно для того, чтобы осуществлять связь/передавать необходимую информацию в виде текстовых данных и избежать потоковой передачи аудио, чтобы можно было использовать канал с низким качеством обслуживания или полосой пропускания. Качество обслуживания можно определить с помощью существующей матрицы всех типов связи. Качество обслуживания речевого потока в канале полезной нагрузки или в канале транспортного протокола реального времени (RTP) можно обнаружить, в частности, следующим образом:
1) Пакеты RTP (которые транспортируются в IP-пакетах протокола передачи дейтаграмм пользователя (UDP)) в потоке нумеруются последовательно. Потерю пакетов можно легко обнаружить в случае, когда отсутствует/отсутствуют один или более пакетов. Можно также обнаружить пакеты, которые остаются за пределами последовательности. Это может произойти тогда, когда пакеты IP получают различные маршруты в место назначения.
2) Пакеты с битовой ошибкой свидетельствуют о плохих пакетах. Хотя поток RTP может иметь не механизм обнаружения битовых ошибок, а только некоторые кодировки, полезные нагрузки RTP имеют возможность обнаружения битовых ошибок (согласно RFC 4867). В этом контексте можно использовать кодеки типа G.722 и кодек AMR типа.
3) Задержку пакета и буфер фазового дрожания, установленный в приемниках, можно также использовать для обнаружения плохого качества передачи. Интервал для передачи пакета RTP определяется на основании определенного/используемого кодека. Так как в течение периода передачи пакеты имеют задержку, обычно выделенный буфер используется для буферизации новых пакетов и сглаживания фазового дрожания при получении пакетов. Этот буфер приводит к отсроченному воспроизведению потока. Так как человек на приемной стороне не видит передатчик, допускается некоторая величина задержки (которая также называется "запаздывание"). Однако размер этого буфера является ограниченным, и когда прибытие пакетов задерживается более чем на размер буфера, приемная сторона будет затем распознавать паузы в речи. Отставание буфера фазового дрожания может также представлять собой индикацию плохого качества речи (качества обслуживания).
4) Анализ аудио после восстановления потока можно также использовать для обнаружения плохого качества аудио. На основании резких изменений аудио можно обнаружить нерегулярности.
Преимущество соответствующего приемника состоит в том, что способ согласно настоящему изобретению содержит этап преобразования принятого текста обратно в речь. В этом случае пользователи, участвующие в телефонном вызове или аудиосвязи, могут продолжить свое общение на устной основе, им не нужно читать переданные тексты, которые были ранее преобразованы из речи в текст. Конечно, возможно, что соответствующие пользователи на своем конце могут заставить систему продолжать отображать текст, передаваемый каналом связи, вместо того, чтобы повторно преобразовывать текст в речь.
В случае если качество обслуживания канала полезной нагрузки непрерывно контролируется, преимущественным может быть переключение обратно на передачу речи по удерживаемому каналу полезной нагрузки сразу после того, как будет обнаружено достаточное качество обслуживания, для того чтобы повторно установить "нормальную" аудиосвязь или телефонный вызов.
Преимущественным может быть то, что аварийное сообщение отправляется на соответствующую приемную сторону сразу, как только прерывается отправка речи, и вместо этого передаются текстовые данные, полученные в результате преобразования речи в текст. Это позволяет помочь соответствующему приемнику подготовиться к предстоящему изменению текущей связи.
В случае если текущая аудиосвязь шифруется с использованием определенного ключа и заданного алгоритма, преимущественным является также использование того же самого ключа и того же самого алгоритма для шифрования переданного текста. Таким образом, статус безопасного соединения можно поддерживать, несмотря на возникновение изменения на передачу только текстовых данных.
Согласно одному аспекту настоящего изобретения для передачи текста можно использовать только канал сигнализации. Тем самым можно исключить канал полезной нагрузки из текущего канала связи, например, в случае, когда качество обслуживания (качество передачи) становится слишком низким, или для того, чтобы сократить расходы на использование канала полезной нагрузки. В этом случае данные могут быть представлены в любом формате, таком как RAW, XML или другие форматы. Однако партнеру по связи должен быть передан сигнал о том, что будут поступать другие данные вместо ранее установленных/согласованных, и какой тип и формат текста будут поступать.
Согласно дополнительному аспекту изобретения этап обнаружения языка речи может быть включен для того, чтобы преобразовать речь в текст соответствующего языка. Так как технология преобразования речи в текст является достаточно продвинутой, это решение можно также использовать для настоящего изобретения. В случае если STT не может обнаружить язык, используемый язык должен быть указан исходя из настройки устройства связи на том конце текущей связи, на котором было инициировано изменение на передачу текста вместо речи.
Для того чтобы улучшить обработку, преимущественным является случай, когда предстоящее изменение с передачи речи на передачу текста, стороной, которая является отправителем в данный момент времени, согласовано в этот момент времени с другой участвующей стороной, например с приемником. При согласовании переключения на текст отправитель может также указать, какой язык по умолчанию используется для передачи текста.
Некоторые решения STT и TTS (преобразование текста в речь) позволяют пользователям определить дополнительные параметры, такие как категория типа голоса и предварительно определенный признак голоса, который должен использоваться в TTS на приемной стороне. Например, отправитель может указать в своей текстовой полезной нагрузке, что язык представляет собой американский английский язык и "голос=Майк". В некоторых решениях TTS предшествующего уровня техники используются эти предварительно определенные признаки голоса типа Майка (для лиц мужского пола) или Мэри (для лиц женского пола). Приемник может принять такой выбор или отклонить, делая свой собственный выбор или используя значение по умолчанию.
Чтобы облегчить процесс преобразования текста в речь на приемной стороне, на соответствующей отправляющей стороне предпочтительно использовать этап преобразования речи в фонетический тип текста.
Согласно дополнительному аспекту настоящего изобретения пользователи могут по требованию заставить систему связи переключиться с передачи речи на передачу текста путем ввода соответствующей команды. Например, для передачи заданного сообщения пользователь может захотеть использовать голос, который отличается от своего собственного голоса. Другим примером является уменьшение действующих фоновых помех, которое может быть получено путем переключения на передачу текста. Это хорошо работает в том случае, если устройство связи является достаточно продвинутым для распознавания соответствующей речи пользователя и оптимального преобразования ее в текст, после чего выходной сигнал будет увеличивать ясность на приемной стороне.
Проблема, упомянутая выше, решается также с помощью долговременного компьютерно-читаемого носителя, на котором хранится соответствующее приложение, которое позволяет выполнить способ, как описано выше. Подразумевается, что приложение должно быть разработано таким образом, чтобы его мог исполнить процессор соответствующего устройства связи.
Вышеупомянутая проблема также решается с помощью компьютерной программы или компьютерного программного продукта для процессора устройства связи, причем программа предназначена для выполнения способа, как описано выше.
Согласно дополнительному аспекту настоящего изобретения вышеупомянутую задачу можно также решить с помощью системы связи, которая содержит первое устройство связи, второе устройство связи, по меньшей мере один канал связи для установления соединения с первым устройством связи с помощью второго устройства связи и процессор для управления связью между первым устройством связи и вторым устройством связи таким образом, чтобы можно было выполнить способ, как описано выше. Первое и второе устройства связи могут представлять собой, например, настольный телефон, PDA, смартфон или компьютер, оборудованный микрофоном и подсоединенный к телефонной сети.
Подразумевается, что система связи согласно настоящему изобретению может содержать любой из признаков, которые описаны в связи со способом согласно настоящему изобретению, а также любое преимущество или особенность, которые описаны выше по отношению к способу, могут также присутствовать в системе.
Преимущество системы связи может состоять в том, что она дополнительно содержит средство обнаружения языка, предназначенное для обнаружения языка речи и преобразования ее в текст на соответствующем языке. Языки, используемые двумя пользователями на отправляющей стороне и на приемной стороне, необязательно должны быть одинаковыми, поэтому каждый пользователь может использовать, например, свой родной язык, который будет затем преобразовываться в соответствующий текст на этом же языке.
При отсутствии согласования языка абонент на приемной стороне может проигнорировать сообщение в том случае, если он не может понять указанный язык с отправляющей стороны. Кроме того, один пользователь может обратить внимание на отсутствие правильной связи, что может привести к молчанию. В этом случае соответствующий пользователь может продолжить связь/вызов, завершить вызов или просто передать сообщение о проблеме связи на другую сторону, говоря об этом факте в микрофон.
Если пользователь на приемной стороне не может обработать TTS в общепринятом или в текущем формате, соответствующий пользователь может проигнорировать этот факт или попытаться сообщить о проблеме другой стороне.
Как показано выше, переключение на передачу текста вместо речи происходит при выявлении того, что качество обслуживания является недостаточным для поддержания аудиосвязи без изменения.
Предпочтительные варианты осуществления настоящего изобретения показаны на чертеже в качестве примера, который не следует рассматривать ограничительным образом.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 изображает один возможный вариант осуществления системы связи согласно изобретению, в которой можно выполнить первый вариант осуществления способа согласно настоящему изобретению; и
Фиг. 2 изображает такую же систему связи, как и на фиг. 1, и показывает, как можно выполнить второй вариант осуществления способа согласно настоящему изобретению.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Как показано на фиг. 1, система 20 связи согласно изобретению содержит первое устройство А связи, второе устройство B связи и сеть 10 связи, с помощью которой два устройства А, B связи могут устанавливать соединения друг с другом. Сеть 10 связи может представлять собой коммутируемую телефонную сеть общего пользования (PSTN), сеть мобильной связи или любую другую подходящую сеть. В качестве одного компонента сети 10 связи представлен коммутатор 28. В качестве первого и второго устройств А, B связи можно использовать мобильные телефоны, смартфоны, настольные телефоны или аналогичные устройства. В качестве примера показаны две сигнальные линии или каналы 33 и 34, с помощью которых два устройства А и B связи, соответственно, могут устанавливать связь друг с другом. Такую связь можно установить с помощью канала 36 полезной нагрузки, который может также называться каналом RTP или несущим каналом.
Способ по настоящему изобретению можно реализовать с помощью предназначенной для этого компьютерной программы 52 или компьютерного программного продукта, который может предписать процессору 40 выполнять способ согласно настоящему изобретению. Процессор 40 изображен выполненным в первом и втором устройствах А и B связи. Между тем, в некоторых случаях, например, он может быть выполнен в коммутаторе 28 или в центре управления (не показан). Другими словами, способ согласно настоящему изобретению является компьютерно-реализуемым. В качестве альтернативы, способ можно реализовать также с помощью аппаратных средств. Компьютерная программа 52 символически изображена как хранящаяся на компьютерно-читаемом носителе 50, который может представлять собой флеш-накопитель, карту памяти, твердотельный накопитель или "обычный" жесткий диск, которые являются только примерами такого долговременного компьютерно-читаемого носителя.
Для описания способа согласно настоящему изобретению можно предположить, что разговор между первым устройством А связи и вторым устройством B связи был установлен с использованием канала 30 связи, который содержит канал 33, 34 сигнализации и канал 36 полезной нагрузки. В определенный момент времени первое устройство А связи обнаруживает, что качество обслуживания в канале 26 полезной нагрузки канала 30 связи стало настолько плохим, что недостаточно поддерживать аудиосвязь без выполнения изменения.
В целях описания способа согласно настоящему изобретению сначала первое устройство А связи образует отправляющую сторону 22 связи, и второе устройство B связи образует приемную сторону 24 связи.
Способ согласно настоящему изобретению описан с использованием протокола инициирования сеанса (SIP). Подразумевается, что вместо этого протокола можно использовать любой другой протокол связи, и что изобретение не ограничивается использованием SIP. С учетом этой ситуации первое устройство А связи отправляет сообщение приглашения через сигнальную линию 33 в коммутатор 28. В этом сообщении приглашения протокол описания сеанса (SDP) определен как неактивный. Затем коммутатор 28 отправляет сообщение приглашения во второе устройство B связи с SDP, определенным как неактивный. Второе устройство B связи отправляет обратно ответное сообщение в коммутатор 28 со все еще неактивным SDP. Коммутатор 28 отправляет так называемое сообщение 200OK со все еще неактивным SDP обратно в первое устройство А связи. Первое устройство А связи выполняет преобразование речи в текст (STT) речевых данных, записанных с помощью микрофона 21, который связан с первым устройством А связи. В качестве примера, предложение на немецком языке "Wie stark ist der Sturm?" (Насколько сильна буря?) размещается в сигнальной линии 33 в качестве текстовой информации вместе с указанием немецкого языка, используемого системой. То же самое сообщение размещается коммутатором 28 в сигнальной линии 34 и отправляется во второе устройство B связи. После приема на приемной стороне 24 (второе устройство B связи) выполняется преобразование текста в речь (TTS) этого сообщения, и результат выводится через громкоговоритель 23, связанный со вторым устройством B связи. Пользователь, использующий второе устройство B связи, может ответить на вопрос, говоря в свой микрофон (не показан): "The wind speed is 250 miles per hour" ("Скорость ветра равна 250 миль в час"). Эти речевые данные, поступающие из второго устройства B связи, которым теперь является отправляющая сторона 22, STT преобразуются, и данные размещаются в сообщении 200OK (вместе с указанием на то, что языком является американский английский язык) и отправляются в коммутатор 28. Коммутатор 28 передает это сообщение в первое устройство А связи, которое является теперь приемной стороной 24, где сообщение является преобразованным с помощью TTS и выводится через громкоговоритель (не показан).
Такого типа связь можно продолжать до тех пор, пока она будет желательна или необходима, или вплоть до окончания соответствующей связи. Следует отметить, что в данном случае отсутствует согласование языка. Если приемная сторона 24 не может интерпретировать указанный язык с отправляющей стороны 22, то приемная сторона 24 может или должна игнорировать соответствующие сообщения. Пользователь на приемной стороне 24 может заметить отсутствие правильной связи (например, когда он слышит только молчание), и от пользователя зависит, продолжит он или завершит вызов. То же самое применимо к пользователю на отправляющей стороне 22.
На фиг. 2 показана одинаковая окружающая обстановка системы 20 связи, как и на фиг. 1. Однако, как можно видеть на фиг. 2, выполняемый способ отличается от способа, показанного на фиг. 1. Хотя, согласно фиг. 1, данные (речевые данные, преобразованные с помощью STT в текстовые данные) размещаются в канале 33, 34 сигнализации, вместо этого согласно фиг. 2 используется канал 36 полезной нагрузки. При выявлении неприемлемого качества обслуживания в канале 30 связи, первое устройство А связи отправляет сообщение приглашения в коммутатор 28 со спецификацией: SDP: аудиокодек: неактивный, код TTS: активный, язык: немецкий. То же сообщение передается с помощью коммутатора 28 во второе устройство B связи. Второе устройство B связи отвечает путем отправки ответного сообщения со спецификацией: SDP: аудиокодек: неактивный, код TTS: активный, язык: английский. Это означает, что второе устройство B связи, которым теперь является отправляющая сторона 22, собирается использовать в качестве языка американский английский. После получения ответного сообщения коммутатор 28 отправляет сообщение 200OK с той же самой спецификацией в первое устройство А связи. Таким образом, два устройства А, B связи осуществляют согласование использования текстовых данных, преобразованных из речевых данных, и использования немецкого языка и американского английского языка для двух устройств 22 и 24 связи соответственно. После этого поток RTP может передавать вопрос-ответ туда и обратно по каналу 36 полезной нагрузки, например, вопрос "Wie stark ist der Sturm?" (Насколько сильна буря?) и ответ "The wind speed is 250 miles per hour" ("Скорость ветра равна 250 миль в час"), как известно из приведенного выше описания. Как уже было описано, соответствующие текстовые данные будут затем преобразовываться с помощью TTS на соответствующих приемных сторонах и выводиться на соответствующие громкоговорители.
В вышеописанном способе можно определить новый тип полезной нагрузки в RTP. Список примеров типов полезной нагрузки можно найти на следующих сайтах:
http://en.wikipedia.org/wiki/Packet_loss
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1559904&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D1559904
http://vonage.nmhoy.net/packetloss.html
http://pe.org.pl/articles/2011/10/78.pdf
http://voip.netlab.uky.edu/~fei/teaching/cs671/slides/rtp.pdf
Если согласование включено в протокол, можно применять стандартные процедуры повторного согласования, предусмотренного в протоколе. Согласно одному аспекту изобретения канал 36 полезной нагрузки можно постоянно контролировать для того, чтобы обнаружить, достигло ли снова качество обслуживания приемлемого уровня для того, чтобы переключиться снова на нормальную передачу речевых сообщений вместо передачи текстовых сообщений.
Как можно увидеть из приведенного выше описания, преобразование текста в речь может быть опциональным. Другими словами, пользователь может настроить свое устройство на отмену преобразования из текста в речь.
Дополнительный аспект настоящего изобретения состоит в том, что переключение на передачу текстовых данных может быть также вызвано по требованию пользователем. Например, пользователь может захотеть использовать речь, которая отличается от своего собственного голоса, или разговору может помешать посторонний шум. В последнем случае, если устройство связи является достаточно продвинутым для того, чтобы распознавать речь пользователя и оптимальным образом преобразовывать ее в текст, преобразованный с помощью TTS выходной сигнал будет увеличивать ясность на соответствующей приемной стороне, поскольку шум был подавлен.
Хотя изобретение было описано по отношению к ограниченному числу вариантов осуществления, их следует истолковывать не как ограничивающие объем настоящего изобретения, а скорее как примеры некоторых возможных вариантов осуществления. Специалисты в данной области техники могут представить себе и другие возможные варианты, модификации и реализации, которые также находятся в пределах объема настоящего изобретения. Следует понимать, что некоторые отдельные признаки различных вариантов осуществления могут быть объединены друг с другом способами, которые отличаются от описанных. Это касается, например, типа устройств, используемых в системе связи, или типа сообщений, используемых для выполнения способа.
С другой стороны, специалистам в данной области техники должно быть очевидно, что изобретение можно осуществить на практике без некоторых конкретных деталей, представленных в данном документе. Кроме того, некоторые известные этапы или компоненты могут быть описаны только в общих чертах или даже опущены ради ясности иллюстрации.
Способ и система связи согласно настоящему изобретению могут относиться и могут использоваться в ISDN и VoIP или в любой другой подходящей окружающей среде, при этом не ограничиваясь ими.
Claims (21)
1. Способ поддержания аудиосвязи в перегруженном канале связи, который в текущий момент несет в себе передачу речи при аудиосвязи между отправляющей стороной и приемной стороной, причем канал связи содержит по меньшей мере один канал сигнализации и по меньшей мере один канал полезной нагрузки, который характеризуется качеством обслуживания, содержащий этапы, на которых:
контролируют качество обслуживания канала полезной нагрузки;
прерывают отправку речи с отправляющей стороны по каналу полезной нагрузки, при этом удерживая по меньшей мере канал сигнализации канала связи, если качество обслуживания канала полезной нагрузки ниже порогового значения;
преобразуют речь на соответствующей отправляющей стороне в текст; и
передают текст по удерживаемому каналу связи на соответствующую приемную сторону.
2. Способ по п. 1, дополнительно содержащий этап, на котором преобразуют принятый текст на соответствующей приемной стороне в речь.
3. Способ по п. 1, дополнительно содержащий этап, на котором возобновляют передачу речи по удерживаемому каналу полезной нагрузки после обнаружения достаточного качества обслуживания.
4. Способ по п. 1, дополнительно содержащий этап, на котором отправляют аварийное сообщение на приемную сторону при прерывании отправки речи с отправляющей стороны.
5. Способ по п. 1, в котором текущая аудиосвязь была зашифрована с использованием ключа и заданного алгоритма, причем способ дополнительно содержит этап, на котором шифруют текст с помощью того же самого ключа и того же самого алгоритма.
6. Способ по п. 1, дополнительно содержащий этап, на котором используют только канал сигнализации для передачи текста.
7. Способ по п. 1, дополнительно содержащий этап, на котором обнаруживают язык речи и преобразуют его в текст на соответствующем языке.
8. Способ по п. 1, дополнительно содержащий этап, на котором согласуют предстоящее изменение с передачи речи на передачу текста с приемной стороной.
9. Способ по п. 1, дополнительно содержащий этап, на котором преобразуют речь на соответствующей отправляющей стороне в фонетический тип текста.
10. Способ по п. 1, дополнительно содержащий этап, на котором принимают пользовательский ввод для того, чтобы выполнить по требованию пользователя этапы прерывания отправки речи, преобразования речи в текст и передачи текста.
11. Компьютерно-читаемый носитель, содержащий сохраненное на нем приложение, причем приложение определяет инструкции, исполняемые процессором устройства связи для выполнения способа по меньшей мере по одному из пп. 1-10.
12. Система связи, содержащая:
первое устройство связи,
второе устройство связи,
по меньшей мере один канал связи для соединения первого устройства связи со вторым устройством связи, и
процессор для управления связью между первым устройством связи и вторым устройством связи, причем процессор предназначен для выполнения способа по меньшей мере по одному из пп. 1-10.
13. Система связи по п. 12, дополнительно содержащая средство обнаружения языка для обнаружения языка речи и преобразования ее в текст на соответствующем языке.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2013/057261 WO2015030769A1 (en) | 2013-08-29 | 2013-08-29 | Maintaining audio communication in a congested communication channel |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2016111281A RU2016111281A (ru) | 2017-10-02 |
RU2658602C2 true RU2658602C2 (ru) | 2018-06-22 |
Family
ID=49170888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016111281A RU2658602C2 (ru) | 2013-08-29 | 2013-08-29 | Поддержание аудиосвязи в перегруженном канале связи |
Country Status (9)
Country | Link |
---|---|
US (1) | US9712666B2 (ru) |
EP (1) | EP3039803B1 (ru) |
JP (1) | JP6355741B2 (ru) |
KR (1) | KR101787594B1 (ru) |
CN (1) | CN105493425B (ru) |
AR (1) | AR097465A1 (ru) |
RU (1) | RU2658602C2 (ru) |
TW (1) | TWI590620B (ru) |
WO (1) | WO2015030769A1 (ru) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6562844B2 (ja) * | 2016-01-08 | 2019-08-21 | 三菱電機株式会社 | 車載端末、情報サービスセンタシステム、および車載端末の接続先選択方法 |
US11495232B2 (en) | 2017-04-20 | 2022-11-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Handling of poor audio quality in a terminal device |
US10565994B2 (en) | 2017-11-30 | 2020-02-18 | General Electric Company | Intelligent human-machine conversation framework with speech-to-text and text-to-speech |
US11234243B2 (en) * | 2019-08-09 | 2022-01-25 | Samsung Electronics Co., Ltd | Method and system for transitioning station to uplink multi-user disable mode and uplink multi-user enable mode |
CN111294346B (zh) * | 2020-01-22 | 2022-09-13 | 深圳国人无线通信有限公司 | VoLTE语音业务优化方法与优化系统 |
US11580954B2 (en) * | 2021-02-03 | 2023-02-14 | Qualcomm Incorporated | Systems and methods of handling speech audio stream interruptions |
US20220230643A1 (en) * | 2022-04-01 | 2022-07-21 | Intel Corporation | Technologies for enhancing audio quality during low-quality connection conditions |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6278688B1 (en) * | 1997-03-18 | 2001-08-21 | Nokia Telecommunications Oy | Procedure for ensuring the operation of signalling channels in a V5 interface |
US20040192396A1 (en) * | 2002-09-26 | 2004-09-30 | Jean-Philippe Fournier | Method of accessing a service via a mobile telephone network taking account of "data" link quality |
WO2009111884A1 (en) * | 2008-03-12 | 2009-09-17 | E-Lane Systems Inc. | Speech understanding method and system |
RU2450344C2 (ru) * | 2007-02-16 | 2012-05-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Устройство и метод формирования потока данных и устройство и метод считывания потока данных |
US20130177143A1 (en) * | 2012-01-09 | 2013-07-11 | Comcast Cable Communications, Llc | Voice Transcription |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW298593B (ru) | 1993-02-12 | 1997-02-21 | Hoechst Ag | |
US5805771A (en) | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
US6754627B2 (en) | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
US7080248B1 (en) | 2001-04-23 | 2006-07-18 | At&T Corp. | System providing dynamic quality of service signaling messages in a cable telephony network |
JP3938033B2 (ja) * | 2002-12-13 | 2007-06-27 | 株式会社日立製作所 | 通信端末およびそれを用いたシステム |
US20050049868A1 (en) | 2003-08-25 | 2005-03-03 | Bellsouth Intellectual Property Corporation | Speech recognition error identification method and system |
DE602004018385D1 (de) | 2003-11-05 | 2009-01-22 | Philips Intellectual Property | Fehlerdetektion für sprach-zu-text-transkriptionssysteme |
TW200539668A (en) | 2004-05-19 | 2005-12-01 | Meng-Song Hu | Voice mobile secretary system and information receiving and processing method thereof |
JP2006005440A (ja) | 2004-06-15 | 2006-01-05 | Sony Corp | 通話送受信方法および通話端末 |
JP5026964B2 (ja) * | 2004-07-09 | 2012-09-19 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチメディア通信システムにおいて異なったサービスを提供する方法および装置 |
CN100372348C (zh) * | 2004-07-28 | 2008-02-27 | 沈逸林 | 网络媒体话机终端的应用和通信方法 |
CN100423510C (zh) * | 2004-09-17 | 2008-10-01 | 大唐高鸿数据网络技术股份有限公司 | 监控rtp/rtcp流以提高多媒体通信质量的方法 |
ZA200507606B (en) * | 2004-10-22 | 2007-05-30 | Microsoft Corp | Distributed speech service |
US7565357B2 (en) * | 2004-12-30 | 2009-07-21 | Alcatel Lucent | Multi-sensor communication system |
US7269561B2 (en) * | 2005-04-19 | 2007-09-11 | Motorola, Inc. | Bandwidth efficient digital voice communication system and method |
US20080059200A1 (en) * | 2006-08-22 | 2008-03-06 | Accenture Global Services Gmbh | Multi-Lingual Telephonic Service |
US7697551B2 (en) | 2006-09-01 | 2010-04-13 | Nuance Communications, Inc. | System for instant message to telephone speech and back |
JP5176302B2 (ja) * | 2006-09-28 | 2013-04-03 | 富士通株式会社 | 通信メディア自動変換システム |
US8213580B2 (en) | 2007-10-25 | 2012-07-03 | International Business Machines Corporation | Automated message conversion based on availability of bandwidth |
JP4958174B2 (ja) * | 2007-12-28 | 2012-06-20 | 株式会社Kddi研究所 | グループ通信におけるメディア切替方法、セッション管理サーバ、端末及びプログラム |
CN201440733U (zh) | 2009-07-31 | 2010-04-21 | 深圳市同洲电子股份有限公司 | 一种适用于语言障碍人士的移动通话终端 |
JP5691586B2 (ja) * | 2010-09-28 | 2015-04-01 | 沖電気工業株式会社 | 秘話通信システム、装置及びプログラム |
CN102710539A (zh) * | 2012-05-02 | 2012-10-03 | 中兴通讯股份有限公司 | 语音信息传送方法及装置 |
KR101907406B1 (ko) * | 2012-05-08 | 2018-10-12 | 삼성전자 주식회사 | 통신 서비스 운용 방법 및 시스템 |
US20140278402A1 (en) * | 2013-03-14 | 2014-09-18 | Kent S. Charugundla | Automatic Channel Selective Transcription Engine |
-
2013
- 2013-08-29 JP JP2016538902A patent/JP6355741B2/ja not_active Expired - Fee Related
- 2013-08-29 WO PCT/US2013/057261 patent/WO2015030769A1/en active Application Filing
- 2013-08-29 EP EP13762650.3A patent/EP3039803B1/en not_active Not-in-force
- 2013-08-29 KR KR1020167008123A patent/KR101787594B1/ko active IP Right Grant
- 2013-08-29 RU RU2016111281A patent/RU2658602C2/ru active
- 2013-08-29 US US14/911,521 patent/US9712666B2/en active Active
- 2013-08-29 CN CN201380079235.8A patent/CN105493425B/zh not_active Expired - Fee Related
-
2014
- 2014-07-31 TW TW103126196A patent/TWI590620B/zh not_active IP Right Cessation
- 2014-08-27 AR ARP140103207A patent/AR097465A1/es unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6278688B1 (en) * | 1997-03-18 | 2001-08-21 | Nokia Telecommunications Oy | Procedure for ensuring the operation of signalling channels in a V5 interface |
US20040192396A1 (en) * | 2002-09-26 | 2004-09-30 | Jean-Philippe Fournier | Method of accessing a service via a mobile telephone network taking account of "data" link quality |
RU2450344C2 (ru) * | 2007-02-16 | 2012-05-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Устройство и метод формирования потока данных и устройство и метод считывания потока данных |
WO2009111884A1 (en) * | 2008-03-12 | 2009-09-17 | E-Lane Systems Inc. | Speech understanding method and system |
US20130177143A1 (en) * | 2012-01-09 | 2013-07-11 | Comcast Cable Communications, Llc | Voice Transcription |
Also Published As
Publication number | Publication date |
---|---|
KR20160048912A (ko) | 2016-05-04 |
TW201517565A (zh) | 2015-05-01 |
JP2016529839A (ja) | 2016-09-23 |
AR097465A1 (es) | 2016-03-16 |
EP3039803A1 (en) | 2016-07-06 |
CN105493425B (zh) | 2019-04-30 |
JP6355741B2 (ja) | 2018-07-11 |
WO2015030769A1 (en) | 2015-03-05 |
US9712666B2 (en) | 2017-07-18 |
RU2016111281A (ru) | 2017-10-02 |
KR101787594B1 (ko) | 2017-10-18 |
US20160198040A1 (en) | 2016-07-07 |
TWI590620B (zh) | 2017-07-01 |
CN105493425A (zh) | 2016-04-13 |
EP3039803B1 (en) | 2017-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2658602C2 (ru) | Поддержание аудиосвязи в перегруженном канале связи | |
US10069965B2 (en) | Maintaining audio communication in a congested communication channel | |
JP5112447B2 (ja) | 通信ネットワーク環境におけるアナウンスメディアの処理 | |
JP5528811B2 (ja) | 効率的なメディアの扱いのための受信機の動作及び実装 | |
JP5852104B2 (ja) | 帯域内信号を使用するコーデック展開 | |
JP2006222822A (ja) | ハンドオーバシステム | |
US20170178630A1 (en) | Sending a transcript of a voice conversation during telecommunication | |
US9826072B1 (en) | Network-terminal interoperation using compatible payloads | |
US8116442B2 (en) | Method and apparatus for audio conference bridge initiated remote device muting | |
US11563784B2 (en) | Caption assisted calling to maintain connection in challenging network conditions | |
CA2922654C (en) | Methods and apparatus for conducting internet protocol telephony communications | |
US7821957B2 (en) | Acknowledgment of media waveforms between telecommunications endpoints | |
CN102100057B (zh) | 数字电信系统、用于管理此类系统的方法 | |
Pearce et al. | An architecture for seamless access to distributed multimodal services. | |
JP2014116677A (ja) | メディア通信装置及びメディア通信システム | |
KR20080065401A (ko) | 화상 서비스 및 브이오아이피를 이용한 통화 서비스 동시제공 방법 및 장치 |