RU2390958C2 - Способ и сервер для обеспечения мультимодального диалога - Google Patents
Способ и сервер для обеспечения мультимодального диалога Download PDFInfo
- Publication number
- RU2390958C2 RU2390958C2 RU2006102661/09A RU2006102661A RU2390958C2 RU 2390958 C2 RU2390958 C2 RU 2390958C2 RU 2006102661/09 A RU2006102661/09 A RU 2006102661/09A RU 2006102661 A RU2006102661 A RU 2006102661A RU 2390958 C2 RU2390958 C2 RU 2390958C2
- Authority
- RU
- Russia
- Prior art keywords
- multimodal
- client
- proxy server
- resource
- standard
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/565—Conversion or adaptation of application format or content
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Изобретение относится к системам передачи данных. Технический результат заключается в усовершенствовании установления мультимодального диалога. Изобретение описывает способ обеспечения мультимодального диалога между мультимодальным приложением (5) и пользователем (6), осуществляющим связь с мультимодальным приложением (5) через клиент (4), выполненный с возможностью обмена документами и представления документов (7), закодированных в стандартном или расширенном языке гипертекстовой разметки. Изобретение дополнительно описывает прокси-сервер (2) для осуществления этого способа. Мультимодальный диалог между мультимодальным приложением (5) и пользователем (6) устанавливается через прокси-сервер (2), взаимодействующий с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки. Прокси-сервер (2) извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге. Прокси-сервер (2) компонует мультимодальное взаимодействие с пользователем (6) на основе взаимодействий с клиентом (6), основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33). 2 н. и 8 з.п. ф-лы, 2 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится к способу обеспечения мультимодального диалога между мультимодальным приложением и пользователем, осуществляющим связь с мультимодальным приложением через клиент, выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки. Более того, изобретение относится к прокси-серверу (специализированному серверу-посреднику) для поддержки мультимодальных диалогов между мультимодальными приложениями и пользователями.
Предшествующий уровень техники
В последние годы компьютеры стали снабжаться множеством устройств ввода разных типов, таких как клавиатура, мышь, сенсорная панель, сканер изображений, видеокамера, перо и микрофон, для обеспечения возможности ввода различных информационных элементов в различных формах. Также предусмотрено множество разных типов устройств вывода, такие как разнообразные устройства отображения и громкоговоритель, для вывода различных информационных элементов в различных формах, таких как разные графические формы или разговорный язык. Дополнительно усовершенствованные терминалы связи оборудованы разными типами устройств ввода и вывода, которые позволяют вводить и выводить информацию в различных формах.
Например, JP 101 07877 A описывает мультимодальный телефонный аппарат, который использует и дисплей, и синтезированный голос для взаимодействия с пользователем.
Дополнительно мультимодальные средства просмотра (броузеры) расширяют функциональные возможности исходных броузеров с помощью дополнительных модулей, таких как мультимодальные подключаемые расширения, например, SALT или X+V (SALT =..., X+V =...). Но подобные мультимодальные броузеры требуют больших вычислений и ресурсов памяти и не выполняются на малых устройствах с ограниченными ресурсами, например мобильных устройствах или PDA (PDA = персональный цифровой ассистент).
Сущность изобретения
Задачей настоящего изобретения является предложение улучшенной мультимодальной системы, делающей возможным мультимодальный диалог между мультимодальным приложением и пользователем.
Задача настоящего изобретения решается посредством способа обеспечения мультимодального диалога между мультимодальным приложением и пользователем, осуществляющим связь с мультимодальным приложением через клиент, выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом способ содержит этапы, на которых: устанавливают мультимодальный диалог между мультимодальным приложением и пользователем через прокси-сервер, взаимодействующий с клиентом посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки; извлекают с помощью прокси-сервера по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге; и компонуют с помощью прокси-сервера мультимодальное взаимодействие с пользователем на основе взаимодействий с клиентом, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов. Задача настоящего изобретения также решается с помощью прокси-сервера для поддержки мультимодальных диалогов между мультимодальными приложениями и пользователями, осуществляющими связь с мультимодальным приложением через соответствующие клиенты, выполненные с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом прокси-сервер содержит менеджер (средство управления) диалогов и компоновщик. Менеджер диалогов устанавливает мультимодальный диалог между мультимодальным приложением и пользователем через прокси-сервер, взаимодействует с клиентом посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге. Компоновщик компонует мультимодальное взаимодействие с пользователем на основе взаимодействий с клиентом, основанных на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов.
Мультимодальный прокси-сервер устанавливает мультимодальные взаимодействия на основе стандартной технологии броузера, например, на многозвенных web-приложениях, основанных на броузере. Компоненты прокси-сервера осуществляют на стороне клиента управление и синхронизацию в отношении мультимодального диалога, которые не могут быть выполнены компонентами клиента. Эта архитектура объединяет высокую скорость выполнения с уменьшением требований к вычислительной мощности и памяти на стороне клиента. Эта архитектура поддерживает использование тонких клиентов. Дополнительно эта архитектура увеличивает гибкость и применимость мультимодальных приложений и функциональных возможностей, так как является достаточным оснастить клиент стандартными компонентами броузера, чтобы использовать этот клиент в контексте мультимодального диалога.
Дополнительно архитектура тонкого клиента превращает настольные/локальные приложения в среду с централизованной обработкой, управлением и поддержкой. Таким образом, изобретение увеличивает масштабируемость и обслуживаемость мультимодальной системы. Изобретение обеспечивает возможность как масштабирования при изменении потребностей бизнеса, так и приспособления к увеличению количества пользователей, объемов транзакций и архивов - и все это без ухудшения производительности. Дополнительно это гарантирует сосуществование с унаследованными приложениями.
Дополнительные преимущества достигаются с помощью вариантов осуществления изобретения, указанных в зависимых пунктах.
В соответствии с предпочтительным вариантом осуществления изобретения мультимодальная система содержит клиента со стандартным Интернет-броузером без дополнений, например, без специфических встраиваемых модулей, мультимодальный прокси-сервер, ответственный за управление мультимодальными сеансом и диалогом, и мультимодальный сервер, который содержит несколько ресурсных модулей, таких как модули распознавания речи, преобразования текста в речь и распознавания рукописного ввода. Прокси-сервер отправляет/получает сообщения к/от мультимодального сервера. Дополнительно он передает HTTP-запросы (HTTP = протокол передачи гипертекста) соответствующим приложениям и web-серверам. Прокси-сервер также генерирует JAVA-скрипты (программы-сценарии на языке JAVA) для встраивания обработки мультимодальных событий в HTML/XHTML-страницы (HTML = язык гипертекстовой разметки; XHTML = расширенный язык гипертекстовой разметки). Мультимодальный сервер содержит средства для установления RTP-соединений (RTP = протокол реального времени) с устройствами ввода/вывода клиента, например с микрофоном и громкоговорителем клиента. Мультимодальный диалог компонуется с помощью JAVA-скриптов. Мультимодальное взаимодействие может быть применено к HTML-элементам, таким как поля ввода текста, списки, кнопки, ссылки и так далее.
Предпочтительно клиент является мобильным устройством, например, мобильным телефоном в соответствии с GSM или UMTS стандартом (GSM = глобальная система мобильной связи; UMTS = универсальная мобильная телекоммуникационная система). Изобретение дает возможность такому мобильному устройству, оборудованному стандартным Интернет-броузером, поддерживать мультимодальное взаимодействие. Это имеет значительные преимущества: пользователь может выбрать в любое время предпочтительную модальность взаимодействия и не является привязанным к последовательности представления конкретного канала. Таким образом, взаимодействие становится персональным и повышает уровень восприятия пользователя.
В соответствии с предпочтительным вариантом осуществления изобретения прокси-сервер компонует упомянутые один или более запрошенных ресурсов в документ, представленный в стандартном или расширенном языке гипертекстовой разметки, и передает документ клиенту. Ресурс, переданный на сторону клиента с помощью такого механизма, поддерживает части мультимодального взаимодействия, которые не поддерживаются функциональными возможностями стандартного web-броузера. Дополнительные ресурсы модальности становятся доступными простым и эффективным способом.
Предпочтительно прокси-сервер создает скрипт, обеспечивающий ресурс модальности, и компонует скрипт в документ. Например, скрипт может инициировать вывод определенного голосового сообщения. Но также является возможным, что прокси-сервер создает скрипт для встраивания обработки мультимодального события в документ и компонует подобный скрипт в документ. Предпочтительно прокси-сервер дополнительно создает соответствующий обработчик ресурса, обеспечивающий для скрипта интерфейс с прокси-сервером. Обмен сообщениями осуществляется в соответствии со стандартным или расширенным языком гипертекстовой разметки между скриптом, расположенным на клиенте, и обработчиком ресурса, расположенным на прокси-сервере. Подобные сообщения используются для управления ресурсами, встроенными в скрипт, и для интерфейса с прокси-сервером, предоставленного для таких ресурсов с целью запрашивания и приема дополнительной информации.
В соответствии с дополнительным вариантом осуществления прокси-сервер извлекает ресурсный модуль в соответствии с запрошенной в мультимодальном диалоге модальностью. Предпочтительно мультимодальный сервер предоставляет набор ресурсных модулей, в частности модуль распознавания речи, модуль перевода текста в речь и модуль распознавания рукописного ввода.
Прокси-сервер инициализирует сеансы между клиентом и извлеченными ресурсными модулями. Дополнительно он компонует мультимодальное взаимодействие согласно инициализированным сеансам. Предпочтительно извлеченный ресурсный модуль осуществляет связь с ресурсами ввода/вывода клиента через одно или более RTP-соединений. Прокси-сервер создает обработчик ресурса для выбранного ресурсного модуля, который осуществляет связь через TCP/IP соединение с ресурсным модулем (TCP = протокол управления передачей; IP = межсетевой протокол).
В соответствии с предпочтительным вариантом осуществления прокси-сервер создает обработчик ресурса для выбранного ресурсного модуля. Этот обработчик ресурса обеспечивает интерфейс с прокси-сервером для скрипта, расположенного на клиенте, и дает возможность скрипту обмениваться информацией с извлеченным ресурсным модулем. Для скрипта, расположенного на клиенте, становится возможным управлять ресурсным модулем или получать информацию, введенную пользователем и обработанную ресурсным модулем. Обработчики ресурса предоставляют своего рода прикладной мультимодальный интерфейс для скриптов, расположенных на клиенте, что позволяет встраивать обработку мультимодальных событий в документы, кодированные в HTML/XHTML.
Перечень чертежей
Эти и другие признаки и преимущества изобретения могут быть лучше оценены по достоинству после прочтения приведенного ниже подробного описания предпочтительных в настоящее время иллюстративных вариантов осуществления, рассматриваемых совместно с прилагающимися чертежами, на которых:
Фиг.1 - блок-схема, показывающая мультимодальную систему с прокси-сервером в соответствии с изобретением.
Фиг.2 - функциональное представление мультимодальной системы с прокси-сервером в соответствии с изобретением.
Подробное описание изобретения
Фиг.1 показывает сети 11 и 12 связи, клиент 4, сервер 5 приложений, прокси-сервер 2 и мультимодальный сервер 3.
Клиент 4 является «тонким» клиентом, т.е. клиентом с пониженными вычислительными ресурсами и памятью. Предпочтительно клиент 4 является переносным устройством, например PDA (PDA = персональный цифровой ассистент) или интеллектуальным телефоном (смартфоном), например UMTS-телефоном с возможностями мультимодального ввода и вывода. Но также возможно, что клиент является телефоном с возможностью обработки и передачи данных, например сотовым GSM-телефоном с GPRS-возможностями (GPRS = служба пакетной радиосвязи общего назначения), переносным компьютером или обычным персональным компьютером.
Клиент 4 обеспечивает набор из двух или более различных модальностей для взаимодействия с пользователем 6.
Модальность описывает способ, которым информация предоставляется от клиента 4 пользователю 6 или от пользователя 6 клиенту 4. Например, информация может быть представлена в виде голосового сообщения, написанной на экране информации, пиктограммы или графического изображения на экране, нажатия определенной клавиши на клавиатуре, ввода рукописной команды, пером, мышью, голосовой команды, ввода командного слова или касания пиктограммы на сенсорной панели.
В качестве примера Фиг.1 показывает четыре различных типа взаимодействия с 81 по 84 между клиентом 4 и пользователем 6, каждое из которых соответствует отличающейся от других модальности.
Сеть 11 связи соединяет клиента 4 с прокси-сервером 2 и мультимодальным сервером 3. Дополнительно сеть 12 связи соединяет прокси-сервер 2 с сервером 5 приложений.
Сети 11 и 12 связи позволяют осуществлять обмен данными между упомянутыми выше компонентами, преимущественно на основе стека протоколов TCP/IP.
Например, прокси-сервер 2, мультимодальный сервер 3 и сервер 5 приложений соединены через IP-сеть, которая связана с сетью мобильной связи, играющей роль сети доступа для клиента 4 для доступа к этой IP-сети (IP = межсетевой протокол). В таком случае сеть 11 связи образована сетью мобильной связи, например сетью GSM или UMTS, и фиксированной сетью передачи данных, т.е. упомянутой выше IP-сетью. IP-сеть может состоять из множества физических сетей связи, например сетей ATM, MPLS или Ethernet (ATM = асинхронный режим передачи; MPLS = многопротокольная коммутация на основе меток), которые соединены через общий IP-протокол третьего уровня. Дополнительно клиент 4 и прокси-сервер 2/мультимодальный сервер 3 могут обмениваться данными через асинхронное соединение (например, через GPRS службу или через синхронное соединение через сеть мобильной связи).
Но также возможно, что клиент 4 является фиксированным терминалом или терминалом, соединенным с прокси-сервером 2 и мультимодальным сервером 3 через WLAN-интерфейс (WLAN = беспроводная локальная сеть). В таком случае и сеть 11 связи, и сеть 12 связи составлены упомянутой выше IP-сетью.
Сервер 5 приложений выполняет одно или более мультимодальных приложений, например, приложений, имеющих мультимодальные возможности. Например, такие приложения могут быть закодированы в мультимодальном языке разметки, например, с помощью HTML+, SALT или X+V. Если к таким приложениям обратился клиент, то они предоставляют мультимодальный пользовательский интерфейс пользователю соответствующего клиента.
Клиент 4 имеет один или несколько процессоров, исполняющих программное обеспечение, и различные устройства ввода/вывода, например устройства 42, 43, 44, и 45 ввода/вывода. Исполнение такого программного обеспечения процессором клиента 4 обеспечивает функциональные возможности стандартного web-броузера 41, выполненного с возможностью обмена документами и представления документов, закодированных в HTML или XHTML. Устройство 42 ввода/вывода является дисплеем, клавиатурой, мышью и сенсорной панелью, устройство 43 ввода/вывода является громкоговорителем, устройство 44 ввода/вывода является микрофоном и устройство 45 ввода/вывода является пером для предоставления возможности рукописного ввода.
Прокси-сервер 2 является IP-сервером, расположенным в IP-сети. Но также возможна реализация функциональных возможностей прокси-сервера 2 в сервере сетевого доступа, управляющем доступом клиента 4 в упомянутую выше IP-сеть.
Прокси-сервер 2 состоит из одного или нескольких соединенных между собой компьютеров, программной платформы и множества прикладных программ, выполняющихся на этой платформе. Функциональные возможности прокси-сервера 2 обеспечиваются выполнением этого программного обеспечения на основе системной платформы. С функциональной точки зрения прокси-сервер 2 предоставляет один или более мультимодальных модулей доступа, каждый из которых имеет базу 21 данных, менеджер 22 диалогов, компоновщик 23 и один или более обработчиков 24 ресурса.
Мультимодальный сервер 3 является интернет-сервером, который предоставляет один или более ресурсных модулей, поддерживающих мультимодальное взаимодействие между пользователем 6 и клиентом 4. Например, мультимодальный сервер 3 содержит ресурсные модули 31, 32 и 33. Ресурсный модуль 31 является модулем распознавания речи, ресурсный модуль 32 является модулем преобразования текста в речь и ресурсный модуль 33 является модулем распознавания рукописного ввода. Ресурсные модули с 31 по 33 мультимодального сервера 3 могут совместно использоваться множеством мультимодальных модулей доступа, расположенных на разных прокси-серверах. Но также возможно, что ресурсные модули с 31 по 33 встроены в прокси-сервер 2 и используются исключительно одним или более мультимодальными модулями доступа, предоставляемыми прокси-сервером 2.
Менеджер 22 диалога осуществляет управление мультимодальным диалогом. При приеме HTTP-сообщения от клиента 4, который запрашивает доступ к мультимодальному приложению, он устанавливает мультимодальный диалог между этим мультимодальным приложением и пользователем 6 клиента 4. Он передает HTTP-запросы в соответствующей форме соответствующему мультимодальному серверу приложений, например мультимодальному серверу 5 приложений. При приеме ответа от сервера 5 приложений он взаимодействует с клиентом 4 посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге.
Например, менеджер 22 диалога создает набор из одного или более скриптов, обеспечивающих ресурс модальности, или встраивает обработку мультимодальных событий посредством базы 21 данных. Он компонует скрипты в HTML- или XHTML-документ, отправляемый клиенту 4 для выполнения броузером 41. Дополнительно менеджер диалога может создавать набор из одного или более обработчиков ресурса для обеспечения интерфейса с прокси-сервером для этих скриптов.
Дополнительно менеджер 22 диалога извлекает - основываясь на ответе или ответах от сервера 5 приложений - один или более ресурсных модулей мультимодального сервера 3 и инициализирует сеанс между компонентами клиента 4 и этими извлеченными ресурсными модулями.
Например, менеджер 22 диалога создает HTML-документ 7 с набором скриптов 71, 72 и 73 и передает этот документ в качестве HTTP-ответа 92 клиенту 4. Скрипт 71 реализует вывод определенного голосового сообщения и добавляет ресурс «определенное голосовое сообщение» в качестве дополнительного ресурса модальности к набору возможностей броузера 41. Скрипт 73 встраивает обработку мультимодальных событий в HTML-документ 7. Например, скрипт связывает обработку мультимодальных событий с HTML-элементами документа 7, такими как поля ввода текста, списки, кнопки, ссылки и прочее. Предпочтительно скрипт 73 обменивается через коммуникационное соединение 93 HTML-сообщениями или XHTML-сообщениями с соответствующим обработчиком ресурса, расположенным на прокси-сервере 2, который обеспечивает прикладной интерфейс с прокси-сервером для скрипта 73.
Дополнительно менеджер 22 диалога выбирает ресурсные модули мультимодального сервера 3 в соответствии с определенными модальностями, запрошенными в мультимодальном диалоге, т.е. резервирует ресурсные модули и привязывает их к менеджеру 22 диалога.
Компоновщик 23 компонует мультимодальное взаимодействие с пользователем 6 на основе взаимодействий с клиентом 4, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов. Например, компоновщик 23 компонует мультимодальное взаимодействие в контексте мультимодального диалога из взаимодействий с 81 по 84, где взаимодействие 81 является взаимодействием, основывающимся на стандартном или расширенном языке гипертекстовой разметки, взаимодействие 82 является голосовым сообщением, созданным скриптом 71, взаимодействие 83 является голосовым вводом, обработанным ресурсным модулем 31 под управлением компоновщика 23 и скрипта 73, и взаимодействие 84 является рукописным вводом, обработанным ресурсным модулем 33 под управлением компоновщика 23 и скрипта 73.
Компоновщик 23 компонует мультимодальный диалог с пользователем 6 в соответствии с информацией, принятой от сервера 5 приложений, и событиями, принятыми от пользователя 6, при этом эти события могут быть предварительно обработаны скриптом 73.
Например, мультимодальное приложение запрашивает вывод информации в виде голосового сообщения или пользователь 6 выбирает, что вывод информации должен быть осуществлен в виде голосового сообщения. Система реализует это голосовое сообщение путем создания скрипта 71 и выполнения скрипта 71 броузером 41 или путем извлечения ресурсного модуля 23, установления RTP-соединения и инициализации сеанса между ресурсным модулем 32 и компонентом 43 клиента 4, и инициирования ресурсного модуля 32 через обработчик 24 ресурса для создания голосового сообщения и передачи его компоненту 43.
Например, скрипт 73 обнаруживает событие, означающее запрос от пользователя для выполнения голосового ввода. Скрипт 73 соединяется с прокси-сервером, который извлекает ресурсный модуль 31, инициирует установление RTP-соединения 94 с компонентом 44, инициирует сеанс между этими компонентами и принимает, и обрабатывает результаты выполненной ресурсным модулем 31 обработки.
Фиг.2 показывает некоторые подробные реализации мультимодальной системы, показанной на Фиг.1. Фиг.2 показывает клиент 4, прокси-сервер 2, сервер 5 приложений и ресурсные модули с 31 по 33. Клиент 4 содержит web-броузер 41 и компоненты с 43 по 45.
Скрипты с 71 по 73 выполнены в виде Java-скриптов. Броузер 41 содержит ActiveX-объект 46, используемый Java-скриптом для вызова сервлета (обслуживающей программы на стороне сервера) прокси-сервера 2, предоставленного соответствующим Java-классом. Сервлет обрабатывает информацию и создает соответствующую ответную информацию, которая обрабатывается ActiveX-объектом 46 и может быть использована скриптом без перезагрузки HTML-документа 41.
В данном контексте web-сторона, сформированная документом 41, играет роль клиента, и прокси-сервер 2 с сервлетом играет роль сервера. Формат сообщений, которыми обмениваются клиент и сервер, удовлетворяет XML-стандарту (XML = расширяемый язык разметки).
JAVA-скрипт 73 имеет функцию (запрос), запрашивающую через XML сообщение «XML-запрос» метод сервлета «управление сервлетом». Функция JAVA-скрипта (запрос) передает свой входной параметр «запрос XML-строки» строчного типа методу сервлета «управление сервлетом». В то же время она устанавливает обработчик события для события «изменение состояния готовности (Ready State)» для ActiveX-объекта 46. Если функция 74 Java-скрипта успешно принимает ответ от сервлета, обработчик события вызывает функцию «обработка XML-ответа» и передает DOM-документ ответа (DOM = объектная модель документа).
Java-функция 75, называющаяся «обработка XML-ответа», ожидает DOM-документ в качестве ввода, осуществляет поиск во вводе узла с именем "mathResponse" и вставляет это значение в текстовое поле документа 7.
Предпочтительно броузер 41 предоставляет XMLHTTP-объект, который может быть использован Java-скриптами с 71 по 73. Java-скрипт выполняется на броузере 41 клиента и отправляет XML-сообщения сервлету с использованием этого объекта. Например, XMLHTTP-объект поддерживается Microsoft Internet Explorer версии 5.0 или более поздней. Другие броузеры (например, Mozilla and Netscape версии 6) обеспечивают подобный интерфейс.
Информация (сообщения) может быть отправлена асинхронно по протоколу HTTP от сервера клиенту без перезагрузки страницы. Клиент делает неблокирующий запрос серверу, который принимает решение в отношении времени для ответа. Это имитирует технологию «server-push».
Обобщенное изложение сообщения XMLHTTP-объекта:
void | open(String method, String url, Boolean async) инициализирует запрос и задает метод, URL (URL = унифицированный указатель информационного ресурса) и то, будет ли вызов асинхронным или нет. Методами являются "POST" и "GET". |
void | send(String message) отправляет запрос. |
void | setRequestHeader(String parameter, String value) устанавливает параметры в HTTP-заголовке. |
String | responseText() возвращает ответ в виде строки. |
XMLDOM | responseXML() возвращает ответ в виде XMLDOM. |
EventHandler | onreadystatechange() обработчик события, который будет вызван, если параметр readyState изменится. |
int | readyState() возвращает состояние соединения. |
На стороне клиента периодически вызывается функция Java-скрипта «request ()». Если нет активного запроса, то она открывает новый HTTP-запрос посредством вызова команды POST XMLHTTP-объекта и отправки строки сообщения сервлету.
Сервлет, запущенный на сервере, принимает переданную строку, которую он может прочитать из потока ввода, и взаимодействует с приложением. После обработки потока ввода на основании статуса приложения сервлет формулирует свой ответ.
Параметр «async» может быть установлен в значение TRUE "Истина" в команде POST XMLHTTP-объекта для асинхронного выполнения запроса, что означает, что может пройти несколько секунд или минут между передачей и приемом без блокирования HTML-броузера. Таким образом, сервлет может ожидать его ответа, пока событие «push» («проталкивание») не будет вызвано приложением. Эта новая информация передается клиенту.
Когда клиент принимает ответ, событие «onreadystatechange» XMLHTTP-объекта вызывается с параметром «readyState», имеющим значение 4. Обработчик события, установленный на это событие, может затем обработать ответ.
Благодаря этому механизму нет необходимости в перезагрузке HTTP-документа, и обмен информацией между скриптами с 71 по 73 и соответствующими обработчиками ресурса является для пользователя невидимым.
Обработчик 24 ресурса предоставляет MMAPI-HTTP-интерфейс (MMAPI = мультимодальный интерфейс прикладного программирования). Он содержит набор из одного или более сервлетов, например, сервлеты 25 и 26, непосредственно взаимодействующие со скриптами с 71 по 73, и поддерживает взаимодействие со скриптами с 71 по 73 через XML-запросы и XML-ответы. Дополнительно он содержит набор MMAPI-компонентов, служащих в качестве интерфейса для связи с модулями с 31 по 33 ресурсов. Например, Фиг.2 показывает MMAPI-компонент 27, имеющий сокет 274, буфер 271 запроса, буфер 272 ответа и поток 273 наблюдения.
Сокет 274 поддерживает связь между MMAPI-компонентом 27 и соответствующим ресурсным модулем, например, ресурсным модулем 33, через TCP/IP соединение связи. Он анализирует буфер запроса 271 и передает соответствующие запросы через это соединение связи. Поток сервера сканирует информацию, принятую через TCP/IP соединение, и заполняет буфер ответа, если он обнаружил соответствующие ответы.
Сервлеты 25 и 26 передают запросы в буфер запроса и принимают ответы из буфера ответа с помощью соответствующих функций заполнения запроса и получения ответа. Таким образом, система выполняет синхронный обмен данными между сервлетами и MMAPI-компонентами.
Ресурсы с 31 по 33 предоставляют функциональные возможности для связи с клиентом 4 через TCP/IP-соединение и через RTP-соединение. Например, ресурсный модуль 33 содержит модуль 34 связи, поддерживающий TCP/IP-интерфейс, и модуль 35 связи, поддерживающий RTP-интерфейс. Каждый из ресурсных модулей с 31 по 33 может подобным образом поддерживать множество клиентов.
Например, MMAPI-компонент 27 передает запрос на инициализацию сеанса ресурсному модулю 33, который устанавливает соответствующий сеанс с предназначенным для этого компонентом клиента 4 и возвращает результаты этого сеанса.
Claims (10)
1. Способ обеспечения мультимодального диалога между мультимодальным приложением (5) и пользователем (6), осуществляющим связь с мультимодальным приложением (5) через клиент (4), выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом способ содержит этапы, на которых
устанавливают мультимодальный диалог между мультимодальным приложением (5) и пользователем (6) через прокси-сервер (2), взаимодействующий с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки;
извлекают с помощью прокси-сервера (2), по меньшей мере один дополнительный ресурс (71, 72, 73, 31, 32, 33) модальности, запрашиваемый в мультимодальном диалоге; и компонуют с помощью прокси-сервера (2) мультимодальное взаимодействие с пользователем (6) на основе взаимодействий (81) с клиентом, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33).
устанавливают мультимодальный диалог между мультимодальным приложением (5) и пользователем (6) через прокси-сервер (2), взаимодействующий с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки;
извлекают с помощью прокси-сервера (2), по меньшей мере один дополнительный ресурс (71, 72, 73, 31, 32, 33) модальности, запрашиваемый в мультимодальном диалоге; и компонуют с помощью прокси-сервера (2) мультимодальное взаимодействие с пользователем (6) на основе взаимодействий (81) с клиентом, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33).
2. Способ по п.1, отличающийся тем, что содержит дополнительные этапы, на которых компонуют набор из одного или более запрошенных ресурсов (71, 72, 73) в документ (7), представленный в стандартном или расширенном языке гипертекстовой разметки; передают документ (7) клиенту (4).
3. Способ по п.2, отличающийся тем, что прокси-сервер (2) создает скрипт (71), предоставляющий ресурс модальности, и компонует скрипт (71) в документ (7).
4. Способ по п.2, отличающийся тем, что прокси-сервер (2) создает скрипт (73) для встраивания обработки мультимодального события в документ (7) и компонует скрипт (73) в документ (7).
5. Способ по п.4, отличающийся тем, что содержит дополнительные этапы, на которых создают обработчик (24) ресурса, который предоставляет интерфейс с прокси-сервером для скрипта (73), и обмениваются сообщениями (93) в соответствии со стандартным или расширенным языком гипертекстовой разметки между скриптом (73), расположенным на клиенте (4), и обработчиком (24) ресурса, расположенным на прокси-сервере (2).
6. Способ по п.1, отличающийся тем, что прокси-сервер (2) извлекает ресурсный модуль (31, 32, 33), в частности модуль распознавания речи, преобразования текста в речь или распознавания рукописного ввода, в соответствии с модальностью, запрошенной в мультимодальном диалоге, инициализирует сеанс (94) между клиентом (4) и извлеченным модулем (31, 32, 33) ресурса и компонует мультимодальное взаимодействие на основе инициализированного сеанса (94).
7. Способ по п.6, отличающийся тем, что содержит дополнительные этапы, на которых создают обработчик (24) ресурса для выбранного ресурсного модуля (31, 32, 33), который предоставляет интерфейс с прокси-сервером для скрипта (73), расположенного на клиенте (4), при этом обработчик (24) ресурса дает возможность скрипту (73) обмениваться информацией с извлеченным ресурсным модулем (31, 32, 33), в частности с модулем распознавания речи, преобразования текста в речь или распознавания рукописного ввода.
8. Способ по п.6, отличающийся тем, что содержит дополнительный этап, на котором создают обработчик (24) ресурса для извлеченного ресурсного модуля (31, 32, 33), причем этот обработчик ресурса осуществляет связь через ТСРЛР-соединение с ресурсным модулем (31, 32, 33).
9. Способ по п.6, отличающийся тем, что содержит дополнительный этап, на котором устанавливают RTP-соединение между компонентами (43, 44, 45) клиента (4) и извлеченным ресурсным модулем (31, 32, 33).
10. Прокси-сервер (2) для поддержки мультимодальных диалогов между мультимодальными приложениями (5) и пользователями (6), осуществляющими связь с мультимодальным приложением с помощью соответствующих клиентов (4), выполненных с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом прокси-сервер содержит менеджер (22) диалога, выполненный с возможностью установления мультимодального диалога между мультимодальным приложением (5) и пользователем (6) через прокси-сервер (2), для взаимодействия с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и для извлечения по меньшей мере одного дополнительного ресурса (71, 72, 73, 31, 32, 33) модальности, запрошенного в мультимодальном диалоге, и компоновщик (23) для компонования мультимодального взаимодействия с пользователем на основе взаимодействий с клиентом (4), основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04291272A EP1599007B1 (en) | 2004-05-18 | 2004-05-18 | Method and server for providing a multi-modal dialog |
EP04291272.5 | 2004-05-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2006102661A RU2006102661A (ru) | 2007-08-10 |
RU2390958C2 true RU2390958C2 (ru) | 2010-05-27 |
Family
ID=34931109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2006102661/09A RU2390958C2 (ru) | 2004-05-18 | 2005-05-10 | Способ и сервер для обеспечения мультимодального диалога |
Country Status (8)
Country | Link |
---|---|
US (1) | US20050261909A1 (ru) |
EP (1) | EP1599007B1 (ru) |
CN (1) | CN100527729C (ru) |
AT (1) | ATE373380T1 (ru) |
DE (1) | DE602004008887T2 (ru) |
MX (1) | MXPA05013745A (ru) |
RU (1) | RU2390958C2 (ru) |
WO (1) | WO2005112386A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2589359C2 (ru) * | 2010-12-07 | 2016-07-10 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Мультимодальные телефонные вызовы |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799464B2 (en) * | 2001-12-28 | 2014-08-05 | Motorola Mobility Llc | Multi-modal communication using a session specific proxy server |
US8181112B2 (en) * | 2004-05-21 | 2012-05-15 | Oracle International Corporation | Independent portlet rendering |
CN100535900C (zh) * | 2005-12-06 | 2009-09-02 | 国际商业机器公司 | 用于提供异步门户页的方法和系统 |
US20070133773A1 (en) | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Composite services delivery |
US11093898B2 (en) | 2005-12-08 | 2021-08-17 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
US10332071B2 (en) * | 2005-12-08 | 2019-06-25 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
US8259923B2 (en) * | 2007-02-28 | 2012-09-04 | International Business Machines Corporation | Implementing a contact center using open standards and non-proprietary components |
JP2008129713A (ja) * | 2006-11-17 | 2008-06-05 | Fujitsu Ltd | 複数のモダリティを関連付けるための方法、そのプログラムおよび複数モダリティを関連付けるマルチモーダルシステム |
US8594305B2 (en) | 2006-12-22 | 2013-11-26 | International Business Machines Corporation | Enhancing contact centers with dialog contracts |
US9055150B2 (en) | 2007-02-28 | 2015-06-09 | International Business Machines Corporation | Skills based routing in a standards based contact center using a presence server and expertise specific watchers |
US20080205625A1 (en) * | 2007-02-28 | 2008-08-28 | International Business Machines Corporation | Extending a standardized presence document to include contact center specific elements |
US9247056B2 (en) | 2007-02-28 | 2016-01-26 | International Business Machines Corporation | Identifying contact center agents based upon biometric characteristics of an agent's speech |
US7865544B2 (en) | 2007-06-26 | 2011-01-04 | International Business Machines Corporation | Method and system for providing XML-based asynchronous and interactive feeds for web applications |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8881020B2 (en) * | 2008-06-24 | 2014-11-04 | Microsoft Corporation | Multi-modal communication through modal-specific interfaces |
US8843849B2 (en) * | 2009-11-09 | 2014-09-23 | Blackberry Limited | Directional navigation of page content |
US20110119389A1 (en) * | 2009-11-19 | 2011-05-19 | Microsoft Corporation | Transferring multiple communication modalities during a conversation |
US9052796B2 (en) | 2012-01-08 | 2015-06-09 | Microsoft Technology Licensing Llc | Asynchronous handling of an input stream dedicated to multiple targets |
US9537899B2 (en) | 2012-02-29 | 2017-01-03 | Microsoft Technology Licensing, Llc | Dynamic selection of security protocol |
US10262555B2 (en) * | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
CN110399040B (zh) * | 2019-07-23 | 2023-05-12 | 芋头科技(杭州)有限公司 | 多模态交互方法、用户端设备、服务器及系统 |
US11308259B2 (en) * | 2020-03-09 | 2022-04-19 | Servicenow, Inc. | Web element retargeting |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3733218B2 (ja) * | 1997-09-30 | 2006-01-11 | キヤノン株式会社 | 中継装置及びその制御方法及び記憶媒体 |
US6356533B1 (en) * | 1998-08-07 | 2002-03-12 | At&T Corp | Apparatus and method for selecting communication modes |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
DE60008483T2 (de) * | 1999-11-09 | 2004-06-24 | Nortel Networks Ltd., St. Laurent | Telefondiensten in einem Kommunikationsnetzwerk |
US7415537B1 (en) * | 2000-04-07 | 2008-08-19 | International Business Machines Corporation | Conversational portal for providing conversational browsing and multimedia broadcast on demand |
US7072984B1 (en) * | 2000-04-26 | 2006-07-04 | Novarra, Inc. | System and method for accessing customized information over the internet using a browser for a plurality of electronic devices |
US7464381B1 (en) * | 2000-05-12 | 2008-12-09 | Oracle International Corporation | Content update proxy method |
FI20001918A (fi) * | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US7028306B2 (en) * | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
GB0108044D0 (en) * | 2001-03-30 | 2001-05-23 | British Telecomm | Application synchronisation |
AU2002251205A1 (en) * | 2001-03-30 | 2002-10-15 | British Telecommunications Public Limited Company | Multi-modal interface |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US7136909B2 (en) * | 2001-12-28 | 2006-11-14 | Motorola, Inc. | Multimodal communication method and apparatus with multimodal profile |
US8799464B2 (en) * | 2001-12-28 | 2014-08-05 | Motorola Mobility Llc | Multi-modal communication using a session specific proxy server |
US6804330B1 (en) * | 2002-01-04 | 2004-10-12 | Siebel Systems, Inc. | Method and system for accessing CRM data via voice |
WO2003071422A1 (en) * | 2002-02-18 | 2003-08-28 | Kirusa, Inc. | A technique for synchronizing visual and voice browsers to enable multi-modal browsing |
US6807529B2 (en) * | 2002-02-27 | 2004-10-19 | Motorola, Inc. | System and method for concurrent multimodal communication |
US6704396B2 (en) * | 2002-02-27 | 2004-03-09 | Sbc Technology Resources, Inc. | Multi-modal communications method |
US20030187944A1 (en) * | 2002-02-27 | 2003-10-02 | Greg Johnson | System and method for concurrent multimodal communication using concurrent multimodal tags |
US7315613B2 (en) * | 2002-03-11 | 2008-01-01 | International Business Machines Corporation | Multi-modal messaging |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
SE0202058D0 (sv) * | 2002-07-02 | 2002-07-02 | Ericsson Telefon Ab L M | Voice browsing architecture based on adaptive keyword spotting |
US20040128342A1 (en) * | 2002-12-31 | 2004-07-01 | International Business Machines Corporation | System and method for providing multi-modal interactive streaming media applications |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
KR100561228B1 (ko) * | 2003-12-23 | 2006-03-15 | 한국전자통신연구원 | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
-
2004
- 2004-05-18 EP EP04291272A patent/EP1599007B1/en not_active Expired - Lifetime
- 2004-05-18 DE DE602004008887T patent/DE602004008887T2/de not_active Expired - Lifetime
- 2004-05-18 AT AT04291272T patent/ATE373380T1/de not_active IP Right Cessation
-
2005
- 2005-05-10 WO PCT/EP2005/052110 patent/WO2005112386A1/en active Application Filing
- 2005-05-10 RU RU2006102661/09A patent/RU2390958C2/ru not_active IP Right Cessation
- 2005-05-10 MX MXPA05013745A patent/MXPA05013745A/es unknown
- 2005-05-16 CN CN200510068081.XA patent/CN100527729C/zh not_active Expired - Fee Related
- 2005-05-17 US US11/130,203 patent/US20050261909A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2589359C2 (ru) * | 2010-12-07 | 2016-07-10 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Мультимодальные телефонные вызовы |
Also Published As
Publication number | Publication date |
---|---|
ATE373380T1 (de) | 2007-09-15 |
EP1599007B1 (en) | 2007-09-12 |
CN100527729C (zh) | 2009-08-12 |
MXPA05013745A (es) | 2006-03-13 |
CN1700692A (zh) | 2005-11-23 |
DE602004008887T2 (de) | 2008-01-17 |
EP1599007A1 (en) | 2005-11-23 |
RU2006102661A (ru) | 2007-08-10 |
DE602004008887D1 (de) | 2007-10-25 |
US20050261909A1 (en) | 2005-11-24 |
WO2005112386A1 (en) | 2005-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2390958C2 (ru) | Способ и сервер для обеспечения мультимодального диалога | |
US7861174B2 (en) | Method and system for assembling concurrently-generated content | |
US7587447B2 (en) | Systems, methods and computer programs for implementing and accessing web services | |
EP1562347B1 (en) | Methods and apparatus for utilizing user software to communicate with network-resident services | |
US20040117804A1 (en) | Multi modal interface | |
US20040117409A1 (en) | Application synchronisation | |
US20090013035A1 (en) | System for Factoring Synchronization Strategies From Multimodal Programming Model Runtimes | |
US20030105819A1 (en) | Web collaborative browsing system and method using internet relay chat protocol | |
US20020055956A1 (en) | Method and system for assembling concurrently-generated content | |
US20040003033A1 (en) | Method and system for generating a web service interface | |
TW200412060A (en) | System and method for using portals by mobile devices in a disconnected mode | |
US8448059B1 (en) | Apparatus and method for providing browser audio control for voice enabled web applications | |
EP1652112B1 (en) | System and method for configuring servlet-based components as dynamic content components | |
US8065715B2 (en) | Authenticating a user of a wireless data processing device | |
JP2004046810A (ja) | クライアント/サーバ環境におけるアプリケーションステップのディスパッチ方法及びサービスポータルシステム | |
US20070156839A1 (en) | Web services for wireless pervasive devices | |
WO2001048630A2 (en) | Client-server data communication system and method for data transfer between a server and different clients | |
WO2002061587A2 (en) | Method and system for wireless access to a user's computer | |
US20080005173A1 (en) | Method of and system for data interaction in a web-based database application environment | |
JP2004534292A (ja) | ユーザブラウザのリアルタイム制御システム及び方法 | |
KR20100097740A (ko) | 단일 요청 기반 메시지에 의한 일련의 웹 서비스들의 인보케이션을 위한 디바이스들 및 방법 | |
Hassan | Choosing the Right Communication Protocol for your Web Application | |
Huynh | Developing WAP services with Allaire's ColdFusion | |
Li et al. | An adaptable architecture for secure delivery of converged services | |
EP1360598B1 (en) | Assembling concurrently-generated personalized web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20180511 |