RU2390958C2 - Способ и сервер для обеспечения мультимодального диалога - Google Patents

Способ и сервер для обеспечения мультимодального диалога Download PDF

Info

Publication number
RU2390958C2
RU2390958C2 RU2006102661/09A RU2006102661A RU2390958C2 RU 2390958 C2 RU2390958 C2 RU 2390958C2 RU 2006102661/09 A RU2006102661/09 A RU 2006102661/09A RU 2006102661 A RU2006102661 A RU 2006102661A RU 2390958 C2 RU2390958 C2 RU 2390958C2
Authority
RU
Russia
Prior art keywords
multimodal
client
proxy server
resource
standard
Prior art date
Application number
RU2006102661/09A
Other languages
English (en)
Other versions
RU2006102661A (ru
Inventor
Юрген ЗИНЕЛ (DE)
Юрген ЗИНЕЛ
Хорст РЕССЛЕР (DE)
Хорст РЕССЛЕР
Даниель НОЙБАУЭР (DE)
Даниель НОЙБАУЭР
Original Assignee
Алькатель
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Алькатель filed Critical Алькатель
Publication of RU2006102661A publication Critical patent/RU2006102661A/ru
Application granted granted Critical
Publication of RU2390958C2 publication Critical patent/RU2390958C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Изобретение относится к системам передачи данных. Технический результат заключается в усовершенствовании установления мультимодального диалога. Изобретение описывает способ обеспечения мультимодального диалога между мультимодальным приложением (5) и пользователем (6), осуществляющим связь с мультимодальным приложением (5) через клиент (4), выполненный с возможностью обмена документами и представления документов (7), закодированных в стандартном или расширенном языке гипертекстовой разметки. Изобретение дополнительно описывает прокси-сервер (2) для осуществления этого способа. Мультимодальный диалог между мультимодальным приложением (5) и пользователем (6) устанавливается через прокси-сервер (2), взаимодействующий с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки. Прокси-сервер (2) извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге. Прокси-сервер (2) компонует мультимодальное взаимодействие с пользователем (6) на основе взаимодействий с клиентом (6), основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33). 2 н. и 8 з.п. ф-лы, 2 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится к способу обеспечения мультимодального диалога между мультимодальным приложением и пользователем, осуществляющим связь с мультимодальным приложением через клиент, выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки. Более того, изобретение относится к прокси-серверу (специализированному серверу-посреднику) для поддержки мультимодальных диалогов между мультимодальными приложениями и пользователями.
Предшествующий уровень техники
В последние годы компьютеры стали снабжаться множеством устройств ввода разных типов, таких как клавиатура, мышь, сенсорная панель, сканер изображений, видеокамера, перо и микрофон, для обеспечения возможности ввода различных информационных элементов в различных формах. Также предусмотрено множество разных типов устройств вывода, такие как разнообразные устройства отображения и громкоговоритель, для вывода различных информационных элементов в различных формах, таких как разные графические формы или разговорный язык. Дополнительно усовершенствованные терминалы связи оборудованы разными типами устройств ввода и вывода, которые позволяют вводить и выводить информацию в различных формах.
Например, JP 101 07877 A описывает мультимодальный телефонный аппарат, который использует и дисплей, и синтезированный голос для взаимодействия с пользователем.
Дополнительно мультимодальные средства просмотра (броузеры) расширяют функциональные возможности исходных броузеров с помощью дополнительных модулей, таких как мультимодальные подключаемые расширения, например, SALT или X+V (SALT =..., X+V =...). Но подобные мультимодальные броузеры требуют больших вычислений и ресурсов памяти и не выполняются на малых устройствах с ограниченными ресурсами, например мобильных устройствах или PDA (PDA = персональный цифровой ассистент).
Сущность изобретения
Задачей настоящего изобретения является предложение улучшенной мультимодальной системы, делающей возможным мультимодальный диалог между мультимодальным приложением и пользователем.
Задача настоящего изобретения решается посредством способа обеспечения мультимодального диалога между мультимодальным приложением и пользователем, осуществляющим связь с мультимодальным приложением через клиент, выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом способ содержит этапы, на которых: устанавливают мультимодальный диалог между мультимодальным приложением и пользователем через прокси-сервер, взаимодействующий с клиентом посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки; извлекают с помощью прокси-сервера по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге; и компонуют с помощью прокси-сервера мультимодальное взаимодействие с пользователем на основе взаимодействий с клиентом, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов. Задача настоящего изобретения также решается с помощью прокси-сервера для поддержки мультимодальных диалогов между мультимодальными приложениями и пользователями, осуществляющими связь с мультимодальным приложением через соответствующие клиенты, выполненные с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом прокси-сервер содержит менеджер (средство управления) диалогов и компоновщик. Менеджер диалогов устанавливает мультимодальный диалог между мультимодальным приложением и пользователем через прокси-сервер, взаимодействует с клиентом посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге. Компоновщик компонует мультимодальное взаимодействие с пользователем на основе взаимодействий с клиентом, основанных на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов.
Мультимодальный прокси-сервер устанавливает мультимодальные взаимодействия на основе стандартной технологии броузера, например, на многозвенных web-приложениях, основанных на броузере. Компоненты прокси-сервера осуществляют на стороне клиента управление и синхронизацию в отношении мультимодального диалога, которые не могут быть выполнены компонентами клиента. Эта архитектура объединяет высокую скорость выполнения с уменьшением требований к вычислительной мощности и памяти на стороне клиента. Эта архитектура поддерживает использование тонких клиентов. Дополнительно эта архитектура увеличивает гибкость и применимость мультимодальных приложений и функциональных возможностей, так как является достаточным оснастить клиент стандартными компонентами броузера, чтобы использовать этот клиент в контексте мультимодального диалога.
Дополнительно архитектура тонкого клиента превращает настольные/локальные приложения в среду с централизованной обработкой, управлением и поддержкой. Таким образом, изобретение увеличивает масштабируемость и обслуживаемость мультимодальной системы. Изобретение обеспечивает возможность как масштабирования при изменении потребностей бизнеса, так и приспособления к увеличению количества пользователей, объемов транзакций и архивов - и все это без ухудшения производительности. Дополнительно это гарантирует сосуществование с унаследованными приложениями.
Дополнительные преимущества достигаются с помощью вариантов осуществления изобретения, указанных в зависимых пунктах.
В соответствии с предпочтительным вариантом осуществления изобретения мультимодальная система содержит клиента со стандартным Интернет-броузером без дополнений, например, без специфических встраиваемых модулей, мультимодальный прокси-сервер, ответственный за управление мультимодальными сеансом и диалогом, и мультимодальный сервер, который содержит несколько ресурсных модулей, таких как модули распознавания речи, преобразования текста в речь и распознавания рукописного ввода. Прокси-сервер отправляет/получает сообщения к/от мультимодального сервера. Дополнительно он передает HTTP-запросы (HTTP = протокол передачи гипертекста) соответствующим приложениям и web-серверам. Прокси-сервер также генерирует JAVA-скрипты (программы-сценарии на языке JAVA) для встраивания обработки мультимодальных событий в HTML/XHTML-страницы (HTML = язык гипертекстовой разметки; XHTML = расширенный язык гипертекстовой разметки). Мультимодальный сервер содержит средства для установления RTP-соединений (RTP = протокол реального времени) с устройствами ввода/вывода клиента, например с микрофоном и громкоговорителем клиента. Мультимодальный диалог компонуется с помощью JAVA-скриптов. Мультимодальное взаимодействие может быть применено к HTML-элементам, таким как поля ввода текста, списки, кнопки, ссылки и так далее.
Предпочтительно клиент является мобильным устройством, например, мобильным телефоном в соответствии с GSM или UMTS стандартом (GSM = глобальная система мобильной связи; UMTS = универсальная мобильная телекоммуникационная система). Изобретение дает возможность такому мобильному устройству, оборудованному стандартным Интернет-броузером, поддерживать мультимодальное взаимодействие. Это имеет значительные преимущества: пользователь может выбрать в любое время предпочтительную модальность взаимодействия и не является привязанным к последовательности представления конкретного канала. Таким образом, взаимодействие становится персональным и повышает уровень восприятия пользователя.
В соответствии с предпочтительным вариантом осуществления изобретения прокси-сервер компонует упомянутые один или более запрошенных ресурсов в документ, представленный в стандартном или расширенном языке гипертекстовой разметки, и передает документ клиенту. Ресурс, переданный на сторону клиента с помощью такого механизма, поддерживает части мультимодального взаимодействия, которые не поддерживаются функциональными возможностями стандартного web-броузера. Дополнительные ресурсы модальности становятся доступными простым и эффективным способом.
Предпочтительно прокси-сервер создает скрипт, обеспечивающий ресурс модальности, и компонует скрипт в документ. Например, скрипт может инициировать вывод определенного голосового сообщения. Но также является возможным, что прокси-сервер создает скрипт для встраивания обработки мультимодального события в документ и компонует подобный скрипт в документ. Предпочтительно прокси-сервер дополнительно создает соответствующий обработчик ресурса, обеспечивающий для скрипта интерфейс с прокси-сервером. Обмен сообщениями осуществляется в соответствии со стандартным или расширенным языком гипертекстовой разметки между скриптом, расположенным на клиенте, и обработчиком ресурса, расположенным на прокси-сервере. Подобные сообщения используются для управления ресурсами, встроенными в скрипт, и для интерфейса с прокси-сервером, предоставленного для таких ресурсов с целью запрашивания и приема дополнительной информации.
В соответствии с дополнительным вариантом осуществления прокси-сервер извлекает ресурсный модуль в соответствии с запрошенной в мультимодальном диалоге модальностью. Предпочтительно мультимодальный сервер предоставляет набор ресурсных модулей, в частности модуль распознавания речи, модуль перевода текста в речь и модуль распознавания рукописного ввода.
Прокси-сервер инициализирует сеансы между клиентом и извлеченными ресурсными модулями. Дополнительно он компонует мультимодальное взаимодействие согласно инициализированным сеансам. Предпочтительно извлеченный ресурсный модуль осуществляет связь с ресурсами ввода/вывода клиента через одно или более RTP-соединений. Прокси-сервер создает обработчик ресурса для выбранного ресурсного модуля, который осуществляет связь через TCP/IP соединение с ресурсным модулем (TCP = протокол управления передачей; IP = межсетевой протокол).
В соответствии с предпочтительным вариантом осуществления прокси-сервер создает обработчик ресурса для выбранного ресурсного модуля. Этот обработчик ресурса обеспечивает интерфейс с прокси-сервером для скрипта, расположенного на клиенте, и дает возможность скрипту обмениваться информацией с извлеченным ресурсным модулем. Для скрипта, расположенного на клиенте, становится возможным управлять ресурсным модулем или получать информацию, введенную пользователем и обработанную ресурсным модулем. Обработчики ресурса предоставляют своего рода прикладной мультимодальный интерфейс для скриптов, расположенных на клиенте, что позволяет встраивать обработку мультимодальных событий в документы, кодированные в HTML/XHTML.
Перечень чертежей
Эти и другие признаки и преимущества изобретения могут быть лучше оценены по достоинству после прочтения приведенного ниже подробного описания предпочтительных в настоящее время иллюстративных вариантов осуществления, рассматриваемых совместно с прилагающимися чертежами, на которых:
Фиг.1 - блок-схема, показывающая мультимодальную систему с прокси-сервером в соответствии с изобретением.
Фиг.2 - функциональное представление мультимодальной системы с прокси-сервером в соответствии с изобретением.
Подробное описание изобретения
Фиг.1 показывает сети 11 и 12 связи, клиент 4, сервер 5 приложений, прокси-сервер 2 и мультимодальный сервер 3.
Клиент 4 является «тонким» клиентом, т.е. клиентом с пониженными вычислительными ресурсами и памятью. Предпочтительно клиент 4 является переносным устройством, например PDA (PDA = персональный цифровой ассистент) или интеллектуальным телефоном (смартфоном), например UMTS-телефоном с возможностями мультимодального ввода и вывода. Но также возможно, что клиент является телефоном с возможностью обработки и передачи данных, например сотовым GSM-телефоном с GPRS-возможностями (GPRS = служба пакетной радиосвязи общего назначения), переносным компьютером или обычным персональным компьютером.
Клиент 4 обеспечивает набор из двух или более различных модальностей для взаимодействия с пользователем 6.
Модальность описывает способ, которым информация предоставляется от клиента 4 пользователю 6 или от пользователя 6 клиенту 4. Например, информация может быть представлена в виде голосового сообщения, написанной на экране информации, пиктограммы или графического изображения на экране, нажатия определенной клавиши на клавиатуре, ввода рукописной команды, пером, мышью, голосовой команды, ввода командного слова или касания пиктограммы на сенсорной панели.
В качестве примера Фиг.1 показывает четыре различных типа взаимодействия с 81 по 84 между клиентом 4 и пользователем 6, каждое из которых соответствует отличающейся от других модальности.
Сеть 11 связи соединяет клиента 4 с прокси-сервером 2 и мультимодальным сервером 3. Дополнительно сеть 12 связи соединяет прокси-сервер 2 с сервером 5 приложений.
Сети 11 и 12 связи позволяют осуществлять обмен данными между упомянутыми выше компонентами, преимущественно на основе стека протоколов TCP/IP.
Например, прокси-сервер 2, мультимодальный сервер 3 и сервер 5 приложений соединены через IP-сеть, которая связана с сетью мобильной связи, играющей роль сети доступа для клиента 4 для доступа к этой IP-сети (IP = межсетевой протокол). В таком случае сеть 11 связи образована сетью мобильной связи, например сетью GSM или UMTS, и фиксированной сетью передачи данных, т.е. упомянутой выше IP-сетью. IP-сеть может состоять из множества физических сетей связи, например сетей ATM, MPLS или Ethernet (ATM = асинхронный режим передачи; MPLS = многопротокольная коммутация на основе меток), которые соединены через общий IP-протокол третьего уровня. Дополнительно клиент 4 и прокси-сервер 2/мультимодальный сервер 3 могут обмениваться данными через асинхронное соединение (например, через GPRS службу или через синхронное соединение через сеть мобильной связи).
Но также возможно, что клиент 4 является фиксированным терминалом или терминалом, соединенным с прокси-сервером 2 и мультимодальным сервером 3 через WLAN-интерфейс (WLAN = беспроводная локальная сеть). В таком случае и сеть 11 связи, и сеть 12 связи составлены упомянутой выше IP-сетью.
Сервер 5 приложений выполняет одно или более мультимодальных приложений, например, приложений, имеющих мультимодальные возможности. Например, такие приложения могут быть закодированы в мультимодальном языке разметки, например, с помощью HTML+, SALT или X+V. Если к таким приложениям обратился клиент, то они предоставляют мультимодальный пользовательский интерфейс пользователю соответствующего клиента.
Клиент 4 имеет один или несколько процессоров, исполняющих программное обеспечение, и различные устройства ввода/вывода, например устройства 42, 43, 44, и 45 ввода/вывода. Исполнение такого программного обеспечения процессором клиента 4 обеспечивает функциональные возможности стандартного web-броузера 41, выполненного с возможностью обмена документами и представления документов, закодированных в HTML или XHTML. Устройство 42 ввода/вывода является дисплеем, клавиатурой, мышью и сенсорной панелью, устройство 43 ввода/вывода является громкоговорителем, устройство 44 ввода/вывода является микрофоном и устройство 45 ввода/вывода является пером для предоставления возможности рукописного ввода.
Прокси-сервер 2 является IP-сервером, расположенным в IP-сети. Но также возможна реализация функциональных возможностей прокси-сервера 2 в сервере сетевого доступа, управляющем доступом клиента 4 в упомянутую выше IP-сеть.
Прокси-сервер 2 состоит из одного или нескольких соединенных между собой компьютеров, программной платформы и множества прикладных программ, выполняющихся на этой платформе. Функциональные возможности прокси-сервера 2 обеспечиваются выполнением этого программного обеспечения на основе системной платформы. С функциональной точки зрения прокси-сервер 2 предоставляет один или более мультимодальных модулей доступа, каждый из которых имеет базу 21 данных, менеджер 22 диалогов, компоновщик 23 и один или более обработчиков 24 ресурса.
Мультимодальный сервер 3 является интернет-сервером, который предоставляет один или более ресурсных модулей, поддерживающих мультимодальное взаимодействие между пользователем 6 и клиентом 4. Например, мультимодальный сервер 3 содержит ресурсные модули 31, 32 и 33. Ресурсный модуль 31 является модулем распознавания речи, ресурсный модуль 32 является модулем преобразования текста в речь и ресурсный модуль 33 является модулем распознавания рукописного ввода. Ресурсные модули с 31 по 33 мультимодального сервера 3 могут совместно использоваться множеством мультимодальных модулей доступа, расположенных на разных прокси-серверах. Но также возможно, что ресурсные модули с 31 по 33 встроены в прокси-сервер 2 и используются исключительно одним или более мультимодальными модулями доступа, предоставляемыми прокси-сервером 2.
Менеджер 22 диалога осуществляет управление мультимодальным диалогом. При приеме HTTP-сообщения от клиента 4, который запрашивает доступ к мультимодальному приложению, он устанавливает мультимодальный диалог между этим мультимодальным приложением и пользователем 6 клиента 4. Он передает HTTP-запросы в соответствующей форме соответствующему мультимодальному серверу приложений, например мультимодальному серверу 5 приложений. При приеме ответа от сервера 5 приложений он взаимодействует с клиентом 4 посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и извлекает по меньшей мере один дополнительный ресурс модальности, запрошенный в мультимодальном диалоге.
Например, менеджер 22 диалога создает набор из одного или более скриптов, обеспечивающих ресурс модальности, или встраивает обработку мультимодальных событий посредством базы 21 данных. Он компонует скрипты в HTML- или XHTML-документ, отправляемый клиенту 4 для выполнения броузером 41. Дополнительно менеджер диалога может создавать набор из одного или более обработчиков ресурса для обеспечения интерфейса с прокси-сервером для этих скриптов.
Дополнительно менеджер 22 диалога извлекает - основываясь на ответе или ответах от сервера 5 приложений - один или более ресурсных модулей мультимодального сервера 3 и инициализирует сеанс между компонентами клиента 4 и этими извлеченными ресурсными модулями.
Например, менеджер 22 диалога создает HTML-документ 7 с набором скриптов 71, 72 и 73 и передает этот документ в качестве HTTP-ответа 92 клиенту 4. Скрипт 71 реализует вывод определенного голосового сообщения и добавляет ресурс «определенное голосовое сообщение» в качестве дополнительного ресурса модальности к набору возможностей броузера 41. Скрипт 73 встраивает обработку мультимодальных событий в HTML-документ 7. Например, скрипт связывает обработку мультимодальных событий с HTML-элементами документа 7, такими как поля ввода текста, списки, кнопки, ссылки и прочее. Предпочтительно скрипт 73 обменивается через коммуникационное соединение 93 HTML-сообщениями или XHTML-сообщениями с соответствующим обработчиком ресурса, расположенным на прокси-сервере 2, который обеспечивает прикладной интерфейс с прокси-сервером для скрипта 73.
Дополнительно менеджер 22 диалога выбирает ресурсные модули мультимодального сервера 3 в соответствии с определенными модальностями, запрошенными в мультимодальном диалоге, т.е. резервирует ресурсные модули и привязывает их к менеджеру 22 диалога.
Компоновщик 23 компонует мультимодальное взаимодействие с пользователем 6 на основе взаимодействий с клиентом 4, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов. Например, компоновщик 23 компонует мультимодальное взаимодействие в контексте мультимодального диалога из взаимодействий с 81 по 84, где взаимодействие 81 является взаимодействием, основывающимся на стандартном или расширенном языке гипертекстовой разметки, взаимодействие 82 является голосовым сообщением, созданным скриптом 71, взаимодействие 83 является голосовым вводом, обработанным ресурсным модулем 31 под управлением компоновщика 23 и скрипта 73, и взаимодействие 84 является рукописным вводом, обработанным ресурсным модулем 33 под управлением компоновщика 23 и скрипта 73.
Компоновщик 23 компонует мультимодальный диалог с пользователем 6 в соответствии с информацией, принятой от сервера 5 приложений, и событиями, принятыми от пользователя 6, при этом эти события могут быть предварительно обработаны скриптом 73.
Например, мультимодальное приложение запрашивает вывод информации в виде голосового сообщения или пользователь 6 выбирает, что вывод информации должен быть осуществлен в виде голосового сообщения. Система реализует это голосовое сообщение путем создания скрипта 71 и выполнения скрипта 71 броузером 41 или путем извлечения ресурсного модуля 23, установления RTP-соединения и инициализации сеанса между ресурсным модулем 32 и компонентом 43 клиента 4, и инициирования ресурсного модуля 32 через обработчик 24 ресурса для создания голосового сообщения и передачи его компоненту 43.
Например, скрипт 73 обнаруживает событие, означающее запрос от пользователя для выполнения голосового ввода. Скрипт 73 соединяется с прокси-сервером, который извлекает ресурсный модуль 31, инициирует установление RTP-соединения 94 с компонентом 44, инициирует сеанс между этими компонентами и принимает, и обрабатывает результаты выполненной ресурсным модулем 31 обработки.
Фиг.2 показывает некоторые подробные реализации мультимодальной системы, показанной на Фиг.1. Фиг.2 показывает клиент 4, прокси-сервер 2, сервер 5 приложений и ресурсные модули с 31 по 33. Клиент 4 содержит web-броузер 41 и компоненты с 43 по 45.
Скрипты с 71 по 73 выполнены в виде Java-скриптов. Броузер 41 содержит ActiveX-объект 46, используемый Java-скриптом для вызова сервлета (обслуживающей программы на стороне сервера) прокси-сервера 2, предоставленного соответствующим Java-классом. Сервлет обрабатывает информацию и создает соответствующую ответную информацию, которая обрабатывается ActiveX-объектом 46 и может быть использована скриптом без перезагрузки HTML-документа 41.
В данном контексте web-сторона, сформированная документом 41, играет роль клиента, и прокси-сервер 2 с сервлетом играет роль сервера. Формат сообщений, которыми обмениваются клиент и сервер, удовлетворяет XML-стандарту (XML = расширяемый язык разметки).
JAVA-скрипт 73 имеет функцию (запрос), запрашивающую через XML сообщение «XML-запрос» метод сервлета «управление сервлетом». Функция JAVA-скрипта (запрос) передает свой входной параметр «запрос XML-строки» строчного типа методу сервлета «управление сервлетом». В то же время она устанавливает обработчик события для события «изменение состояния готовности (Ready State)» для ActiveX-объекта 46. Если функция 74 Java-скрипта успешно принимает ответ от сервлета, обработчик события вызывает функцию «обработка XML-ответа» и передает DOM-документ ответа (DOM = объектная модель документа).
Java-функция 75, называющаяся «обработка XML-ответа», ожидает DOM-документ в качестве ввода, осуществляет поиск во вводе узла с именем "mathResponse" и вставляет это значение в текстовое поле документа 7.
Предпочтительно броузер 41 предоставляет XMLHTTP-объект, который может быть использован Java-скриптами с 71 по 73. Java-скрипт выполняется на броузере 41 клиента и отправляет XML-сообщения сервлету с использованием этого объекта. Например, XMLHTTP-объект поддерживается Microsoft Internet Explorer версии 5.0 или более поздней. Другие броузеры (например, Mozilla and Netscape версии 6) обеспечивают подобный интерфейс.
Информация (сообщения) может быть отправлена асинхронно по протоколу HTTP от сервера клиенту без перезагрузки страницы. Клиент делает неблокирующий запрос серверу, который принимает решение в отношении времени для ответа. Это имитирует технологию «server-push».
Обобщенное изложение сообщения XMLHTTP-объекта:
void open(String method, String url, Boolean async)
инициализирует запрос и задает метод, URL (URL = унифицированный указатель информационного ресурса) и то, будет ли вызов асинхронным или нет.
Методами являются "POST" и "GET".
void send(String message)
отправляет запрос.
void setRequestHeader(String parameter, String value)
устанавливает параметры в HTTP-заголовке.
String responseText()
возвращает ответ в виде строки.
XMLDOM responseXML()
возвращает ответ в виде XMLDOM.
EventHandler onreadystatechange()
обработчик события, который будет вызван, если параметр readyState изменится.
int readyState()
возвращает состояние соединения.
На стороне клиента периодически вызывается функция Java-скрипта «request ()». Если нет активного запроса, то она открывает новый HTTP-запрос посредством вызова команды POST XMLHTTP-объекта и отправки строки сообщения сервлету.
Сервлет, запущенный на сервере, принимает переданную строку, которую он может прочитать из потока ввода, и взаимодействует с приложением. После обработки потока ввода на основании статуса приложения сервлет формулирует свой ответ.
Параметр «async» может быть установлен в значение TRUE "Истина" в команде POST XMLHTTP-объекта для асинхронного выполнения запроса, что означает, что может пройти несколько секунд или минут между передачей и приемом без блокирования HTML-броузера. Таким образом, сервлет может ожидать его ответа, пока событие «push» («проталкивание») не будет вызвано приложением. Эта новая информация передается клиенту.
Когда клиент принимает ответ, событие «onreadystatechange» XMLHTTP-объекта вызывается с параметром «readyState», имеющим значение 4. Обработчик события, установленный на это событие, может затем обработать ответ.
Благодаря этому механизму нет необходимости в перезагрузке HTTP-документа, и обмен информацией между скриптами с 71 по 73 и соответствующими обработчиками ресурса является для пользователя невидимым.
Обработчик 24 ресурса предоставляет MMAPI-HTTP-интерфейс (MMAPI = мультимодальный интерфейс прикладного программирования). Он содержит набор из одного или более сервлетов, например, сервлеты 25 и 26, непосредственно взаимодействующие со скриптами с 71 по 73, и поддерживает взаимодействие со скриптами с 71 по 73 через XML-запросы и XML-ответы. Дополнительно он содержит набор MMAPI-компонентов, служащих в качестве интерфейса для связи с модулями с 31 по 33 ресурсов. Например, Фиг.2 показывает MMAPI-компонент 27, имеющий сокет 274, буфер 271 запроса, буфер 272 ответа и поток 273 наблюдения.
Сокет 274 поддерживает связь между MMAPI-компонентом 27 и соответствующим ресурсным модулем, например, ресурсным модулем 33, через TCP/IP соединение связи. Он анализирует буфер запроса 271 и передает соответствующие запросы через это соединение связи. Поток сервера сканирует информацию, принятую через TCP/IP соединение, и заполняет буфер ответа, если он обнаружил соответствующие ответы.
Сервлеты 25 и 26 передают запросы в буфер запроса и принимают ответы из буфера ответа с помощью соответствующих функций заполнения запроса и получения ответа. Таким образом, система выполняет синхронный обмен данными между сервлетами и MMAPI-компонентами.
Ресурсы с 31 по 33 предоставляют функциональные возможности для связи с клиентом 4 через TCP/IP-соединение и через RTP-соединение. Например, ресурсный модуль 33 содержит модуль 34 связи, поддерживающий TCP/IP-интерфейс, и модуль 35 связи, поддерживающий RTP-интерфейс. Каждый из ресурсных модулей с 31 по 33 может подобным образом поддерживать множество клиентов.
Например, MMAPI-компонент 27 передает запрос на инициализацию сеанса ресурсному модулю 33, который устанавливает соответствующий сеанс с предназначенным для этого компонентом клиента 4 и возвращает результаты этого сеанса.

Claims (10)

1. Способ обеспечения мультимодального диалога между мультимодальным приложением (5) и пользователем (6), осуществляющим связь с мультимодальным приложением (5) через клиент (4), выполненный с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом способ содержит этапы, на которых
устанавливают мультимодальный диалог между мультимодальным приложением (5) и пользователем (6) через прокси-сервер (2), взаимодействующий с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки;
извлекают с помощью прокси-сервера (2), по меньшей мере один дополнительный ресурс (71, 72, 73, 31, 32, 33) модальности, запрашиваемый в мультимодальном диалоге; и компонуют с помощью прокси-сервера (2) мультимодальное взаимодействие с пользователем (6) на основе взаимодействий (81) с клиентом, основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33).
2. Способ по п.1, отличающийся тем, что содержит дополнительные этапы, на которых компонуют набор из одного или более запрошенных ресурсов (71, 72, 73) в документ (7), представленный в стандартном или расширенном языке гипертекстовой разметки; передают документ (7) клиенту (4).
3. Способ по п.2, отличающийся тем, что прокси-сервер (2) создает скрипт (71), предоставляющий ресурс модальности, и компонует скрипт (71) в документ (7).
4. Способ по п.2, отличающийся тем, что прокси-сервер (2) создает скрипт (73) для встраивания обработки мультимодального события в документ (7) и компонует скрипт (73) в документ (7).
5. Способ по п.4, отличающийся тем, что содержит дополнительные этапы, на которых создают обработчик (24) ресурса, который предоставляет интерфейс с прокси-сервером для скрипта (73), и обмениваются сообщениями (93) в соответствии со стандартным или расширенным языком гипертекстовой разметки между скриптом (73), расположенным на клиенте (4), и обработчиком (24) ресурса, расположенным на прокси-сервере (2).
6. Способ по п.1, отличающийся тем, что прокси-сервер (2) извлекает ресурсный модуль (31, 32, 33), в частности модуль распознавания речи, преобразования текста в речь или распознавания рукописного ввода, в соответствии с модальностью, запрошенной в мультимодальном диалоге, инициализирует сеанс (94) между клиентом (4) и извлеченным модулем (31, 32, 33) ресурса и компонует мультимодальное взаимодействие на основе инициализированного сеанса (94).
7. Способ по п.6, отличающийся тем, что содержит дополнительные этапы, на которых создают обработчик (24) ресурса для выбранного ресурсного модуля (31, 32, 33), который предоставляет интерфейс с прокси-сервером для скрипта (73), расположенного на клиенте (4), при этом обработчик (24) ресурса дает возможность скрипту (73) обмениваться информацией с извлеченным ресурсным модулем (31, 32, 33), в частности с модулем распознавания речи, преобразования текста в речь или распознавания рукописного ввода.
8. Способ по п.6, отличающийся тем, что содержит дополнительный этап, на котором создают обработчик (24) ресурса для извлеченного ресурсного модуля (31, 32, 33), причем этот обработчик ресурса осуществляет связь через ТСРЛР-соединение с ресурсным модулем (31, 32, 33).
9. Способ по п.6, отличающийся тем, что содержит дополнительный этап, на котором устанавливают RTP-соединение между компонентами (43, 44, 45) клиента (4) и извлеченным ресурсным модулем (31, 32, 33).
10. Прокси-сервер (2) для поддержки мультимодальных диалогов между мультимодальными приложениями (5) и пользователями (6), осуществляющими связь с мультимодальным приложением с помощью соответствующих клиентов (4), выполненных с возможностью обмена документами и представления документов, закодированных в стандартном или расширенном языке гипертекстовой разметки, при этом прокси-сервер содержит менеджер (22) диалога, выполненный с возможностью установления мультимодального диалога между мультимодальным приложением (5) и пользователем (6) через прокси-сервер (2), для взаимодействия с клиентом (4) посредством обмена информацией, закодированной в стандартном или расширенном языке гипертекстовой разметки, и для извлечения по меньшей мере одного дополнительного ресурса (71, 72, 73, 31, 32, 33) модальности, запрошенного в мультимодальном диалоге, и компоновщик (23) для компонования мультимодального взаимодействия с пользователем на основе взаимодействий с клиентом (4), основывающихся на стандартном или расширенном языке гипертекстовой разметки, и на основе извлеченных дополнительных ресурсов (71, 72, 73, 31, 32, 33).
RU2006102661/09A 2004-05-18 2005-05-10 Способ и сервер для обеспечения мультимодального диалога RU2390958C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04291272A EP1599007B1 (en) 2004-05-18 2004-05-18 Method and server for providing a multi-modal dialog
EP04291272.5 2004-05-18

Publications (2)

Publication Number Publication Date
RU2006102661A RU2006102661A (ru) 2007-08-10
RU2390958C2 true RU2390958C2 (ru) 2010-05-27

Family

ID=34931109

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006102661/09A RU2390958C2 (ru) 2004-05-18 2005-05-10 Способ и сервер для обеспечения мультимодального диалога

Country Status (8)

Country Link
US (1) US20050261909A1 (ru)
EP (1) EP1599007B1 (ru)
CN (1) CN100527729C (ru)
AT (1) ATE373380T1 (ru)
DE (1) DE602004008887T2 (ru)
MX (1) MXPA05013745A (ru)
RU (1) RU2390958C2 (ru)
WO (1) WO2005112386A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2589359C2 (ru) * 2010-12-07 2016-07-10 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Мультимодальные телефонные вызовы

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799464B2 (en) * 2001-12-28 2014-08-05 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US8181112B2 (en) * 2004-05-21 2012-05-15 Oracle International Corporation Independent portlet rendering
CN100535900C (zh) * 2005-12-06 2009-09-02 国际商业机器公司 用于提供异步门户页的方法和系统
US20070133773A1 (en) 2005-12-08 2007-06-14 International Business Machines Corporation Composite services delivery
US11093898B2 (en) 2005-12-08 2021-08-17 International Business Machines Corporation Solution for adding context to a text exchange modality during interactions with a composite services application
US10332071B2 (en) * 2005-12-08 2019-06-25 International Business Machines Corporation Solution for adding context to a text exchange modality during interactions with a composite services application
US8259923B2 (en) * 2007-02-28 2012-09-04 International Business Machines Corporation Implementing a contact center using open standards and non-proprietary components
JP2008129713A (ja) * 2006-11-17 2008-06-05 Fujitsu Ltd 複数のモダリティを関連付けるための方法、そのプログラムおよび複数モダリティを関連付けるマルチモーダルシステム
US8594305B2 (en) 2006-12-22 2013-11-26 International Business Machines Corporation Enhancing contact centers with dialog contracts
US9055150B2 (en) 2007-02-28 2015-06-09 International Business Machines Corporation Skills based routing in a standards based contact center using a presence server and expertise specific watchers
US20080205625A1 (en) * 2007-02-28 2008-08-28 International Business Machines Corporation Extending a standardized presence document to include contact center specific elements
US9247056B2 (en) 2007-02-28 2016-01-26 International Business Machines Corporation Identifying contact center agents based upon biometric characteristics of an agent's speech
US7865544B2 (en) 2007-06-26 2011-01-04 International Business Machines Corporation Method and system for providing XML-based asynchronous and interactive feeds for web applications
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8881020B2 (en) * 2008-06-24 2014-11-04 Microsoft Corporation Multi-modal communication through modal-specific interfaces
US8843849B2 (en) * 2009-11-09 2014-09-23 Blackberry Limited Directional navigation of page content
US20110119389A1 (en) * 2009-11-19 2011-05-19 Microsoft Corporation Transferring multiple communication modalities during a conversation
US9052796B2 (en) 2012-01-08 2015-06-09 Microsoft Technology Licensing Llc Asynchronous handling of an input stream dedicated to multiple targets
US9537899B2 (en) 2012-02-29 2017-01-03 Microsoft Technology Licensing, Llc Dynamic selection of security protocol
US10262555B2 (en) * 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
CN110399040B (zh) * 2019-07-23 2023-05-12 芋头科技(杭州)有限公司 多模态交互方法、用户端设备、服务器及系统
US11308259B2 (en) * 2020-03-09 2022-04-19 Servicenow, Inc. Web element retargeting

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3733218B2 (ja) * 1997-09-30 2006-01-11 キヤノン株式会社 中継装置及びその制御方法及び記憶媒体
US6356533B1 (en) * 1998-08-07 2002-03-12 At&T Corp Apparatus and method for selecting communication modes
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE60008483T2 (de) * 1999-11-09 2004-06-24 Nortel Networks Ltd., St. Laurent Telefondiensten in einem Kommunikationsnetzwerk
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US7072984B1 (en) * 2000-04-26 2006-07-04 Novarra, Inc. System and method for accessing customized information over the internet using a browser for a plurality of electronic devices
US7464381B1 (en) * 2000-05-12 2008-12-09 Oracle International Corporation Content update proxy method
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
GB0108044D0 (en) * 2001-03-30 2001-05-23 British Telecomm Application synchronisation
AU2002251205A1 (en) * 2001-03-30 2002-10-15 British Telecommunications Public Limited Company Multi-modal interface
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7136909B2 (en) * 2001-12-28 2006-11-14 Motorola, Inc. Multimodal communication method and apparatus with multimodal profile
US8799464B2 (en) * 2001-12-28 2014-08-05 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US6804330B1 (en) * 2002-01-04 2004-10-12 Siebel Systems, Inc. Method and system for accessing CRM data via voice
WO2003071422A1 (en) * 2002-02-18 2003-08-28 Kirusa, Inc. A technique for synchronizing visual and voice browsers to enable multi-modal browsing
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US6704396B2 (en) * 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
US20030187944A1 (en) * 2002-02-27 2003-10-02 Greg Johnson System and method for concurrent multimodal communication using concurrent multimodal tags
US7315613B2 (en) * 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
SE0202058D0 (sv) * 2002-07-02 2002-07-02 Ericsson Telefon Ab L M Voice browsing architecture based on adaptive keyword spotting
US20040128342A1 (en) * 2002-12-31 2004-07-01 International Business Machines Corporation System and method for providing multi-modal interactive streaming media applications
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
KR100561228B1 (ko) * 2003-12-23 2006-03-15 한국전자통신연구원 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2589359C2 (ru) * 2010-12-07 2016-07-10 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Мультимодальные телефонные вызовы

Also Published As

Publication number Publication date
ATE373380T1 (de) 2007-09-15
EP1599007B1 (en) 2007-09-12
CN100527729C (zh) 2009-08-12
MXPA05013745A (es) 2006-03-13
CN1700692A (zh) 2005-11-23
DE602004008887T2 (de) 2008-01-17
EP1599007A1 (en) 2005-11-23
RU2006102661A (ru) 2007-08-10
DE602004008887D1 (de) 2007-10-25
US20050261909A1 (en) 2005-11-24
WO2005112386A1 (en) 2005-11-24

Similar Documents

Publication Publication Date Title
RU2390958C2 (ru) Способ и сервер для обеспечения мультимодального диалога
US7861174B2 (en) Method and system for assembling concurrently-generated content
US7587447B2 (en) Systems, methods and computer programs for implementing and accessing web services
EP1562347B1 (en) Methods and apparatus for utilizing user software to communicate with network-resident services
US20040117804A1 (en) Multi modal interface
US20040117409A1 (en) Application synchronisation
US20090013035A1 (en) System for Factoring Synchronization Strategies From Multimodal Programming Model Runtimes
US20030105819A1 (en) Web collaborative browsing system and method using internet relay chat protocol
US20020055956A1 (en) Method and system for assembling concurrently-generated content
US20040003033A1 (en) Method and system for generating a web service interface
TW200412060A (en) System and method for using portals by mobile devices in a disconnected mode
US8448059B1 (en) Apparatus and method for providing browser audio control for voice enabled web applications
EP1652112B1 (en) System and method for configuring servlet-based components as dynamic content components
US8065715B2 (en) Authenticating a user of a wireless data processing device
JP2004046810A (ja) クライアント/サーバ環境におけるアプリケーションステップのディスパッチ方法及びサービスポータルシステム
US20070156839A1 (en) Web services for wireless pervasive devices
WO2001048630A2 (en) Client-server data communication system and method for data transfer between a server and different clients
WO2002061587A2 (en) Method and system for wireless access to a user's computer
US20080005173A1 (en) Method of and system for data interaction in a web-based database application environment
JP2004534292A (ja) ユーザブラウザのリアルタイム制御システム及び方法
KR20100097740A (ko) 단일 요청 기반 메시지에 의한 일련의 웹 서비스들의 인보케이션을 위한 디바이스들 및 방법
Hassan Choosing the Right Communication Protocol for your Web Application
Huynh Developing WAP services with Allaire's ColdFusion
Li et al. An adaptable architecture for secure delivery of converged services
EP1360598B1 (en) Assembling concurrently-generated personalized web pages

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20180511