RU108172U1

RU108172U1 - MULTI-MODAL MOBILE INFORMATION SERVICE AUTOMATIC

Info

Publication number: RU108172U1
Application number: RU2011112161/08U
Authority: RU
Inventors: Андрей Львович Ронжин; Мария Викторовна Прищепа; Виктор Юрьевич Будков; Алексей Анатольевич Карпов
Original assignee: Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2011-09-10
Also published as: RU108172U8

Abstract

Устройство для автоматического предоставления пользователям информационно-справочных услуг в ходе многомодального диалога и самостоятельного передвижения по заданной территории обслуживания, содержащее информационную стойку, которая имеет две рабочих стороны с одинаковым функционалом и расположением средств захвата и отображения аудиовизуальной информации, оснащена двумя сенсорными мониторами, четырьмя видеокамерами, встроенными слева и справа от каждого монитора; двумя массивами микрофонов, бортовым компьютером, обрабатывающим данные, поступающие с камер, микрофонов, сенсорных мониторов, датчиков препятствий, и установлена на подвижной платформе, компоновочная схема шасси которой состоит из двух ведущих и двух флюгерных колес, а для обнаружения препятствий по внешней окружности платформы расположены четыре ультразвуковых и восемь инфракрасных датчиков; встроенные аккумуляторы обеспечивают автономную работу всех бортовых устройств и электроприводов шасси, отличающееся тем, что массивы микрофонов имеют Т-образную конфигурацию и выполняют многоканальную запись аудиоданных, которые далее обрабатываются в программном блоке пространственно-спектральной фильтрации полезного речевого сигнала и в программном блоке распознавания речи, реализованных в бортовом компьютере устройства; сенсорные мониторы, обеспечивающие ввод/вывод графической информации, в комплексе с динамиками служат для аудиовизуального вывода речевой информации посредством виртуальной трехмерной модели головы человека с выраженной артикуляцией губ и синхронного синтеза аудиосигнала речевого сообщения, генерируемых в п A device for automatically providing users with information and reference services during a multimodal dialogue and independent movement over a given service area, containing an information desk that has two working sides with the same functionality and location of means for capturing and displaying audiovisual information, is equipped with two touch monitors, four video cameras, embedded to the left and right of each monitor; two arrays of microphones, an on-board computer that processes data coming from cameras, microphones, touch monitors, obstacle sensors, and is installed on a mobile platform, the layout of the chassis of which consists of two driving and two vane wheels, and for detecting obstacles along the outer circumference of the platform four ultrasound and eight infrared sensors; built-in batteries provide autonomous operation of all on-board devices and chassis electric drives, characterized in that the microphone arrays are T-shaped and perform multichannel recording of audio data, which are further processed in the spatial spectral filtering program block of the useful speech signal and in the speech recognition program block implemented in the on-board computer of the device; touch monitors providing input / output of graphic information, in combination with speakers, are used for audiovisual output of speech information through a virtual three-dimensional model of the human head with pronounced lip articulation and synchronous synthesis of the audio signal of the voice message generated in

Description

Техническое. решение относится к вычислительной технике, в частности, к устройствам манипулирования данными, представленными на естественном языке, и может быть использовано для массового обслуживания и оказания информационно-справочных услуг в общественных местах, например торговых комплексах, развлекательных центрах, транспортных узлах и т.д.Technical the solution relates to computer technology, in particular, to devices for manipulating data presented in a natural language, and can be used for mass service and the provision of information and reference services in public places, for example, shopping malls, entertainment centers, transport hubs, etc.

Существуют устройства [1, 2, 3] (банкоматы), предназначенные для оказания информационных услуг населению. Область применения ограничена их прикладным назначением и техническим исполнением. Данные устройства оборудованы картоприемниками, клавиатурами, мониторами, динамиками, камерами и микрофонами. Устройства предназначены для выполнения операций с банковскими картами. Камеры и микрофоны в этих устройствах используются для работы системы безопасности. Способы взаимодействия пользователя с устройством ограничены вводом данных с помощью клавиатуры, либо сенсорного экрана (в некоторых случаях), а вся необходимая пользователю информация выводится на дисплей. Данные устройства не способны взаимодействовать с пользователем альтернативными способами на основе анализа/синтеза речи, жестов и других естественных модальностей и, следовательно, не могут быть использованы некоторыми группами населения, например слабовидящими или некоторыми глухими людьми.There are devices [1, 2, 3] (ATMs) designed to provide information services to the public. The scope is limited by their application and technical performance. These devices are equipped with card readers, keyboards, monitors, speakers, cameras and microphones. The devices are designed to perform operations with bank cards. Cameras and microphones in these devices are used to operate the security system. The ways the user interacts with the device are limited to entering data using the keyboard or touch screen (in some cases), and all the information the user needs is displayed. These devices are not able to interact with the user in alternative ways based on the analysis / synthesis of speech, gestures and other natural modalities and, therefore, cannot be used by some groups of the population, for example visually impaired or some deaf people.

Известны устройства [4, 5, 6], служащие в качестве платежных, справочных и рекламно-развлекательных терминалов. Данный вид устройств предоставляет информационно-справочную или рекламную информацию, вывод которой осуществляется как визуально с помощью мониторов, так и в озвученном виде через динамики. Также известны устройства, дополнительно оснащенные датчиками присутствия посетителя [7], при срабатывании которых устройство выходит из рекламного режима и выводит на дисплей графическое меню с предоставляемыми услугами. Также существуют распределенные справочные системы, при использовании которых клиент передает и получает информацию с помощью персонального пользовательского устройства, соединенного информационным каналом с серверной частью, где происходит обработка запроса [8].Known devices [4, 5, 6], serving as payment, reference and advertising terminals. This type of device provides information and reference or advertising information, the output of which is carried out both visually using monitors, and in a voiced form through the speakers. Also known are devices additionally equipped with visitor presence sensors [7], when triggered, the device exits the advertising mode and displays a graphical menu with the services provided. There are also distributed help systems, using which the client transmits and receives information using a personal user device connected by an information channel to the server part, where the request is processed [8].

Наиболее близким к заявленному устройству по техническим характеристикам является устройство [9], содержащее центральный блок управления, выполненный в виде компьютера, панель выбора товара с клавиатурой, устройство отображения информации, микрофон записи звуковых сообщений и посланий и звуковое устройство, соединенное с компьютером, датчик приближения и устройство записи видео- и фотоинформации, выполненное в виде веб- или фотокамеры, соединенной с компьютером. Данное устройство не способно использовать дополнительные информационные каналы, естественные для пользователя. Устройство является стационарным, не имеющим возможности самостоятельного передвижения, и выпускается в напольной или навесной модификациях. Это устройство обслуживает только пользователей, находящихся в непосредственной близости, и не всегда доступно для людей с ограниченными физическими возможностями. Недостатком данного устройства являются ограниченные возможности по естественному бесконтактному взаимодействию с пользователем и ограниченная зона обслуживания, обусловленная стационарностью устройства.Closest to the claimed device according to technical characteristics is a device [9], comprising a central control unit made in the form of a computer, an item selection panel with a keyboard, an information display device, a microphone for recording audio messages and messages, and an audio device connected to the computer, an proximity sensor and a device for recording video and photo information, made in the form of a web or camera connected to a computer. This device is not able to use additional information channels that are natural to the user. The device is stationary, not capable of independent movement, and is available in floor or wall mounted versions. This device only serves users in close proximity, and is not always accessible for people with disabilities. The disadvantage of this device is the limited natural contactless interaction with the user and the limited service area due to the stationary device.

Новизной заявляемого технического решения является применение средств и технологий, реализующих многомодальное взаимодействие пользователя с информационно-справочной системой, и расширение зоны функционирования за счет мобильности устройства. Это достигается путем совмещения нескольких информационных каналов, позволяющих выбирать наиболее подходящий для каждого пользователя способ коммуникации. Наличие нескольких возможных способов взаимодействия обеспечивается в первую очередь техническим и технологическим оснащением устройства. Ниже на изображении представлена схема устройства.The novelty of the claimed technical solution is the use of tools and technologies that implement multimodal user interaction with the information and reference system, and the expansion of the zone of operation due to the mobility of the device. This is achieved by combining several information channels, allowing you to choose the most suitable communication method for each user. The presence of several possible methods of interaction is provided primarily by the technical and technological equipment of the device. The image below shows a diagram of the device.

Изделие представляет собой информационную стойку, установленную на подвижной платформе. Стойка оснащена двумя сенсорными мониторами, расположенными на двух ее противоположных сторонах и предназначенных для ввода и вывода информации. Четыре видеокамеры установлены слева и справа от каждого из мониторов и обеспечивают дистанционное обнаружение пользователей и отслеживание их перемещений. Массивы микрофонов Т-образной геометрии обеспечивают аудиолокализацию пользователя по его речи относительно устройства и работу системы распознавания речи. Вся информация, поступающая с камер, микрофонов и сенсорных мониторов, обрабатывается бортовым компьютером, встроенным в информационную стойку.The product is an information stand mounted on a movable platform. The rack is equipped with two touch monitors located on its two opposite sides and designed to input and output information. Four cameras are installed to the left and right of each of the monitors and provide remote detection of users and tracking their movements. Arrays of microphones of T-shaped geometry provide audio-localization of the user according to his speech relative to the device and the operation of the speech recognition system. All information coming from cameras, microphones and touch monitors is processed by the on-board computer built into the information desk.

Для самостоятельного перемещения по заданной территории устройство оснащено подвижной платформой, компоновочная схема шасси которой состоит из двух ведущих и двух флюгерных колес; для обнаружения препятствий по внешней окружности платформы расположены четыре ультразвуковых и восемь инфракрасных датчиков, обеспечивающих своевременное обнаружение препятствий, возникающих по курсу движения устройства.For independent movement over a given territory, the device is equipped with a mobile platform, the layout of the chassis of which consists of two driving and two vane wheels; Four ultrasonic and eight infrared sensors are located to detect obstacles along the outer circumference of the platform, providing timely detection of obstacles arising at the direction of movement of the device.

Перемещение по заданной территории обеспечивается составленными картами местности, с обозначенными основными статическими препятствиями. Устройство перемещается по маршрутам, задаваемым на этой карте. Маршруты составляются таким образом, чтобы полностью покрывать территорию и иметь возможность доступа к любой возможной точке зоны обслуживания. В подвижной платформе также находятся платы управления приводами и датчиками, соединенные с бортовым компьютером.Moving over a given territory is provided by compiled maps of the area, with the main static obstacles indicated. The device moves along the routes specified on this map. Routes are designed in such a way as to completely cover the territory and have the ability to access any possible point in the service area. The mobile platform also contains drive and sensor control boards connected to the on-board computer.

Вся информация, поступающая по информационным каналам в бортовой компьютер, обрабатывается с последующей выработкой команд и выбора режима работы устройства.All information coming through the information channels to the on-board computer is processed with the subsequent development of commands and the choice of the operation mode of the device.

Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного устройства. Разработанные авторами технологии обработки аудиовизуальных данных внедрены в устройство для обеспечения естественного и интуитивно понятного взаимодействия с пользователем [10]. Наиболее важными технологиями являются автоматическое распознавание речи, локализация источников звука, определение положения и слежение за лицом человека, аудиовизуальный синтез русской речи («говорящая голова»).The presence of a multimodal user interface is a distinctive characteristic of the created device. The audio-visual data processing technologies developed by the authors are embedded in the device to provide natural and intuitive user interaction [10]. The most important technologies are automatic speech recognition, localization of sound sources, positioning and tracking a person’s face, an audiovisual synthesis of Russian speech (“talking head”).

Метод спектрально-пространственного анализа речевой активности использован в системе дистанционной записи и распознавания речи. Пространственная локализация диктора осуществляется за счет использования антропоморфных моделей слуха и трехмерной геометрии массива микрофонов. Определение значения максимума корреляции взаимного спектра пар сигналов, записанных разными микрофонами, позволяет оценить разность фаз между сигналами, а последующее вычисление координат источника звука производится методом триангуляции. Уровень энергии взаимного спектра сигналов и оценка допустимого положения диктора используется для определения границ речи в многоканальном звуковом потоке, записанном в зашумленных местах массового использования [11].The method of spectral-spatial analysis of speech activity is used in the system of remote recording and speech recognition. Spatial localization of the speaker is carried out through the use of anthropomorphic models of hearing and three-dimensional geometry of the array of microphones. Determining the value of the correlation maximum of the mutual spectrum of pairs of signals recorded by different microphones allows us to estimate the phase difference between the signals, and the subsequent calculation of the coordinates of the sound source is performed by the triangulation method. The energy level of the mutual spectrum of the signals and the assessment of the acceptable position of the speaker is used to determine the boundaries of speech in a multi-channel audio stream recorded in noisy places of mass use [11].

Для системы распознавания русской речи использована модель компактного представления словаря сверхбольшого размера на базе двухуровневого морфофонемного префиксного графа (ДМПГ). За счет интеграции морфемного и фонетического уровней в единой древовидной структуре словаря обеспечивается компактное представление словоформ и их фонематических транскрипций [12]. В процессе декодирования русской слитной речи ДМПГ обеспечивает формирование на выходе распознавателя грамматически правильных слов и позволяет увеличить скорость распознавания речи.For the Russian speech recognition system, a model of compact representation of an extra-large dictionary based on a two-level morphophoneemic prefix graph (DMPG) is used. By integrating the morphemic and phonetic levels in a single tree-like structure of the dictionary, a compact representation of word forms and their phonemic transcriptions is provided [12]. In the process of decoding Russian continuous speech, DMPG provides the formation of grammatically correct words at the recognizer output and allows increasing the speed of speech recognition.

Алгоритм определения положения и видеослежения за подвижным объектом основан на оценке изменений в соседних кадрах, а также учитывает реальные размеры людей, скорости и направления их перемещений, зоны допустимого появления объектов, что делает алгоритм устойчивым по отношению к внезапным изменениям освещенности и позволяет различать объекты в случае их сближения.The algorithm for determining the position and video tracking of a moving object is based on the assessment of changes in neighboring frames, and also takes into account the real size of people, the speed and direction of their movements, the zone of acceptable appearance of objects, which makes the algorithm resistant to sudden changes in illumination and allows you to distinguish objects in the case of their rapprochement.

Одним из основных компонентов подсистемы вывода информации в информационной стойке, помимо графического пользовательского интерфейса, является модель аудиовизуального синтеза речи («говорящая голова»), или виртуальный анимированный помощник (аватар) [13]. Аватар - это трехмерная модель лица человека с двигающимися глазами, ртом и лицевыми мускулами. Модель аватара может разговаривать, синхронизируя движения рта, губ и зубов с синтезированным голосом или заранее сделанной аудиозаписью. Синхронизация движения губ с синтезированной или записанной речью создает иллюзию «живой говорящей головы». Модель аватара имеет подвижные глаза, веки и лицевые мускулы, что позволяет ему выразительно отображать широкий спектр эмоций.One of the main components of the information output subsystem in the information rack, in addition to the graphical user interface, is a model of audiovisual speech synthesis (“talking head”), or a virtual animated assistant (avatar) [13]. An avatar is a three-dimensional model of a person’s face with moving eyes, mouth and facial muscles. An avatar model can talk by synchronizing the movements of the mouth, lips and teeth with a synthesized voice or pre-recorded audio. Synchronizing lip movement with synthesized or recorded speech creates the illusion of a “living talking head." The avatar model has moving eyes, eyelids and facial muscles, which allows it to expressively display a wide range of emotions.

Аватар информационной стойки выполняет две функции. Во-первых, используя информацию о перемещениях клиента, полученную от системы компьютерного зрения, он способен симулировать проявление внимания к клиенту. Устройство отслеживает положение и перемещение потенциальных пользователей, а аватар поворачивается и наблюдает за приближающимися клиентами. Когда клиент подходит достаточно близко и проявляет интерес к киоску, аватар произносит приветствие. Используя данные о перемещениях клиента и динамическую модель движения головы, аватар поворачивается таким образом, чтобы все время быть направленным на клиента, при этом глаза аватара фокусируются на лице человека. По мере того как клиент осуществляет поиск нужной информации, аватар помогает ему, давая вербальные указания по поводу навигации, отвечая на вопросы и обеспечивая клиента другой полезной информацией. Аватар привлекает людей к информационно-справочной стойке, побуждает их пользоваться им и даже развлекает их. Внимание проходящих мимо людей привлекается, когда аватар поворачивает голову в их сторону и наблюдает за ними.The information desk avatar performs two functions. Firstly, using the information about the client’s movements received from the computer vision system, he is able to simulate the manifestation of attention to the client. The device tracks the position and movement of potential users, and the avatar turns and watches approaching customers. When the client comes close enough and shows interest in the kiosk, the avatar says a greeting. Using data on the client’s movements and a dynamic model of head movement, the avatar is rotated in such a way that it is always directed at the client, while the avatar’s eyes are focused on the person’s face. As the client searches for the right information, the avatar helps him by giving verbal instructions on navigation, answering questions, and providing the client with other useful information. An avatar attracts people to the information desk, encourages them to use it, and even entertains them. The attention of people passing by is attracted when the avatar turns his head in their direction and watches them.

Множество режимов работы информационно-справочного устройства включает: диалог с посетителем; сопровождение посетителя; рекламный режим; движение на парковку. В каждом из режимов рассчитывается свой маршрут передвижения и способ взаимодействия с посетителями. Также на выбор режима и изменение маршрута влияет возникновение динамических препятствий и состояние аккумуляторных батарей робота. При появлении посетителя в зоне речевого диалога производится аудиовизуальный синтез приветствия и запрашивается название интересующего объекта, после чего робот сопровождает посетителя до нужного места и вновь переходит в режим рекламирования. Логическая модель переходов в различные режимы представлена ниже.Many operating modes of an information and reference device include: dialogue with a visitor; escort of the visitor; advertising mode; movement to the parking lot. In each of the modes, its own route of movement and the method of interaction with visitors are calculated. Also, the occurrence of dynamic obstacles and the condition of the robot's batteries affect the choice of mode and change of route. When a visitor appears in the speech dialogue area, an audio-visual synthesis of the greeting is performed and the name of the object of interest is requested, after which the robot accompanies the visitor to the desired location and switches back to advertising mode. The logical model of transitions to various modes is presented below.

В режиме движения с выводом рекламы, на мониторах устройства проигрывается рекламная информация, при появлении пользователя в зоне взаимодействия устройство переходит в режим диалога с пользователем.In the movement mode with advertising output, advertising information is played on the device’s monitors, when a user appears in the interaction zone, the device enters a dialogue mode with the user.

Режим диалога с пользователем включает в себя установление контакта с пользователем, выявление его предпочтений и предоставление необходимой информационно-справочной информации. Также в этом режиме происходит слежение за перемещением пользователя.The dialogue mode with the user includes establishing contact with the user, identifying his preferences and providing the necessary information and reference information. Also in this mode, tracking the movement of the user.

Режим сопровождения посетителей, заключается в предоставлении услуги сопровождения по запросу пользователя. В этом режиме устройство автоматически выбирает маршрут до интересующего пользователя места и перемещается в это место, предлагая пользователю следовать за ним.The mode of escorting visitors is to provide escort services at the request of the user. In this mode, the device automatically selects a route to the place of interest to the user and moves to this place, prompting the user to follow it.

В режиме движения на парковку устройство переходит автоматически по окончании рабочего дня или при обнаружении снижения зарядов аккумуляторов до критического значения.In driving mode, the device switches to parking automatically at the end of the working day or when it detects a decrease in battery charge to a critical value.

Во всех режимах работы происходит опрос датчиков препятствий и состояния аккумуляторов. При снижении заряда аккумуляторов устройство оповещает об этом пользователей, если они есть, и переходит в режим движения на парковку.In all operating modes, there is a survey of obstacle sensors and battery status. When the battery charge decreases, the device notifies users of this, if any, and switches to the parking mode.

Базовый сценарий поведения устройства в режиме диалога в зависимости от действий пользователя, представлен ниже, где отражены наиболее типичные случаи взаимодействия, например: (1) пользователь прошел мимо устройства слишком быстро, чтобы сработал модуль видеолокализации; (2) пользователь вошел в зону видеомониторинга, был запущен аудиовизуальный синтез приветствия, но пользователь прошел дальше; (3) пользователь произнес голосовую команду в зоне речевого диалога, его аудиосигнал был зарегистрирован как полезный, распознан, произведен поиск необходимой информации в базе данных, а результат выведен на экран киоска и синтезирован посредством «говорящей головы», после чего пользователь ушел от устройства, получив нужные ему данные.The basic scenario of the device’s behavior in the dialogue mode depending on the user's actions is presented below, where the most typical cases of interaction are reflected, for example: (1) the user passed the device too quickly to trigger the video localization module; (2) the user entered the video monitoring zone, the audiovisual synthesis of the greeting was started, but the user went further; (3) the user made a voice command in the area of the speech dialogue, his audio signal was registered as useful, recognized, the necessary information was searched in the database, and the result was displayed on the kiosk screen and synthesized by means of a “talking head”, after which the user left the device, Having received the data he needs.

Отметим что, приветствие инициируется только для первого человека, вошедшего в зону видеомониторинга пользователя. Если во время текущего сеанса модуль видеолокализации обнаруживает еще лица, то приветствие не запускается. Однако говорящая голова аватара направляется на лицо того пользователя, который расположен ближе всего к устройству. После ухода пользователя и отсутствия других лиц в зоне видеомониторинга в течение определенного времени устройство снова переходит в начальное состояние. В ходе одного сеанса взаимодействия пользователь может сделать несколько голосовых запросов к устройству, в этом случае этапы аудиообработки и вывода информации на экран повторяются соответствующее число раз.Note that the greeting is initiated only for the first person who entered the user’s video monitoring zone. If during the current session the video locator still detects faces, then the greeting will not start. However, the talking head of the avatar is directed to the face of the user who is located closest to the device. After the user leaves and there are no other persons in the video monitoring zone for a certain time, the device returns to its initial state. During one interaction session, the user can make several voice calls to the device, in this case, the stages of audio processing and information output to the screen are repeated an appropriate number of times.

На рисунке 1 показана схема устройства. Оно содержит бортовой компьютер 1, представляющий собой персональный компьютер с многоядерной архитектурой, к которому подключены сенсорные мониторы 2 и 3, камеры 4, 5, 6, 7, многоканальная плата аудиозахвата 8, беспроводной маршрутизатор 9, динамики 10 и 11. К плате аудиозахвата подключены массивы микрофонов 14 и 15. На компьютере происходит обработка аудиоданных, поступающих с массивов микрофонов 14, 15 через плату аудиозахвата 8, выработка команды управления и вывод необходимой аудиовизуальной информации на мониторы 2, 3 и динамики 10, 11. С помощью беспроводного маршрутизатора 9 устройство имеет доступ к сети Интернет, также имеется возможность подключения к устройству для проведения удаленного технического обслуживания.Figure 1 shows a diagram of the device. It contains an on-board computer 1, which is a personal computer with a multi-core architecture, to which are connected touch monitors 2 and 3, cameras 4, 5, 6, 7, a multi-channel audio capture card 8, a wireless router 9, speakers 10 and 11. Connected to the audio capture board arrays of microphones 14 and 15. On the computer, the processing of audio data coming from the arrays of microphones 14, 15 through the audio capture board 8, the development of a control command and the output of the necessary audiovisual information to monitors 2, 3 and speakers 10, 11. Using Wired Router 9 device has access to the Internet, it is also possible to connect to the device for remote maintenance.

Электроприводы 16 и 17 подключены к плате управления приводами 12, которая в свою очередь соединена информационным кабелем с бортовым компьютером 1, который вырабатывает управляющие команды. Плата управления датчиками 13, получает и преобразует данные, поступающие от инфракрасных датчиков 18, 19, 20, 21, 22, 23, 24, 25 и ультразвуковых датчиков 26, 27, 28, 29, расположенных по внешней окружности платформы, после чего эти данные поступают в бортовой компьютер 1 посредством информационного интерфейса PCI. В устройстве также имеется аккумулятор 30, обеспечивающий автономную работу всех систем.Electric drives 16 and 17 are connected to the drive control board 12, which in turn is connected by an information cable to the on-board computer 1, which generates control commands. The sensor control board 13 receives and converts data from infrared sensors 18, 19, 20, 21, 22, 23, 24, 25 and ultrasonic sensors 26, 27, 28, 29 located along the outer circumference of the platform, after which these data arrive on-board computer 1 through the PCI information interface. The device also has a battery 30, which provides autonomous operation of all systems.

При обнаружении пользователя с помощью одной из камер 4, 5, 6, 7 запускается режим диалога. Посредством аудиовизуального синтеза генерируется приветствие и затем пользователю предоставляется краткая информация о режимах взаимодействия с помощью голосового сообщения через динамики 10, 11 и анимации движений говорящей головы на мониторе. Голосовой запрос пользователя выявляется массивом микрофонов 14 или 15 в зависимости от расположения пользователя и обрабатывается на бортовом компьютере системами аудиолокализации и дистанционного распознавания речи. В случае если запрос был успешно распознан и необходимая пользователю информация обнаружена в информационной базе данных, то соответствующие сведения отображаются на мониторе 2 или 3 в зависимости от расположения пользователя и озвучиваются через динамики. При необходимости производится дополнительный запрос информации у пользователя (уточнение запроса, необходимости сопровождения пользователя до точки). Если пользователь запросил сопровождение, то бортовой компьютер 1 производит расчет маршрута и начинает управление передвижением платформы по расчетной траектории. В процессе передвижения происходит анализ показаний датчиков 18-29 и, в случае обнаружения ими препятствия, производится остановка устройства или объезд помехи в зависимости от ситуации. В ходе сопровождения пользователя устройство может выводить аудиовизуальную информацию, связанную с объектом назначения, или организовать удаленную связь с его представителем.When a user is detected using one of the cameras 4, 5, 6, 7, a dialogue mode is started. An audio-visual synthesis generates a greeting and then provides the user with brief information about the modes of interaction using a voice message through speakers 10, 11 and animation of the movements of the talking head on the monitor. The user's voice request is detected by an array of microphones 14 or 15 depending on the user's location and is processed on the on-board computer by audio-localization and remote speech recognition systems. If the request was successfully recognized and the information necessary for the user is found in the information database, then the relevant information is displayed on the monitor 2 or 3, depending on the location of the user and voiced through the speakers. If necessary, an additional request for information is made from the user (clarification of the request, the need to accompany the user to the point). If the user requested support, then the on-board computer 1 calculates the route and starts controlling the movement of the platform along the calculated trajectory. In the process of movement, the readings of the sensors 18-29 are analyzed and, if they detect an obstacle, the device stops or detours the interference, depending on the situation. During user support, the device can display audiovisual information associated with the destination, or arrange remote communication with its representative.

Положительный эффект, который дает предлагаемое техническое решение, состоит в том, что устройство в дополнение к стандартным средствам ввода/вывода на основе графического пользовательского интерфейса включает программно-аппаратные средства для анализа и синтеза естественно-языковой информации, что расширяет круг пользователей, а возможность самостоятельного передвижения устройства увеличивает зону предоставления услуг и обслуживания посетителей.The positive effect that the proposed technical solution provides is that the device, in addition to standard input / output tools based on a graphical user interface, includes software and hardware for analyzing and synthesizing natural language information, which expands the range of users, and the possibility of independent the movement of the device increases the area of service and visitor service.

При составлении описания и формулировании технического решения были использованы следующие источники информации:When compiling a description and formulating a technical solution, the following sources of information were used:

1. Григжи Ш., Тьюроси К., Фоклер Г., Грэф X.Т., Крафт Д., Шеффлер Д., Канса Р., Ковач Д.А., Утц З., Тула П., Ваймер М., Дугласе М., Льют Р.К., Бут Д., Истмен Д., Бескитт У.Д., Дженкинс Р., Шабат У.Дж., Млечива Р., Ван Ц.Ю., Вайшнав Д.X., Юн Д., Фэлт Д., Холлифилд Д., Мэджи П.Д., Баркер Д.А., Барнетт Р.В., Ватсон Т., Бауэр Т. Патент RU №2310235 С2 МПК G07F 19/00, G06Q 90/00, 20071. Griggi S., Tewrosi K., Fockler G., Gref X.T., Kraft D., Scheffler D., Kansa R., Kovac D.A., Utz Z., Tula P., Weimer M., Douglas M., Lute R.K., Booth D., Eastman D., Beskitt U.D., Jenkins R., Shabbat U.J., Mlechiva R., Van C.Yu., Vaishnav D.X., Young D., Felt D., Hollfield D., Maggie P.D., Barker D.A., Barnett R.V., Watson T., Bauer T. Patent RU No. 2310235 C2 IPC G07F 19/00, G06Q 90 / 00, 2007

2. Шурыгин И.В., Патент RU №67751 U1 МПК G07F 19/00, 2007.2. Shurygin IV, Patent RU No. 67751 U1 IPC G07F 19/00, 2007.

3. Граф X.Т., Контор К., Харти М., Джоунз Б., Патент RU №2312811 С2 МПК В65Н 3/06, 2007.3. Count X. T., Kontor K., Harty M., Jones B., Patent RU No. 2312811 C2 IPC В65Н 3/06, 2007.

4. Ковалев А.Э., Патент RU №82898 U1, МПК G06F 17/50, 2008.4. Kovalev A.E., Patent RU No. 82898 U1, IPC G06F 17/50, 2008.

5. Лебедев Д.В., Патент RU №83870 U1, МПК G09F 19/00, 2009.5. Lebedev D.V., Patent RU No. 83 870 U1, IPC G09F 19/00, 2009.

6. Багаева Н.В., Патент RU №56026 U1, МПК G06F 17/00, 2006.6. Bagaeva N.V., Patent RU No. 56026 U1, IPC G06F 17/00, 2006.

7. Объедков А.П., Патент RU №79695 U1, МПК G06F 19/00, 2008.7. Obedkov A.P., Patent RU No. 79695 U1, IPC G06F 19/00, 2008.

8. Чупов М.В., Патент RU №2009103232 А, МПК G06Q 30/00, 2010.8. Chupov MV, Patent RU No. 2009103232 A, IPC G06Q 30/00, 2010.

9. Абрамов М.А., Матасов Ф.В., Патент RU №71180 U1 МПК G07F 11/00, 2007.9. Abramov MA, Matasov F.V., Patent RU No. 71180 U1 IPC G07F 11/00, 2007.

10. Свидетельство о регистрации ПрЭВМ №2010617640 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 18 ноября 2010 г.: Ронжин А.Л., Карпов А.А., Кипяткова И.С. Многомодальный пользовательский интерфейс для интеллектуальной информационной системы.10. Certificate of registration of the computer No.2010617640 of the Federal Service for Intellectual Property, Patents and Trademarks of November 18, 2010: Ronzhin A.L., Karpov A.A., Kipyatkova I.S. Multimodal user interface for intelligent information system.

11. Свидетельство о регистрации ПрЭВМ №2009610481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 21 января 2009 г.: Ронжин А.Л. Модуль спектрально-пространственного анализа речевой активности (SVAD).11. Certificate of registration of the computer No. 2009610481 of the Federal Service for Intellectual Property, Patents and Trademarks of January 21, 2009: A. Ronzhin The module of spectral-spatial analysis of speech activity (SVAD).

12. Свидетельство о регистрации ПрЭВМ №2008611032 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008 г.: Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А., Карпов А.А. Декодер русской слитной речи на базе двухуровневого морфофонемного префиксного графа (SIRIUS).12. Certificate of registration of the computer No. 20088101032 of the Federal Service for Intellectual Property, Patents and Trademarks of February 26, 2008: Ronzhin A. L., Leontiev A. B., Kagirov I. A., Karpov A. A. Decoder of Russian continuous speech based on a two-level morphophonemic prefix graph (SIRIUS).

13. А.А.Карпов, Л.И.Цирульник, М.Железны. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту // Информационные технологии. - М.: Новые Технологии, №8, т.9, 2010, С.13-18.13. A.A. Karpov, L.I. Tsirulnik, M.Zhelezny. Development of a computer system "talking head" for the audiovisual synthesis of Russian speech in the text // Information Technologies. - M .: New Technologies, No. 8, vol. 9, 2010, S.13-18.

Claims

A device for automatically providing users with information and reference services during a multimodal dialogue and independent movement over a given service area, containing an information desk that has two working sides with the same functionality and location of means for capturing and displaying audiovisual information, is equipped with two touch monitors, four video cameras, embedded to the left and right of each monitor; two arrays of microphones, an on-board computer that processes data coming from cameras, microphones, touch monitors, obstacle sensors, and is installed on a mobile platform, the layout of the chassis of which consists of two driving and two vane wheels, and for detecting obstacles along the outer circumference of the platform four ultrasound and eight infrared sensors; built-in batteries provide autonomous operation of all on-board devices and chassis electric drives, characterized in that the microphone arrays have a T-shape and perform multi-channel recording of audio data, which are further processed in the spatial spectral filtering program block of the useful speech signal and in the speech recognition program block implemented in the on-board computer of the device; touch monitors providing input / output of graphic information, in combination with speakers, are used for audio-visual output of speech information through a virtual three-dimensional model of the human head with pronounced lip articulation and synchronous synthesis of the audio signal of the voice message generated in the program block for bimodal synthesis of Russian speech; multichannel processing of signals received from video cameras in the video processing software block ensures the determination of the presence of users and tracking the movements of their faces; two types of contactless obstacle sensors, designed for different distances and response times, provide timely detection of dynamic interference arising along the device’s travel route.