RU2783966C1

RU2783966C1 - Способ обработки входящих звонков

Info

Publication number: RU2783966C1
Application number: RU2021132495A
Authority: RU
Inventors: Александр Сергеевич Румянков; Роман Николаевич Рабочий
Original assignee: Общество С Ограниченной Ответственностью "Дипвойс"
Filing date: 2021-11-09
Publication date: 2022-11-22

Abstract

Изобретение относится к области вычислительной техники для обработки входящих звонков. Технический результат заключается в увеличении производительности вычислительных систем при решении поставленной задачи за меньшее количество времени, тем самым снижая нагрузку на центральные процессоры вычислительных устройств. Технический результат достигается за счет выполнения заранее заданного сценария на устройстве пользователя, результатом которого является осуществление переадресации входящего вызова на заранее выбранное устройство обработки входящих вызовов при помощи средств переадресации входящих вызовов, причем на устройстве обработки входящих вызовов осуществляют, в течение заранее заданного промежутка времени, обработку входящего вызова при помощи средств распознавания голосовых данных и синтеза речевых данных с использованием предварительно обученной подсистемы искусственного интеллекта, представляющей из себя комбинацию модуля распознавания, модуля синтеза речи и модуля диалогового менеджера и выполненной с возможностью распознавания входящего аудиопотока и генерации речевых ответов в соответствии с контекстом распознанного содержимого входящего аудиопотока, причем подсистема искусственного интеллекта, работающая в реальном времени, имеет ограничение 2 с на распознавание фразы и 60 с на весь диалог. 7 з.п. ф-лы, 2 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Настоящее техническое решение относится к области вычислительной техники, в частности, к способам обработки входящих вызовов.

УРОВЕНЬ ТЕХНИКИ

Из уровня техники известно решение, выбранное в качестве наиболее близкого аналога, RU 2439716 C2, опубл. 20.07.2010. Данное решение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком. Способ содержит этапы, на которых посредством процессора осуществляют:

прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и

обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами, и по словесным фразам, обычно используемым автоматическими системами наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определение, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми, или со словесными фразами обычно используемыми автоматическими системами.

Предлагаемое техническое решение направлено на устранение недостатков современного уровня техники и отличается от известных ранее тем, что предложенное решение обеспечивает качественную и эффективную обработку принимаемых звонков, высокопроизводительное детектирование и классификацию входящих вызовов.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Технической проблемой, на решение которой направлено заявленное решение, является создание способа обработки входящих вызовов.

Технический результат заключается в повышении качества и эффективности детектирования и классификации входящих вызовов при предпросмотре телефонных звонков, поступающих на стационарный / мобильный телефон абонента.

Дополнительным техническим результатом является увеличение производительности вычислительных систем при решении поставленной задачи (т.е. решение позволяет производить обработку с получением результата (продукта) за меньшее количество времени), тем самым снижая нагрузку на центральные процессоры вычислительных устройств, за счет уменьшения количества обрабатываемых запросов.

Заявленные технические результаты достигаются за счет осуществления способа обработки входящих вызовов, который включает в себя следующие действия:

получение входящего вызова на устройство пользователя, выполнение заранее заданного сценария на устройстве пользователя результатом которого является осуществление переадресации входящего вызова на заранее выбранное устройство обработки входящих вызовов при помощи средств переадресации входящих вызовов, причем на устройстве обработки входящих вызовов осуществляют, в течении заранее заданного промежутка времени, обработку входящего вызова при помощи средств распознавания голосовых данных и синтеза речевых данных с использованием предварительно обученной подсистемы искусственного интеллекта, выполненной с возможностью распознавания входящего аудио потока и генерации речевых ответов в соответствии с контекстом распознанного содержимого входящего аудио потока, при этом в процессе обработки подсистемы искусственного интеллекта, либо завершает разговор либо переадресовывает входящий вызов на устройство пользователя, при этом весь процесс обработки входящего вызова сохраняют в формате аудио файла, после обработки входящего вызова осуществляют расшифровку полученного аудио файла и создают на ее основе текстовое сообщение, которое совместно с полученным аудио файлом пересылают на устройство пользователя.

В частном варианте реализации описываемого решения, устройством пользователя является мобильным телефоном, либо комбинацией стационарного телефона, с которого осуществляется переадресация и мобильного телефона или стационарного персонального компьютера, на котором осуществляется просмотр результата через мессенджер.

В частном варианте реализации описываемого решения, входящий вызов является аудио вызовом.

В другом частном варианте реализации описываемого решения, промежуток времени равен 60 секундам.

В другом частном варианте реализации описываемого решения, переадресацию входящего вызова осуществляют, используя настройки телефонного аппаратов, VoIP АТС или личный кабинет абонента оператора связи.

В другом частном варианте реализации описываемого решения, текстовое сообщение и аудио файл пересылают на устройство пользователя при помощи установленных на нем мессенджеров.

В другом частном варианте реализации описываемого решения, сценарий, выполняемый на устройстве пользователя, включает в себя сброс входящего вызова в случае неответа, по расписанию, ручном сбросе или попадании в черный список.

В другом частном варианте реализации описываемого решения, сценарий, выполняемый на устройстве пользователя, может включать в себя сброс входящего вызова, осуществляемый с помощью анти-спам приложения.

В другом частном варианте реализации описываемого решения, устройство обработки входящих вызовов определяет входящий и промежуточный телефонный номер, то есть с которого осуществляется входящий вызов и с которого осуществляется переадресация.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:

Фиг. 1 иллюстрирует структурную схему способа обработки входящих вызовов.

Фиг. 2 иллюстрирует пример общей схемы вычислительного устройства.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

В настоящее время в стационарных / IP / мобильных телефонных аппаратах и станциях существует возможность настройки переадресации звонка по: неответу, расписанию или попаданию в черный список (отсутствие в списке контактов звонящего). Для детектирования и классификации входящих вызовов при предпросмотре телефонных звонков, поступающих на стационарный / мобильный телефон абонента, был реализован заявляемый способ обработки входящих вызовов.

Одним из компонентов настоящего технического решения является Телефонный Шлюз Сервиса (ТШС), представляющий из себя единый номер телефона для всех пользователей (или выделенный для конкретных операторов). Переадресация на ТШС реализуется путем настройки телефонных аппаратов, VoIP АТС или личный кабинет абонента оператора. Конечный пользователь имеет возможность самостоятельно формировать черные/белые списки, настройки переадресации, используя стандартные механизмы своего устройства и оператора.

ТШС принимает переадресованные вызовы и перенаправляет их на подсистему искусственного интеллекта (ПИИ), расположенную на серверном оборудовании.

ПИИ представляет собой — комбинацию модуля распознавания, модуля, синтеза речи и модуля диалогового менеджера.

ПИИ в режиме реального времени распознает речь звонящего при помощи модуля распознавания речи, и используя технологии синтеза речи (или проигрывания файлов) поддерживает диалог при помощи диалогового менеджера.

Модуль распознавания речи, посредством мощностей серверного оборудования, позволяет распознать речь на основании методов скрытых Марковских моделей, включает в себя декодер речи, акустические модели и гибридные языковые модели, использующие правила русского языка.

Модуль диалогового менеджера, посредством мощностей серверного оборудования, при диалоге со звонящим имитирует поведение человека и обеспечивают естественный способ получения информации, что позволяет вовлечь человека в телефонный разговор с целью получения у него информации о том, кто он и зачем совершает вызов пользователю системы. Диалоговый менеджер включает в себя NLU - обработка естественного языка и NLG - генератор ответов человеку в зависимости от контекста и полученной информации.

Модуль диалогового менеджера обучен на больших данных телефонных разговоров реальных людей с односложными диалогами и по сценариям аналогичным работе секретаря, собранными из микро-блогов. Эмпирическим путем установлено, что ПИИ способен генерировать правильные грамматические и уместные в данном контексте ответы на 95% поданных на вход текстов. На начальном этапе формализуется создание ответа, как процесс расшифровки, на основе скрытого представления входного текста, пока кодирование и декодирование реализуется с помощью рекуррентных нейросетей (Recurrent neural network; RNN).

Исходя из контекста звонка, ПИИ либо прекращает диалог, направляет запись и расшифровку звонка в сервис мгновенных сообщений, которым пользуется конечный пользователь сервиса (Telegram, Whatsapp, Viber и т.п.) (см. фиг. 1, ветка Б), либо перенаправляет вызов на конечного пользователя (см. фиг. 1, ветка А).

Источник информации, подробно раскрывающий используемые в настоящем решении алгоритмы, структуру и процесс обучения подсистемы искусственного интеллекта: «End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning», Jason D. Williams and Geoffrey Zweig, 03.06.2016, https://arxiv.org/pdf/1606.01269.pdf.

Таким образом, при реализации настоящего технического решения реализуется сервис предпросмотра звонка (автоматическое определение контекста) без привязки к конкретному оператору, дополнительному оборудованию и специализированному ПО, тем самым повышая качество детектирования и классификации входящих вызовов и осуществляя увеличение производительности используемых вычислительных систем при решении поставленной задачи.

На Фиг. 1 далее будет представлена общая схема способа обработки входящих вызовов.

Осуществляемый звонящим звонок направляется на телефон клиента системы, который переадресует звонок на телефонный шлюз сервиса (используя стандартный механизм переадресации ОКС7). Телефонный шлюз сервиса принимает переадресованный вызов, получает номер звонящего и вызываемого абонента из сигнализации вызова, начинает запись и отправляет копию RTP потока в ПИИ. ПИИ на сервере производит распознавание RTP потока, и на основе данных, полученных от модуля распознавания речи и модуля диалогового менеджера, выдает результат в виде ответного RTP потока в сторону телефонного шлюза сервиса (и далее в сторону звонящего). По окончанию звонка, запись отправляется в подсистему расшифровки (которая не ограничена сверху во времени анализа RTP потока и выдает более качественную расшифровку, нежели ПИИ, работающая в реальном времени и с ограничением 2 секунды на распознавание фразы и 60 секунд на диалог). На конечном этапе осуществляется расшифровка разговора и отправка записи разговора клиенту сервиса в его сервис мгновенных сообщений (Telegram, Whatsapp, Viber и т.д.).

На Фиг. 2 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).

Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).

Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.

Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

1. Способ обработки входящих вызовов, включающий следующие действия:

получение входящего вызова на устройство пользователя,

выполнение заранее заданного сценария на устройстве пользователя, результатом которого является осуществление переадресации входящего вызова на заранее выбранное устройство обработки входящих вызовов при помощи средств переадресации входящих вызовов, причем на устройстве обработки входящих вызовов осуществляют, в течение заранее заданного промежутка времени, обработку входящего вызова при помощи средств распознавания голосовых данных и синтеза речевых данных с использованием предварительно обученной подсистемы искусственного интеллекта, представляющей из себя комбинацию модуля распознавания, модуля синтеза речи и модуля диалогового менеджера и выполненной с возможностью распознавания входящего аудиопотока и генерации речевых ответов в соответствии с контекстом распознанного содержимого входящего аудиопотока,

при этом в процессе обработки подсистема искусственного интеллекта либо завершает разговор, либо переадресовывает входящий вызов на устройство пользователя,

при этом весь процесс обработки входящего вызова сохраняют в формате аудиофайла, после обработки входящего вызова осуществляют расшифровку полученного аудиофайла и создают на ее основе текстовое сообщение, которое совместно с полученным аудиофайлом пересылают на устройство пользователя,

причем подсистема искусственного интеллекта, работающая в реальном времени, имеет ограничение 2 с на распознавание фразы и 60 с на весь диалог.

2. Способ по п. 1, характеризующийся тем, что устройство пользователя является мобильным телефоном либо комбинацией стационарного телефона, с которого осуществляется переадресация, и мобильного телефона или стационарного персонального компьютера, на котором осуществляется просмотр результата через мессенджер.

3. Способ по п. 1, характеризующийся тем, что входящий вызов является аудиовызовом.

4. Способ по п. 1, характеризующийся тем, что переадресацию входящего вызова осуществляют, используя настройки телефонного аппаратов, VoIP АТС или личный кабинет абонента оператора связи.

5. Способ по п. 1, характеризующийся тем, что текстовое сообщение и аудиофайл пересылают на устройство пользователя при помощи установленных на нем мессенджеров.

6. Способ по п. 1, характеризующийся тем, что сценарий, выполняемый на устройстве пользователя, включает в себя сброс входящего вызова в случае неответа, по расписанию, ручном сбросе или попадании в черный список.

7. Способ по п. 1, характеризующийся тем, что сценарий, выполняемый на устройстве пользователя, может включать в себя сброс входящего вызова, осуществляемый с помощью антиспам приложения.

8. Способ по п. 1, характеризующийся тем, что устройство обработки входящих вызовов определяет входящий и промежуточный телефонный номер, то есть с которого осуществляется входящий вызов и с которого осуществляется переадресация.