WO2020076179A1

WO2020076179A1 - Способ определения тегов для отелей и устройство для его осуществления

Info

Publication number: WO2020076179A1
Application number: PCT/RU2018/000672
Authority: WO
Inventors: Сергей Александрович ЛЯШЕНКО; Никита Андреевич КЛЮЧНИКОВ
Original assignee: Общество С Ограниченной Ответственностью "Глобус Медиа"
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2020-04-16

Abstract

Заявленное решение относится к области обработки информации, в частности к механизмам выделения меток для отелей на основании базы отзывов туристов с возможностью ранжирования их по эмоциональному оттенку. Способ определения тегов для отелей, содержит этапы, на которых: получают тексты отзывов пользователей и описаний отелей; выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз; группируют выделенные слова и фразы в кластеры слов путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания; определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент, характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента формируют метки для отелей.

Description

СПОСОБ ОПРЕДЕЛЕНИЯ ТЕГОВ ДЛЯ ОТЕЛЕЙ И УСТРОЙСТВО

ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ

ОБЛАСТЬ ТЕХНИКИ

Заявленное решение относится к области обработки информации, в частности к механизмам выделения меток для отелей на основании базы отзывов туристов с возможностью ранжирования их по эмоциональному оттенку.

УРОВЕНЬ ТЕХНИКИ

Из уровня техники известны различные решения, направленные на обеспечение анализа текстов и оценки их эмоциональной составляющей, частично используемые алгоритмы аналогичны рассматриваемому в данной заявке.

Однако при условии, что даты поездки и состав туристов заранее известны, при подборе подходящего пакетного тура важным критерием является место проживания в определенные даты. Причём под местом понимается как географическое положение гостиницы/апартаментов, так и конкретный отель, обладающий теми или иными опциями, качествами и уровнем обслуживания. То есть, в общем случае, основная задача туриста либо заказчика тура - подбор оптимальной и удовлетворительной комбинации места и стоимости.

Трудность заключается в том, что выбор отелей крайне велик даже в пределах одного государства, а критерии выбора - могут сильно разниться от туриста к туристу. Эти критерии зависят от типа желаемого отдыха (экскурсионный, пляжный, и т.д.), от наличия и возрастов детей в составе туристической группы, от личных нужд и пожеланий к уровню комфорта, от языка страны пребывания (говорят ли по-английски или на родном языке туриста) и так далее. Также принимается во внимание общий уровень отеля - новизна мебели, наличие той или иной техники, предложения по питанию, наличие бассейна и/или собственного пляжа, уровень сервиса и помощи, и пр.

При наличии большого количества доступных к заселению отелей на желаемом курорте, есть разные вспомогательные средства выбрать место для проживания:

- описание отеля и его опций на сайте отеля, туроператора или агента;

- консультация с турменеджером (то есть, держателем компетенций по курорту);

- рейтинг и отзывы туристов, живших в интересуемом отеле;

- фотографии отеля от туроператора, либо от реальных туристов.

Наиболее интересной базой для принятия решения считаются отзывы туристов, т.к. они дают наиболее реалистичную оценку ситуации. Проблема состоит в том, что по одному отелю может быть большое количество отзывов и они могут существенно отличаться друг от друга ввиду субъективности.

Для облегчения задачи туриста, хотелось бы выделять основную информацию по отелю из отзывов туристов в виде кратких меток. К примеру: галечный пляж, холодильник в номере, прекрасный персонал, для бюджетного отдыха, скудные завтраки, старые полотенца, и т.п.

На текущий момент существует механизм отображения тегов на страницах с информацией об отеле, заданных вручную сотрудниками, отвечающими за наполнение сайта информацией. Сотрудники самостоятельно изучают отзывы туристов и вручную выписывают список основных характеристик на своё усмотрение. Задача крайне ресурсозатратна в связи с огромным количеством отелей и апартаментов в популярных местах отдыха.

Таким образом, автоматический механизм формирования тегов на базе отзывов реальных людей мог бы решить задачу поддержки выбора пакетного тура и, в целом, мог бы стать частью рекомендательной системы, позволяющей туристу подобрать оптимальный вариант для отдыха. РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Технической задачей, на решение которой направленно заявленное решение, является создание устройства и способа, обеспечивающих возможность автоматического выделения меток для отелей на базе отзывов реальных туристов.

Техническим результатом является повышение точности автоматического выделения меток для отелей на основе анализа отзывов туристов.

Для обеспечения достижения указанного выше результата разработан способ определения тегов для отелей, содержащий этапы, на которых: получают тексты отзывов пользователей и описаний отелей; выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз; группируют выделенные слова и фразы путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формируют метки для отелей.

Также разработано устройство 10 определения тегов для отеля, выполненное с возможностью: получать тексты отзывов пользователей и описаний отелей; выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз; группировать выделенные слова и фразы путем кластеризации их векторных репрезентаций и определять коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания сущности изобретения, и чтобы более ясно показать, каким образом оно может быть осуществлено, далее будет сделана ссылка, лишь в качестве примера, на прилагаемый чертеж, на котором изображено:

фиг. 1 - система обработки информации.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

В соответствии со схемой, приведенной на фиг. 1, система обработки информации содержит базу данных 1 отзывов пользователей и описаний отелей и устройство 10 определения тегов для отеля, выполненное с возможностью выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз; группировать выделенные слова и фразы путем кластеризации их векторных репрезентаций и определять коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.

Устройство 10 определения тегов для отеля может быть реализовано на базе программно-аппаратных средств и для осуществления указанных выше возможностей может быть оснащено:

- блоком 11 кластеризации векторных репрезентаций, обеспечивающий возможность выделить кластеры векторных репрезентаций из базы знаний (в текущем случае, базы отзывов отелей) во избежание случайного шума оценки численных характеристик отдельных слов и фраз;

- блоком 12 определения важностей кластеров слов в контекстах отзывов об отелях, позволяющий определить уникальность кластера относительно конкретного отзыва и относительно всех отзывов по отелю;

- блоком 13 определения эмоциональностей кластеров слов на основе базы размеченных типов отзывов, позволяющий определить коэффициент эмоциональности, например, от 0 до 1 , где 0 считается за "негативный окрас", а 1 - за "позитивный окрас" слова, выражения, либо кластера;

- блоком 14 определения единого коэффициента, характеризующего значимость слов для отеля.

Все перечисленные выше блоки могут быть реализованы на базе по меньшей мере одного устройства обработки информации, например, процессора или микроконтроллера с соответствующим программным обеспечением для выполнения приписанных им функций.

Соответственно, текста отзывов пользователей об отелях, а также описания отелей, оставленных в открытых источниках информации, например, социальный сетях и прочих специализированных ресурсах, собираются системой обработки данных и сохраняются в базу данных 1 отзывов пользователей и описаний отелей как исходные текста.

Дополнительно в базу данных 1 для хранения может поступать информация о типе отзыва, в частности, являются ли сохраненные отзывы положительными, нейтральными или отрицательными. Далее устройство 10 определения тегов отеля в соответствии с заложенным в него программно-аппаратным алгоритмом извлекает из базы данных 1 все исходные текста отзывов и описаний, относящиеся к одному отелю, и выполняет предварительную обработку полученного исходного текста для последующей кластеризации.

Процесс предварительной обработки упомянутого текста включает очищение текста, в частности, осуществляется удаление знаков препинания, служебных символов, стоп-слов (множество которых задано в базе данных): предлоги, междометия, цифры, частицы (кроме отрицательных). Указанные методы очищения текста широко известны из уровня техники и дополнительно не будут описаны в рамках данной заявки.

Далее устройство 10 для определения тегов выполняет исправление опечаток с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов с учетом следующих действий: пропуск/вставка/замена буквы или перестановка соседних букв, после чего текст лемматизируется, в частности, слова текста приводятся к символам кириллицы, прописным буквам, и преимущественно именительному падежу. Лемматизация может осуществляться широко известными из уровня техники методами, например, посредством использования модуля руту stem для языка Python (https://github.com/nlpub/pymystem3).

В полученном тексте устройство 10 определения тегов алгоритмически выделяет часто встречающиеся слова и фразы - пары, тройки или четверки подряд идущих слов. Для выделения часто встречающиеся слова и фразы может использоваться, например, открытый модуль genism для языка Python (https://radimrehurek.com/gensim/). После очистки текста и выделения часто встречающихся фраз обработанный текст сохраняется в базе данных 1, далее отзывы с очищенным текстом и выделенными часто встречающимися фразами в рамках настоящей заявки будет называться обработанным текстом. Далее для каждого или заранее заданного количества часто встречающихся слов и фраз выстраивается модель для векторной репрезентации фраз и сохраняется в памяти устройства 10 определения тегов, в результате чего получается база векторов для кластеризации. Построение модели для векторной репрезентации фраз осуществляется посредством известных средства, например, с помощью алгоритма word2vec открытого модуля genism для языка Python (https ://radimrehurek .сот/ gensim/).

Соответственно, описанный выше процесс предварительной обработки исходного текста проводится для всех текстов отзывов и описаний для каждого отеля, сохраненных в базе данных 1.

Так как база отзывов не очень большая (по меркам BigData), фразы могут встречаться в ней в единичных экземплярах, в связи с чем значимости отдельных фраз будут иметь сильный случайный шум. Для борьбы с этим шумом фразы группируются путем кластеризации их векторных репрезентаций. Для кластеризации блок 1 1 кластеризации векторных репрезентаций извлекает из памяти устройства 10 определения тегов информацию о векторной репрезентации фраз и выполняет кластеризацию векторных репрезентаций, в результате чего формируются кластеры слов, причем каждый кластер имеет свой номер. Для кластеризации может быть использован, например, ЕМ-алгоритм расщепления гауссовских смесей со сферическими ковариациями (см. http://scikit- leam.org/ stable/modules/mixture.html# expectation-maximization).

Информация о кластерах слов передается в блок 12 определения важностей кластеров слов, который определяет коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания. Для определения коэффициентов важности кластеров слов блок 12 определения важностей кластеров слов выполняет извлечение из базы данных 1 обработанный текст и в каждом обработанном отзыве заменяет слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывает коэффициенты важности кластеров в обработанном тексте по мере TF-IDF. При этом все отзывы одного отеля принимаются за один "документ", а номера кластеров после подстановки за "слова".

Для определения коэффициентов эмоциональности кластеров слов блок 13 определения эмоциональностей кластеров слов извлекает из базы данных 1 информацию о типах отзывов и информацию о кластерах слов из блока 11 кластеризации векторных репрезентаций и определяет вектора с количеством (N) типов отзывов, в которые попадает кластер слов (с) в разрезе положительных (pos), нейтральных (neutral) и негативных (neg) отзывов, например, по формуле: v(c)=(N_neg(c), N neutral(c), N_pos(c)). Далее блок 13 определения эмоциональностей кластеров слов определяет значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе, например, по формуле: vn(c)=( N_neg(c) /NEG, N neutral(c) /NEUTRAL, N_pos(c) /POS), где NEG, NEUTRAL, POS - общие количество отзывов соответствующих типов во всей базе данных 1.

После этого блок 13 проводит нормировку определенных на предыдущем этапе векторов (vn(c)) аддитивным сглаживанием по методу Лапласа q(c)_i = ( ^vn(c)_i + alpha ) / sum_k(vn(c)_k + alpha), где i ={neg, neutral, pos}, a alpha выбирается небольшим числом, например, 1/N, которое делает метод менее чувствительным к выбросам в случае редких слов. Как итог, коэффициент эмоциональности кластера определяется как разница между позитивными коэффициентами и нейтральными после всех нормировок, а именно: q(c)_ pos — q(c)_neutral, где q - вектор, который определяется в предыдущем параграфе.

Далее значения коэффициентов важности кластеров слов от блока 12 определения важностей кластеров слов и значения коэффициентов эмоциональности кластеров слов от блока 13 определения эмоциональностей кластеров слов поступают на блок 14 определения единого коэффициента, который на основе полученных значений вычисляет единый коэффициент (F), характеризующий значимость слов для отеля, например, по формуле F=2*(B * Э)/(В + Э), где В - коэффициент важности, а Э - коэффициент эмоциональности . Таким образом, для каждого кластера слов определяются коэффициенты значимости, важности и эмоциональности. Коэффициенты значимости, важности и эмоциональности слов в кластере слов устройство обработки данных 10 определяет на основе указанных значений его кластера, после чего из слов, имеющих максимальные показатели коэффициентов значимости, важности и эмоциональности, формируются метки для отеля, представляющие данные слова. Количество меток, которое будет сформировано для отеля, определяются пользователем и их число заранее закладывается в программное обеспечение устройства обработки данных 10, перед началом его работы.

Дополнительно устройство обработки данных 10 может быть выполнено с возможностью фильтрации слов и фраз с большими значениями коэффициента значимости F (десятки и сотни слов), а затем среди них выбирается подмножество (штучно), которое будет удовлетворять наибольшему разнообразию интересов пользователей. Интересы пользователя рассматриваются в рамках тем слов, которые получаются с помощью методов тематического моделирования, например такими, как LDA или SYD. В результате тематического моделирования каждому слову w сопоставляется низкоразмерный вещественный вектор выраженности тем t(w), а интересу пользователя и - вектор соответствующей размерности степени его тематических предпочтений р(и). Удовлетворённость пользователя словом моделируется линейной функцией полезности, а именно, скалярным произведением этих двух векторов: f(u, w) = sum i t(w)_i*p(u)_i. Задача оптимизации удовлетворенности пользователя выборкой из к слов для худшего случая решается линейным программированием либо «жадной» эвристикой (см. http://www.vldb.org/pvldb/vldb2010/papers/R99.pdf).

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Способ определения тегов для отелей, содержащий этапы, на которых: получают тексты отзывов пользователей и описаний отелей;

выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей;

для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз;

группируют выделенные слова и фразы путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания;

определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент (F), характеризующий значимость слов для отеля;

на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формируют метки для отелей.

2. Способ по п. 1, отличающийся тем, что дополнительно содержит этап очищения текстов отзывов пользователей и описаний отелей для получения обработанного текста, причем очищение включает удаление по меньшей мере одно из: знаков препинания, служебных символов, стоп-слов, множество которых задано в базе данных: предлогов, междометий, цифр, и частиц, кроме отрицательных.

3. Способ по п. 2, отличающийся тем, что дополнительно содержит этап исправления опечаток в тестах с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов.

4. Способ по любому из пп. 2 или 3, отличающийся тем, что для определения коэффициентов важности кластеров слов в контекстах отзывов об отелях и их описания способ содержит этапы, на которых: в каждом обработанном отзыве заменяет слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывает коэффициенты важности кластеров в обработанном тексте по мере TF-IDF.

5. Способ по п. 1, отличающийся тем, что для определения коэффициентов эмоциональности кластеров слов способ содержит этапы, на которых:

определяют вектора с количеством типов отзывов, в которые попадает кластер слов в разрезе положительных, нейтральных и негативных отзывов; определяют значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе отзывов;

выполняют нормировку определенных на предыдущем этапе векторов аддитивным сглаживанием по методу Лапласа с учетом упомянутого значения поправки, причем коэффициент эмоциональности кластера определяется как разница между позитивными и нейтральными коэффициентами.

6. Устройство определения тегов для отеля, выполненное с возможностью:

получать тексты отзывов пользователей и описаний отелей;

выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей;

для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз;

группировать выделенные слова и фразы в кластеры слов путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания;

определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля;

на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.

7. Устройство по п. 6, отличающееся тем, что оно дополнительно выполнено с возможностью очищения текстов отзывов пользователей и описаний отелей для получения обработанного текста, причем очищение включает удаление по меньшей мере одно из: знаков препинания, служебных символов, стоп-слов, множество которых задано в базе данных: предлогов, междометий, цифр, и частиц, кроме отрицательных.

8. Устройство по п. 7, отличающееся тем, что оно дополнительно выполнено с возможностью исправления опечаток в текстах с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов.

9. Устройство по любому из пп. 7 или 8, отличающееся тем, что оно дополнительно выполнено с возможностью в каждом обработанном отзыве заменять слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывать коэффициенты важности кластеров в обработанном тексте по мере TF-IDF.

10. Устройство по п. 6, отличающееся тем, что оно дополнительно выполнено с возможностью:

определять вектора с количеством типов отзывов, в которые попадает кластер слов в разрезе положительных, нейтральных и негативных отзывов; определять значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе отзывов;

выполнять нормировку определенных на предыдущем этапе векторов аддитивным сглаживанием по методу Лапласа с учетом упомянутого значения поправки, причем коэффициент эмоциональности кластера определяется как разница между позитивными и нейтральными коэффициентами.