WO2020076179A1 - Способ определения тегов для отелей и устройство для его осуществления - Google Patents

Способ определения тегов для отелей и устройство для его осуществления Download PDF

Info

Publication number
WO2020076179A1
WO2020076179A1 PCT/RU2018/000672 RU2018000672W WO2020076179A1 WO 2020076179 A1 WO2020076179 A1 WO 2020076179A1 RU 2018000672 W RU2018000672 W RU 2018000672W WO 2020076179 A1 WO2020076179 A1 WO 2020076179A1
Authority
WO
WIPO (PCT)
Prior art keywords
coefficients
reviews
hotel
words
word
Prior art date
Application number
PCT/RU2018/000672
Other languages
English (en)
French (fr)
Inventor
Сергей Александрович ЛЯШЕНКО
Никита Андреевич КЛЮЧНИКОВ
Original Assignee
Общество С Ограниченной Ответственностью "Глобус Медиа"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Глобус Медиа" filed Critical Общество С Ограниченной Ответственностью "Глобус Медиа"
Priority to PCT/RU2018/000672 priority Critical patent/WO2020076179A1/ru
Publication of WO2020076179A1 publication Critical patent/WO2020076179A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the claimed solution relates to the field of information processing, in particular to the mechanisms of marking out hotels for hotels based on the feedback base of tourists with the possibility of ranking them according to their emotional tone.
  • an important criterion is the place of residence on certain dates.
  • the place is understood as the geographical location of the hotel / apartment, as well as a specific hotel that has certain options, qualities and level of service. That is, in general, the main task of the tourist or the customer of the tour is the selection of the optimal and satisfactory combination of location and cost.
  • the difficulty lies in the fact that the choice of hotels is extremely large even within one state, and the selection criteria can vary greatly from tourist to tourist. These criteria depend on the type of vacation desired (excursion, beach, etc.), on the presence and age of children in the tourist group, on personal needs and wishes to the level of comfort, on the language of the host country (do they speak English or tourist’s native language) and so on.
  • the general level of the hotel is also taken into account - the novelty of furniture, the availability of one or another equipment, food offers, the presence of a pool and / or its own beach, the level of service and assistance, etc.
  • the most interesting base for making decisions are reviews of tourists, because they give the most realistic assessment of the situation.
  • the problem is that one hotel can have a large number of reviews and they can differ significantly from each other due to subjectivity.
  • the automatic mechanism for forming tags based on reviews from real people could solve the problem of supporting the choice of a package tour and, in general, could become part of a recommendation system that allows a tourist to choose the best option for a vacation.
  • the technical problem is to create a device and method providing the ability to automatically allocate labels for hotels based on reviews from real tourists.
  • the technical result is to increase the accuracy of automatic tagging for hotels based on the analysis of reviews of tourists.
  • a method for determining tags for hotels containing stages in which: receive user feedback texts and hotel descriptions; highlight frequently occurring words and phrases from the received user feedback texts and hotel descriptions; for each selected word and phrase form a model for the vector representation of phrases; group selected words and phrases by clustering their vector representations and determine the importance factors of word clusters in the contexts of hotel reviews and their descriptions; determine the emotionality coefficients of word clusters based on the database of marked-up types (positive, neutral or negative) reviews; based on the values of the coefficients of importance of word clusters and the coefficients of emotionality of word clusters, a single coefficient (F) characterizing the significance of words for a hotel is determined; based on the values of the coefficients of importance of word clusters, the emotionality of word clusters and a single coefficient (F), labels for hotels are formed.
  • a device 10 for determining tags for a hotel configured to: receive user feedback texts and hotel descriptions; highlight frequently occurring words and phrases from the received texts of user reviews and hotel descriptions; for each selected word and phrase form a model for the vector representation of phrases; group selected words and phrases by clustering them vector representations and determine the importance factors of word clusters in the contexts of hotel reviews and their descriptions; determine the emotionality coefficients of word clusters based on the database of marked-up types (positive, neutral or negative) reviews; based on the values of the coefficients of importance of word clusters and the coefficients of emotionality of word clusters to determine a single coefficient (F) characterizing the significance of words for the hotel; based on the values of the coefficients of importance of word clusters, the emotionality of word clusters and a single coefficient (F), create labels for hotels.
  • F single coefficient
  • FIG. 1 information processing system.
  • the information processing system contains a database of 1 user reviews and descriptions of hotels and a device 10 for determining tags for a hotel, configured to extract frequently occurring words and phrases from received user reviews and hotel descriptions; for each selected word and phrase form a model for the vector representation of phrases; group selected words and phrases by clustering their vector representations and determine the importance factors of word clusters in the contexts of hotel reviews and their descriptions; determine the emotionality coefficients of word clusters based on the database of marked-up types (positive, neutral or negative) reviews; based on the values of the coefficients of importance of word clusters and coefficients emotional clusters of words determine a single coefficient (F), characterizing the significance of words for the hotel; based on the values of the coefficients of importance of word clusters, the emotionality of word clusters and a single coefficient (F), create labels for hotels.
  • F single coefficient
  • the device 10 for determining tags for a hotel can be implemented on the basis of software and hardware and for the implementation of the above features can be equipped with:
  • - block 13 for determining the emotions of word clusters based on the database of marked-up types of reviews, which allows determining the coefficient of emotionality, for example, from 0 to 1, where 0 is considered to be “negative color” and 1 is considered to be “positive color” of a word, expression, or cluster;
  • All of the above blocks can be implemented on the basis of at least one information processing device, for example, a processor or microcontroller with appropriate software to perform the functions assigned to them.
  • the text of user reviews about hotels, as well as descriptions of hotels left in open sources of information, for example, social networks and other specialized resources, are collected by the data processing system and stored in the database of 1 user reviews and hotel descriptions as source texts.
  • the device 10 for determining hotel tags in accordance with the hardware and software algorithm embedded in it extracts from the database 1 all the source texts of reviews and descriptions related to one hotel and performs preliminary processing of the received source text for subsequent clustering.
  • the process of preliminary processing of the mentioned text includes clearing the text, in particular, punctuation marks, auxiliary characters, stop words (many of which are specified in the database) are deleted: prepositions, interjections, numbers, particles (except negative ones).
  • the device 10 for determining tags performs typo correction by searching for the nearest neighbor by the Levenshtein metric to all words in the database, taking into account the following actions: skip / insert / replace a letter or rearrange neighboring letters, after which the text is lemmatized, in particular, the word text are reduced to Cyrillic characters, uppercase letters, and mainly the nominative case.
  • Lemmatization can be carried out by methods well known in the art, for example, by using the module rue stem for the Python language (https://github.com/nlpub/pymystem3).
  • the tag determination device 10 algorithmically selects frequently occurring words and phrases — pairs, triples or quadruples of consecutive words.
  • frequently occurring words and phrases for example, the open genism module for the Python language (https://radimrehurek.com/gensim/) can be used.
  • the processed text is stored in database 1, then reviews with cleared text and highlighted frequently occurring phrases in the framework of this application will be called processed text.
  • a model for vector representation of phrases is built and stored in the memory of the device 10 tag definitions, resulting in a database of vectors for clustering.
  • phrases are grouped by clustering their vector representations.
  • the cluster 1 of the clustering of vector representations extracts from the device 10 of the tag definition information about the vector representation of phrases and clusters the vector representations, as a result of which clusters of words are formed, and each cluster has its own number.
  • the EM algorithm for splitting Gaussian mixtures with spherical covariances can be used (see http: // scikitleam.org/ stable / modules / mixture.html # expectation-maximization).
  • word clusters Information about word clusters is transmitted to block 12 determining the importance of word clusters, which determines the importance factors of word clusters in the contexts of hotel reviews and their descriptions.
  • the unit 12 for determining the importance of word clusters extracts the processed text from the database 1 and in each processed review replaces the words with the corresponding cluster numbers of their vector representations (substitution) and calculates the importance factors of the clusters in the processed text as TF-IDF .
  • all reviews of one hotel are accepted for one "document", and cluster numbers after substitution for "words”.
  • the coefficient of emotionality of the cluster is defined as the difference between positive and neutral coefficients after all normalizations, namely: q (c) _ pos - q (c) _neutral, where q is the vector that is defined in the previous section.
  • F 2 * (B * E) / (B + E)
  • the coefficients of significance, importance, and emotionality of words in a word cluster determines based on the indicated values of its cluster, after which, from the words having the maximum indicators of the coefficients of significance, importance and emotionality, marks are formed for the hotel representing these words.
  • the number of labels that will be generated for the hotel is determined by the user and their number is pre-stored in the software of the data processing device 10, before starting its work.
  • the data processing device 10 can be configured to filter words and phrases with large values of the significance coefficient F (tens and hundreds of words), and then among them a subset (piece) is selected that will satisfy the greatest variety of user interests.
  • the interests of the user are considered within the framework of those words that are obtained using thematic modeling methods, for example, such as LDA or SYD.
  • each word w is associated with a low-dimensional real expression vector of topics t (w), and a vector of the corresponding dimension of the degree of its thematic preferences p (u) is of interest to the user u.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Заявленное решение относится к области обработки информации, в частности к механизмам выделения меток для отелей на основании базы отзывов туристов с возможностью ранжирования их по эмоциональному оттенку. Способ определения тегов для отелей, содержит этапы, на которых: получают тексты отзывов пользователей и описаний отелей; выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз; группируют выделенные слова и фразы в кластеры слов путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания; определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент, характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента формируют метки для отелей.

Description

СПОСОБ ОПРЕДЕЛЕНИЯ ТЕГОВ ДЛЯ ОТЕЛЕЙ И УСТРОЙСТВО
ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ
ОБЛАСТЬ ТЕХНИКИ
Заявленное решение относится к области обработки информации, в частности к механизмам выделения меток для отелей на основании базы отзывов туристов с возможностью ранжирования их по эмоциональному оттенку.
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известны различные решения, направленные на обеспечение анализа текстов и оценки их эмоциональной составляющей, частично используемые алгоритмы аналогичны рассматриваемому в данной заявке.
Однако при условии, что даты поездки и состав туристов заранее известны, при подборе подходящего пакетного тура важным критерием является место проживания в определенные даты. Причём под местом понимается как географическое положение гостиницы/апартаментов, так и конкретный отель, обладающий теми или иными опциями, качествами и уровнем обслуживания. То есть, в общем случае, основная задача туриста либо заказчика тура - подбор оптимальной и удовлетворительной комбинации места и стоимости.
Трудность заключается в том, что выбор отелей крайне велик даже в пределах одного государства, а критерии выбора - могут сильно разниться от туриста к туристу. Эти критерии зависят от типа желаемого отдыха (экскурсионный, пляжный, и т.д.), от наличия и возрастов детей в составе туристической группы, от личных нужд и пожеланий к уровню комфорта, от языка страны пребывания (говорят ли по-английски или на родном языке туриста) и так далее. Также принимается во внимание общий уровень отеля - новизна мебели, наличие той или иной техники, предложения по питанию, наличие бассейна и/или собственного пляжа, уровень сервиса и помощи, и пр.
При наличии большого количества доступных к заселению отелей на желаемом курорте, есть разные вспомогательные средства выбрать место для проживания:
- описание отеля и его опций на сайте отеля, туроператора или агента;
- консультация с турменеджером (то есть, держателем компетенций по курорту);
- рейтинг и отзывы туристов, живших в интересуемом отеле;
- фотографии отеля от туроператора, либо от реальных туристов.
Наиболее интересной базой для принятия решения считаются отзывы туристов, т.к. они дают наиболее реалистичную оценку ситуации. Проблема состоит в том, что по одному отелю может быть большое количество отзывов и они могут существенно отличаться друг от друга ввиду субъективности.
Для облегчения задачи туриста, хотелось бы выделять основную информацию по отелю из отзывов туристов в виде кратких меток. К примеру: галечный пляж, холодильник в номере, прекрасный персонал, для бюджетного отдыха, скудные завтраки, старые полотенца, и т.п.
На текущий момент существует механизм отображения тегов на страницах с информацией об отеле, заданных вручную сотрудниками, отвечающими за наполнение сайта информацией. Сотрудники самостоятельно изучают отзывы туристов и вручную выписывают список основных характеристик на своё усмотрение. Задача крайне ресурсозатратна в связи с огромным количеством отелей и апартаментов в популярных местах отдыха.
Таким образом, автоматический механизм формирования тегов на базе отзывов реальных людей мог бы решить задачу поддержки выбора пакетного тура и, в целом, мог бы стать частью рекомендательной системы, позволяющей туристу подобрать оптимальный вариант для отдыха. РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Технической задачей, на решение которой направленно заявленное решение, является создание устройства и способа, обеспечивающих возможность автоматического выделения меток для отелей на базе отзывов реальных туристов.
Техническим результатом является повышение точности автоматического выделения меток для отелей на основе анализа отзывов туристов.
Для обеспечения достижения указанного выше результата разработан способ определения тегов для отелей, содержащий этапы, на которых: получают тексты отзывов пользователей и описаний отелей; выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз; группируют выделенные слова и фразы путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формируют метки для отелей.
Также разработано устройство 10 определения тегов для отеля, выполненное с возможностью: получать тексты отзывов пользователей и описаний отелей; выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз; группировать выделенные слова и фразы путем кластеризации их векторных репрезентаций и определять коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для лучшего понимания сущности изобретения, и чтобы более ясно показать, каким образом оно может быть осуществлено, далее будет сделана ссылка, лишь в качестве примера, на прилагаемый чертеж, на котором изображено:
фиг. 1 - система обработки информации.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
В соответствии со схемой, приведенной на фиг. 1, система обработки информации содержит базу данных 1 отзывов пользователей и описаний отелей и устройство 10 определения тегов для отеля, выполненное с возможностью выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей; для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз; группировать выделенные слова и фразы путем кластеризации их векторных репрезентаций и определять коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описаниях; определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля; на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.
Устройство 10 определения тегов для отеля может быть реализовано на базе программно-аппаратных средств и для осуществления указанных выше возможностей может быть оснащено:
- блоком 11 кластеризации векторных репрезентаций, обеспечивающий возможность выделить кластеры векторных репрезентаций из базы знаний (в текущем случае, базы отзывов отелей) во избежание случайного шума оценки численных характеристик отдельных слов и фраз;
- блоком 12 определения важностей кластеров слов в контекстах отзывов об отелях, позволяющий определить уникальность кластера относительно конкретного отзыва и относительно всех отзывов по отелю;
- блоком 13 определения эмоциональностей кластеров слов на основе базы размеченных типов отзывов, позволяющий определить коэффициент эмоциональности, например, от 0 до 1 , где 0 считается за "негативный окрас", а 1 - за "позитивный окрас" слова, выражения, либо кластера;
- блоком 14 определения единого коэффициента, характеризующего значимость слов для отеля.
Все перечисленные выше блоки могут быть реализованы на базе по меньшей мере одного устройства обработки информации, например, процессора или микроконтроллера с соответствующим программным обеспечением для выполнения приписанных им функций.
Соответственно, текста отзывов пользователей об отелях, а также описания отелей, оставленных в открытых источниках информации, например, социальный сетях и прочих специализированных ресурсах, собираются системой обработки данных и сохраняются в базу данных 1 отзывов пользователей и описаний отелей как исходные текста.
Дополнительно в базу данных 1 для хранения может поступать информация о типе отзыва, в частности, являются ли сохраненные отзывы положительными, нейтральными или отрицательными. Далее устройство 10 определения тегов отеля в соответствии с заложенным в него программно-аппаратным алгоритмом извлекает из базы данных 1 все исходные текста отзывов и описаний, относящиеся к одному отелю, и выполняет предварительную обработку полученного исходного текста для последующей кластеризации.
Процесс предварительной обработки упомянутого текста включает очищение текста, в частности, осуществляется удаление знаков препинания, служебных символов, стоп-слов (множество которых задано в базе данных): предлоги, междометия, цифры, частицы (кроме отрицательных). Указанные методы очищения текста широко известны из уровня техники и дополнительно не будут описаны в рамках данной заявки.
Далее устройство 10 для определения тегов выполняет исправление опечаток с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов с учетом следующих действий: пропуск/вставка/замена буквы или перестановка соседних букв, после чего текст лемматизируется, в частности, слова текста приводятся к символам кириллицы, прописным буквам, и преимущественно именительному падежу. Лемматизация может осуществляться широко известными из уровня техники методами, например, посредством использования модуля руту stem для языка Python (https://github.com/nlpub/pymystem3).
В полученном тексте устройство 10 определения тегов алгоритмически выделяет часто встречающиеся слова и фразы - пары, тройки или четверки подряд идущих слов. Для выделения часто встречающиеся слова и фразы может использоваться, например, открытый модуль genism для языка Python (https://radimrehurek.com/gensim/). После очистки текста и выделения часто встречающихся фраз обработанный текст сохраняется в базе данных 1, далее отзывы с очищенным текстом и выделенными часто встречающимися фразами в рамках настоящей заявки будет называться обработанным текстом. Далее для каждого или заранее заданного количества часто встречающихся слов и фраз выстраивается модель для векторной репрезентации фраз и сохраняется в памяти устройства 10 определения тегов, в результате чего получается база векторов для кластеризации. Построение модели для векторной репрезентации фраз осуществляется посредством известных средства, например, с помощью алгоритма word2vec открытого модуля genism для языка Python (https ://radimrehurek .сот/ gensim/).
Соответственно, описанный выше процесс предварительной обработки исходного текста проводится для всех текстов отзывов и описаний для каждого отеля, сохраненных в базе данных 1.
Так как база отзывов не очень большая (по меркам BigData), фразы могут встречаться в ней в единичных экземплярах, в связи с чем значимости отдельных фраз будут иметь сильный случайный шум. Для борьбы с этим шумом фразы группируются путем кластеризации их векторных репрезентаций. Для кластеризации блок 1 1 кластеризации векторных репрезентаций извлекает из памяти устройства 10 определения тегов информацию о векторной репрезентации фраз и выполняет кластеризацию векторных репрезентаций, в результате чего формируются кластеры слов, причем каждый кластер имеет свой номер. Для кластеризации может быть использован, например, ЕМ-алгоритм расщепления гауссовских смесей со сферическими ковариациями (см. http://scikit- leam.org/ stable/modules/mixture.html# expectation-maximization).
Информация о кластерах слов передается в блок 12 определения важностей кластеров слов, который определяет коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания. Для определения коэффициентов важности кластеров слов блок 12 определения важностей кластеров слов выполняет извлечение из базы данных 1 обработанный текст и в каждом обработанном отзыве заменяет слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывает коэффициенты важности кластеров в обработанном тексте по мере TF-IDF. При этом все отзывы одного отеля принимаются за один "документ", а номера кластеров после подстановки за "слова".
Для определения коэффициентов эмоциональности кластеров слов блок 13 определения эмоциональностей кластеров слов извлекает из базы данных 1 информацию о типах отзывов и информацию о кластерах слов из блока 11 кластеризации векторных репрезентаций и определяет вектора с количеством (N) типов отзывов, в которые попадает кластер слов (с) в разрезе положительных (pos), нейтральных (neutral) и негативных (neg) отзывов, например, по формуле: v(c)=(N_neg(c), N neutral(c), N_pos(c)). Далее блок 13 определения эмоциональностей кластеров слов определяет значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе, например, по формуле: vn(c)=( N_neg(c) /NEG, N neutral(c) /NEUTRAL, N_pos(c) /POS), где NEG, NEUTRAL, POS - общие количество отзывов соответствующих типов во всей базе данных 1.
После этого блок 13 проводит нормировку определенных на предыдущем этапе векторов (vn(c)) аддитивным сглаживанием по методу Лапласа q(c)_i = ( vn(c)_i + alpha ) / sum_k(vn(c)_k + alpha), где i ={neg, neutral, pos}, a alpha выбирается небольшим числом, например, 1/N, которое делает метод менее чувствительным к выбросам в случае редких слов. Как итог, коэффициент эмоциональности кластера определяется как разница между позитивными коэффициентами и нейтральными после всех нормировок, а именно: q(c)_ pos — q(c)_neutral, где q - вектор, который определяется в предыдущем параграфе.
Далее значения коэффициентов важности кластеров слов от блока 12 определения важностей кластеров слов и значения коэффициентов эмоциональности кластеров слов от блока 13 определения эмоциональностей кластеров слов поступают на блок 14 определения единого коэффициента, который на основе полученных значений вычисляет единый коэффициент (F), характеризующий значимость слов для отеля, например, по формуле F=2*(B * Э)/(В + Э), где В - коэффициент важности, а Э - коэффициент эмоциональности . Таким образом, для каждого кластера слов определяются коэффициенты значимости, важности и эмоциональности. Коэффициенты значимости, важности и эмоциональности слов в кластере слов устройство обработки данных 10 определяет на основе указанных значений его кластера, после чего из слов, имеющих максимальные показатели коэффициентов значимости, важности и эмоциональности, формируются метки для отеля, представляющие данные слова. Количество меток, которое будет сформировано для отеля, определяются пользователем и их число заранее закладывается в программное обеспечение устройства обработки данных 10, перед началом его работы.
Дополнительно устройство обработки данных 10 может быть выполнено с возможностью фильтрации слов и фраз с большими значениями коэффициента значимости F (десятки и сотни слов), а затем среди них выбирается подмножество (штучно), которое будет удовлетворять наибольшему разнообразию интересов пользователей. Интересы пользователя рассматриваются в рамках тем слов, которые получаются с помощью методов тематического моделирования, например такими, как LDA или SYD. В результате тематического моделирования каждому слову w сопоставляется низкоразмерный вещественный вектор выраженности тем t(w), а интересу пользователя и - вектор соответствующей размерности степени его тематических предпочтений р(и). Удовлетворённость пользователя словом моделируется линейной функцией полезности, а именно, скалярным произведением этих двух векторов: f(u, w) = sum i t(w)_i*p(u)_i. Задача оптимизации удовлетворенности пользователя выборкой из к слов для худшего случая решается линейным программированием либо «жадной» эвристикой (см. http://www.vldb.org/pvldb/vldb2010/papers/R99.pdf).

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ определения тегов для отелей, содержащий этапы, на которых: получают тексты отзывов пользователей и описаний отелей;
выделяют часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей;
для каждого выделенного слова и фразы формируют модель для векторной репрезентации фраз;
группируют выделенные слова и фразы путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания;
определяют коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определяют единый коэффициент (F), характеризующий значимость слов для отеля;
на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формируют метки для отелей.
2. Способ по п. 1, отличающийся тем, что дополнительно содержит этап очищения текстов отзывов пользователей и описаний отелей для получения обработанного текста, причем очищение включает удаление по меньшей мере одно из: знаков препинания, служебных символов, стоп-слов, множество которых задано в базе данных: предлогов, междометий, цифр, и частиц, кроме отрицательных.
3. Способ по п. 2, отличающийся тем, что дополнительно содержит этап исправления опечаток в тестах с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов.
4. Способ по любому из пп. 2 или 3, отличающийся тем, что для определения коэффициентов важности кластеров слов в контекстах отзывов об отелях и их описания способ содержит этапы, на которых: в каждом обработанном отзыве заменяет слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывает коэффициенты важности кластеров в обработанном тексте по мере TF-IDF.
5. Способ по п. 1, отличающийся тем, что для определения коэффициентов эмоциональности кластеров слов способ содержит этапы, на которых:
определяют вектора с количеством типов отзывов, в которые попадает кластер слов в разрезе положительных, нейтральных и негативных отзывов; определяют значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе отзывов;
выполняют нормировку определенных на предыдущем этапе векторов аддитивным сглаживанием по методу Лапласа с учетом упомянутого значения поправки, причем коэффициент эмоциональности кластера определяется как разница между позитивными и нейтральными коэффициентами.
6. Устройство определения тегов для отеля, выполненное с возможностью:
получать тексты отзывов пользователей и описаний отелей;
выделять часто встречающиеся слова и фразы из полученных текстов отзывов пользователей и описаний отелей;
для каждого выделенного слова и фразы формировать модель для векторной репрезентации фраз;
группировать выделенные слова и фразы в кластеры слов путем кластеризации их векторных репрезентаций и определяют коэффициенты важности кластеров слов в контекстах отзывов об отелях и их описания;
определять коэффициенты эмоциональности кластеров слов на основе базы размеченных типов (положительных, нейтральных или отрицательных) отзывов; на основе значений коэффициентов важности кластеров слов и коэффициентов эмоциональности кластеров слов определять единый коэффициент (F), характеризующий значимость слов для отеля;
на основе значений коэффициентов важности кластеров слов, эмоциональности кластеров слов и единого коэффициента (F) формировать метки для отелей.
7. Устройство по п. 6, отличающееся тем, что оно дополнительно выполнено с возможностью очищения текстов отзывов пользователей и описаний отелей для получения обработанного текста, причем очищение включает удаление по меньшей мере одно из: знаков препинания, служебных символов, стоп-слов, множество которых задано в базе данных: предлогов, междометий, цифр, и частиц, кроме отрицательных.
8. Устройство по п. 7, отличающееся тем, что оно дополнительно выполнено с возможностью исправления опечаток в текстах с помощью поиска ближайшего соседа по метрике Левенштейна до всех имеющихся в базе данных слов.
9. Устройство по любому из пп. 7 или 8, отличающееся тем, что оно дополнительно выполнено с возможностью в каждом обработанном отзыве заменять слова на соответствующие номера кластеров их векторных репрезентаций (подстановка) и рассчитывать коэффициенты важности кластеров в обработанном тексте по мере TF-IDF.
10. Устройство по п. 6, отличающееся тем, что оно дополнительно выполнено с возможностью:
определять вектора с количеством типов отзывов, в которые попадает кластер слов в разрезе положительных, нейтральных и негативных отзывов; определять значение поправки на несбалансированность выборки на основе общего количества отзывов соответствующих типов во всей базе отзывов;
выполнять нормировку определенных на предыдущем этапе векторов аддитивным сглаживанием по методу Лапласа с учетом упомянутого значения поправки, причем коэффициент эмоциональности кластера определяется как разница между позитивными и нейтральными коэффициентами.
PCT/RU2018/000672 2018-10-11 2018-10-11 Способ определения тегов для отелей и устройство для его осуществления WO2020076179A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2018/000672 WO2020076179A1 (ru) 2018-10-11 2018-10-11 Способ определения тегов для отелей и устройство для его осуществления

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2018/000672 WO2020076179A1 (ru) 2018-10-11 2018-10-11 Способ определения тегов для отелей и устройство для его осуществления

Publications (1)

Publication Number Publication Date
WO2020076179A1 true WO2020076179A1 (ru) 2020-04-16

Family

ID=70163883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2018/000672 WO2020076179A1 (ru) 2018-10-11 2018-10-11 Способ определения тегов для отелей и устройство для его осуществления

Country Status (1)

Country Link
WO (1) WO2020076179A1 (ru)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905739A (zh) * 2021-02-05 2021-06-04 北京邮电大学 虚假评论检测模型训练方法、检测方法及电子设备
CN114445043A (zh) * 2022-01-26 2022-05-06 安徽大学 基于开放生态化云erp异质图用户需求精准发现方法及系统
CN115099241A (zh) * 2022-06-30 2022-09-23 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法
CN116385029A (zh) * 2023-04-20 2023-07-04 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质
CN117094856A (zh) * 2023-08-24 2023-11-21 哈尔滨工业大学 基于面板logit模型的嵌入OTA网站后用户评价行为的预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置
WO2017120739A1 (zh) * 2016-01-11 2017-07-20 程强 餐饮评论分析方法及系统
CN107967629A (zh) * 2017-12-12 2018-04-27 湖南工程学院 一种基于酒店评级的用户体验评估系统
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置
WO2017120739A1 (zh) * 2016-01-11 2017-07-20 程强 餐饮评论分析方法及系统
CN108268470A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于演化聚类的评论文本分类提取方法
CN107967629A (zh) * 2017-12-12 2018-04-27 湖南工程学院 一种基于酒店评级的用户体验评估系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905739A (zh) * 2021-02-05 2021-06-04 北京邮电大学 虚假评论检测模型训练方法、检测方法及电子设备
CN114445043A (zh) * 2022-01-26 2022-05-06 安徽大学 基于开放生态化云erp异质图用户需求精准发现方法及系统
CN115099241A (zh) * 2022-06-30 2022-09-23 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法
CN115099241B (zh) * 2022-06-30 2024-04-12 郑州信大先进技术研究院 一种基于模型融合的海量旅游网络文本语义分析方法
CN116385029A (zh) * 2023-04-20 2023-07-04 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质
CN116385029B (zh) * 2023-04-20 2024-01-30 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质
CN117094856A (zh) * 2023-08-24 2023-11-21 哈尔滨工业大学 基于面板logit模型的嵌入OTA网站后用户评价行为的预测方法
CN117094856B (zh) * 2023-08-24 2024-04-30 哈尔滨工业大学 基于面板logit模型的嵌入OTA网站后用户评价行为的预测方法

Similar Documents

Publication Publication Date Title
WO2020076179A1 (ru) Способ определения тегов для отелей и устройство для его осуществления
US8239189B2 (en) Method and system for estimating a sentiment for an entity
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
CN107291783B (zh) 一种语义匹配方法及智能设备
US9836511B2 (en) Computer-generated sentiment-based knowledge base
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN103970798B (zh) 数据的搜索和匹配
KR20070102033A (ko) 문서검색 시스템 및 그 방법
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
KR102100951B1 (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
JP6818706B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP2019121392A (ja) 情報検索システム
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
Tandel et al. Multi-document text summarization-a survey
JP4755478B2 (ja) 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN112434211A (zh) 一种数据处理方法、装置、存储介质及设备
CN111737961A (zh) 一种故事生成的方法、装置、计算机设备和介质
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN111369294B (zh) 软件造价估算方法及装置
CN111782789A (zh) 智能问答方法与系统
JP2021022292A (ja) 情報処理装置、プログラム及び情報処理方法
KR20220054753A (ko) 음성 검색 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 한 저장 매체 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18936433

Country of ref document: EP

Kind code of ref document: A1