RU2700191C1 - Способ и устройство выявления сходства - Google Patents
Способ и устройство выявления сходства Download PDFInfo
- Publication number
- RU2700191C1 RU2700191C1 RU2018135971A RU2018135971A RU2700191C1 RU 2700191 C1 RU2700191 C1 RU 2700191C1 RU 2018135971 A RU2018135971 A RU 2018135971A RU 2018135971 A RU2018135971 A RU 2018135971A RU 2700191 C1 RU2700191 C1 RU 2700191C1
- Authority
- RU
- Russia
- Prior art keywords
- search
- data
- names
- trademarks
- trademark
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
- G06F16/90328—Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Изобретение относится к области вычислительной техники. Технический результат заключается в сокращении времени и повышении точности результатов поиска названий торговых марок. Технический результат достигается за счет сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах, сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок, построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении, использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок. 2 н. и 8 з.п. ф-лы, 8 ил., 1 табл.
Description
Область техники
Изобретение принадлежит к области технологии обработки информации и, в частности, относится к способу и устройству выявления сходства.
Уровень техники
В эпоху быстрого экономического развития также значительно увеличились материальные потребности людей. Вследствие сравнительно устойчивых стилей, функций, эффектов, вкусов и т.д. товаров с торговыми марками люди всегда будут использовать свои собственные знакомые торговые марки. У потребителей возникает некоторое неприятие, когда им рекомендуют другие торговые марки в системе рекомендаций; и это также мешает компании с новой торговой маркой продвигать товары этой торговой марки. Таким образом, изобретение автоматизированного недорогого способа для выявления сходства торговых марок имеет большое значение для рекомендации потребителям в системе рекомендаций торговых марок со сходными стилями, функциями, эффектами, вкусами и т.д., чтобы облегчить потребителям благосклонное восприятие рекомендуемых торговых марок; и построить экологическую структуру торговых марок рынка и заставить компанию развивать стратегические решения с более целевым подходом.
Существующий способ выявления сходства торговых марок включает в себя способ ручной оценки всесторонних показателей и способ кластеризации горячих тематик общественного мнения. Среди них, как показано на фиг. 1, способ ручной оценки всесторонних показателей в общем случае собирает названия торговых марок вручную; выполняет всестороннюю оценку сходства между соответствующими торговыми марками, например, от общественных деятелей, работников образования, политиков, простых людей и предпринимательских элит; и координирует оценки людей всех слоев общества, использует формулы для вычисления сходств торговых марок и выдает ранжирование. Однако этот способ требует большого количества анкетных опросов, и затраты на оплату труда являются высокими; что касается обзора бумажных анкет или онлайнового обзора анкет, опрашиваемые часто имеют небрежное отношение, что приводит к неточным результатам и сравнительно субъективным результатам вычисления; и ручная обработка в реальном времени является сравнительно медленной, и будет иметься задержанная ответная реакция.
Как показано на фиг. 2, способ кластеризации горячих тематик общественного мнения в общем случае просматривает данные точек зрения комментариев, содержащих ключевые слова торговой марки в социальной сети, и использует способ кластеризации, такой как способ кластеризации тематик с использованием латентного размещения Дирихле (LDA), и затем добавляет формулы для вычисления температуры сети торговых марок. Способ просматривает данные о пользовательских комментариях по торговым маркам в поисковой системе или в социальной сети, такой как микроблог, и это затрагивает методики на тему того, как быстро и эффективно выполнить просмотр и выполнить сохранение в форме, которая является простой для чтения; неструктурированные данные для пользовательских комментариев подвергаются очистке, чтобы устранить бессодержательные данные, бесполезные данные и данные помех. После очистки другая копия сохраняется в структурированной форме; требуемые структурированные данные считываются, и выполняется кластеризация посредством способа кластеризации тематик с использованием LDA, чтобы получить матрицу вероятности каждого названия торговой марки. Формулы используются для вычисления сходства между торговыми марками. Однако расчет температуры сети в соответствии с общественным мнением сравнительно легко вызывает колебания вследствие событий на горячие тематики, которые могут представлять лишь некоторую температуру сети и не могут достаточно хорошо представлять относительно стабильное сходство торговых марок.
Сущность изобретения
Задачей изобретения является обеспечение способа и устройства выявления сходства.
В соответствии с одним аспектом изобретения обеспечен способ выявления сходства, способ содержит: сбор данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах; сбор поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок; построение корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении; использование корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и вычисление сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
Предпочтительно способ выявления сходства дополнительно содержит: добавление данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Предпочтительно при построении корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Предпочтительно при использовании корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, алгоритм word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики.
Предпочтительно способ выявления сходства дополнительно содержит: классификацию поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрацию карты релевантности торговых марок соответствующих категорий согласно результату классификации.
В соответствии с другим аспектом изобретения обеспечено устройство выявления сходства, устройство содержит: модуль сбора данных для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах; модуль выявления поисковых названий торговых марок для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок; модуль построения корпуса лексики для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении; модуль обучения для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и модуль вычисления сходства для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
Предпочтительно устройство выявления сходства дополнительно содержит: модуль добавления данных для получения сходства между поисковыми названиями торговых марок в соответствии с расстоянием между поисковыми названиями торговых марок.
Предпочтительно модуль построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Предпочтительно модуль обучения использует алгоритм word2vec в качестве инструмента векторов-слов и использует модель HS-CBOW для обеспечения векторов-слов корпуса основной лексики.
Предпочтительно устройство выявления сходства дополнительно содержит: модуль демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
Способ и устройство выявления сходства, обеспеченные изобретением, вычисляют сходства названий торговых марок, используя алгоритм кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Краткое описание чертежей
Упомянутые выше и другие задачи, характеристики и преимущества изобретения будут более понятны посредством описаний вариантов осуществления изобретения со ссылкой на перечисленные ниже фигуры.
Фиг. 1 показывает блок-схему последовательности этапов способа ручной оценки всесторонних показателей на предшествующем уровне техники;
Фиг. 2 показывает блок-схему последовательности этапов способа кластеризации горячих тематик общественного мнения на предшествующем уровне техники;
Фиг. 3 показывает блок-схему последовательности этапов способа выявления сходства в соответствии с вариантом осуществления изобретения;
Фиг. 4 показывает схему структуры устройства выявления сходства в соответствии с вариантом осуществления изобретения;
Фиг. 5 показывает карта релевантности торговых марок разных категорий в соответствии с вариантом осуществления изобретения; и
Фиг. 6 показывает схему структуры рынка сухого молока в торговой марке товаров для матери и ребенка в соответствии с вариантом осуществления изобретения.
Подробное описание
Ниже будут более подробно описаны различные варианты осуществления изобретения со ссылкой на чертежи. На различных фигурах одинаковые элементы обозначены идентичными или сходными ссылочными позициями. Для ясности различные части на чертежах изображены не в одинаковом масштабе.
Изобретение может быть воплощено в различных формах, и некоторые примеры будут описаны ниже.
Фиг. 3 показывает блок-схему последовательности этапов способа выявления сходства в соответствии с вариантом осуществления изобретения. Как показано на фиг. 3, способ выявления сходства содержит следующие этапы.
На этапе S01 собираются данные о пользовательском поведении и данные о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских поисковых словах и данные о пользовательских комментариях.
В варианте осуществления текстовые данные о пользовательских комментариях после покупки, данные о пользовательских поисковых словах и данные о названиях торговых марок собираются из хранилища данных через формулировку запроса. После отслеживания большого объема данных и интерпретации данных формулируются правила фильтрации, чтобы отфильтровать недостоверные бессодержательные данные. Текстовые данные о пользовательских комментариях после покупки подвергаются сегментации и маркировке по частям речи, и создается собственный банк слов для улучшения эффекта сегментации и маркировки по частям речи.
На этапе S02 поисковые названия торговых марок собираются в соответствии с данными о пользовательских поисковых словах и данными о названиях торговых марок.
В варианте осуществления данные о пользовательских поисковых словах фильтруются, чтобы отфильтровать поисковые слова, не относящиеся к торговой марке, для получения поисковых слов, относящихся к торговой марке. Названия торговых марок извлекаются из поисковых слов, относящихся к торговой марке, в соответствии с данными о названиях торговых марок для получения поискового названия торговой марки.
В частности, данные о пользовательском поведении фильтруются для получения данных о пользовательских поисковых словах, причем данные о пользовательских поисковых словах включают в себя названия торговых марок; в качестве примера одного фрагмента данных о пользовательских поисковых словах, данные о пользовательских поисковых словах представляют собой: "BOSIDENG", "пуховик", "легкий и тонкий", и название торговой марки, т.е., поисковое название торговой марки, выбирается из данных о пользовательских поисковых словах в соответствии с данными о названиях торговых марок. Мы можем получить следующее поисковое название торговой марки: "BOSIDENG".
На этапе S03 строится корпус основой лексики, относящийся к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении.
В варианте осуществления корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
На этапе S04 корпус основной лексики используется в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок.
В варианте осуществления при обучении модели векторов-слов результат достигается посредством инструмента word2vec. Прошедший обучение корпус основной лексики включает в себя данные о пользовательских комментариях для поисковых названий торговых марок, и каждый фрагмент данных включает в себя поисковые названия торговых марок и символы, описывающие поисковые названия торговых марок. Чтобы сократить воздействие данных на обучение векторов-слов, данные сначала подвергаются операциям фильтрации и слияния, и корректные данные получаются после очистки данных. Кроме того, с учетом скорости обучения и сложности достижения рекомендаций, модель HS-CBOW, которая обучается сравнительно быстро и относительно легко достигается с точки зрения разработки, выбрана для использования для обеспечения векторов-слов корпуса основной лексики.
Кроме того, с точки зрения выбора размерности векторов-слов, в общем случае, чем выше размерность и чем больше текстовое окно, тем лучше эффект представления признаков векторов-слов, но тем больше времени потребляется для обучения векторов-слов, и тем больше объем, занимаемый результатами обучения. Когда встречается сравнительно большой набор данных, сравнительно эффективная скорость вычислений может поддерживаться при установке 100-мерных векторов слов и выборе текстового окна с размером 5, и векторы-слова с определенным объемом словаря, наконец, получаются посредством обучения.
Инструмент word2vec является инструментарием нейронной сети, выпущенным компанией Google. Главными используемыми моделями являются CBOW ("непрерывный мешок со словами") и Skip-Gram. Текстовый словарь на входе может быть преобразован в последовательность векторов-слов, и этот инструментальный комплект применялся во многих приложениях для обработки естественного языка. Типичная реализация алгоритма word2vec должна построить корпус лексики с учебными текстовыми данными и затем получить векторное представление лексики посредством обучения.
На этапе S05 вычисляется сходство между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
В варианте осуществления расстояние между торговыми марками a и b вычисляется посредством количественного произведения векторов-слов, и затем сходство между a и b вычисляется в соответствии с формулой sim (a, b)=cos(word2vec(a), word2vec(b)). Чем больше расстояние между a и b, тем выше сходство между a и b.
В предпочтительном варианте реализации способ выявления сходства дополнительно содержит этап S06.
На этапе S06 добавляются данные о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Вследствие сложности и большого объема пользовательских комментариев мы не можем одновременно использовать все данные о комментариях для выполнения обучения, и не все комментарии способствуют вычислению векторов-слов посредством поисковых названий торговых марок, которые нам нужны. Недостаточность способствующих данных, вероятно, приведет к тому, что одно из наших поисковых названий торговых марок не обнаружит свою релевантную торговую марку. Здесь мы определяем, обнаруживает ли поисковое название торговой марки релевантную торговую марку, в соответствии с вычисленным сходством, т.е., когда сходства между одним из поисковых названий торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога, это указывает, что поисковое название торговой марки не обнаруживает релевантную торговую марку; данные о пользовательских комментариях под поисковым названием торговой марки извлекаются в соответствии с поисковым названием торговой марки, не обнаруживающей сходство, и вектор-слово поискового названия торговой марки вычисляется снова с этапа S01. Процесс повторяется многократно, пока количество итераций не больше установленного количества порогов, тем самым значительно увеличивая частоту упоминаний расстояния сходства торговых марок. Как показано в приведенной ниже таблице 1, проиллюстрированы сходства нескольких торговых марок, и измерение сходств торговых марок чувствуется более интуитивно.
Таблица 1: Сходство торговых марок
Торговая марка 1 | Торговая марка 2 | Сходство |
GXG | Jack Jones | 80% |
Hengyuanxiang | Antarctic | 85% |
Hengyuanxiang | Jack Jones | 75% |
Hengyuanxiang | McDonald's | 30% |
В предпочтительном варианте реализации способ выявления сходства дополнительно содержит этап S07.
На этапе S07 поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок, и демонстрируется карта релевантности торговых марок соответствующих категорий согласно результату классификации.
В варианте осуществления поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок; когда сходство между поисковыми названиями торговых марок больше определенного порога, поисковые названия торговых марок классифицируются в одну категорию, чтобы сформировать структуры разных категорий, и демонстрируется карта релевантности торговых марок соответствующих категорий. Фиг. 5a-5b демонстрируют структуру рынка нижнего белья в торговой марке одежды, фиг. 6a-6b демонстрируют структуру рынка сухого молока в торговой марке товаров для матери и ребенка, и торговая марка с высоким сходством может быть рекомендована пользователям согласно карте релевантности торговых марок соответствующих категорий, чтобы оптимизировать стратегию позиционирования торговой марки.
Способ выявления сходства, обеспеченный изобретением, вычисляет сходства названий торговых марок с использованием алгоритма кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Фиг. 4 показывает структурную схему устройства выявления сходства в соответствии с вариантом осуществления изобретения.
Как показано на фиг. 4, устройство выявления сходства содержит модуль 101 сбора данных, модуль 102 выявления поисковых названий торговых марок, модуль 103 построения корпуса лексики, модуль 104 обучения и модуль 105 вычисления сходства.
Модуль 101 сбора данных используется для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах.
В варианте осуществления модуль 101 сбора данных собирает текстовые данные о пользовательских комментариях после покупки, данные о пользовательских поисковых словах и данные о названиях торговых марок из хранилища данных через формулировку запроса. После отслеживания большого объема данных и интерпретации данных формулируются правила фильтрации, чтобы отфильтровать недостоверные бессодержательные данные. Текстовые данные о пользовательских комментариях после покупки подвергаются сегментации и маркировке по частям речи, и создается собственный банк слов для улучшения эффекта сегментации и маркировки по частям речи.
Модуль 102 выявления поисковых названий торговых марок используется для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок.
В варианте осуществления 102 выявления поисковых названий торговых марок фильтрует данные о пользовательских поисковых словах, чтобы отфильтровать поисковые слова, не относящиеся к торговой марке, для получения поисковых слов, относящихся к торговой марке. Названия торговых марок извлекаются из поисковых слов, относящихся к торговой марке, в соответствии с данными о названиях торговых марок для получения поискового названия торговой марки.
В частности, модуль 102 выявления поисковых названий торговых марок фильтрует данные о пользовательском поведении для получения данных о пользовательских поисковых словах, причем данные о пользовательских поисковых словах включают в себя названия торговых марок; в качестве примера одного фрагмента данных о пользовательских поисковых словах, данные о пользовательских поисковых словах представляют собой: "BOSIDENG", "пуховик", "легкий и тонкий", и название торговой марки, т.е., поисковое название торговой марки, выбирается из данных о пользовательских поисковых словах в соответствии с данными о названиях торговых марок. Мы можем получить следующее поисковое название торговой марки: "BOSIDENG".
Модуль 103 построения корпуса лексики используется для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении.
В варианте осуществления модуль 103 построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Модуль 104 обучения используется для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для получения векторов-слов поисковых названий торговых марок.
В варианте осуществления модуль 104 обучения достигается посредством инструмента word2vec. Прошедший обучение корпус основной лексики включает в себя данные о пользовательских комментариях для поисковых названий торговых марок, и каждый фрагмент данных включает в себя поисковые названия торговых марок и символы, описывающие поисковые названия торговых марок. Чтобы сократить воздействие данных на обучение векторов-слов, данные сначала подвергаются операциям фильтрации и слияния, и корректные данные получаются после очистки данных. Кроме того, с учетом скорости обучения и сложности достижения рекомендаций, модель HS-CBOW, которая обучается сравнительно быстро и относительно легко достигается с точки зрения разработки, выбрана для использования для обеспечения векторов-слов корпуса основной лексики. Инструмент word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики. Размерность векторов-слов установлена равной 100, и текстовое окно установлено равным 5.
Кроме того, с точки зрения выбора размерности векторов-слов, в общем случае, чем выше размерность и чем больше текстовое окно, тем лучше эффект представления признаков векторов-слов, но тем больше времени потребляется для обучения векторов-слов, и тем больше объем, занимаемый результатами обучения. Когда встречается сравнительно большой набор данных, сравнительно эффективная скорость вычислений может поддерживаться при установке 100-мерных векторов слов и выборе текстового окна с размером 5, и векторы-слова с определенным объемом словаря, наконец, получаются посредством обучения.
Модуль 105 вычисления сходства используется для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
В варианте осуществления расстояние между торговыми марками a и b вычисляется посредством количественного произведения векторов-слов, и затем сходство между a и b вычисляется в соответствии с формулой sim (a, b)=cos(word2vec(a), word2vec(b)). Чем больше расстояние между a и b, тем выше сходство между a и b.
В предпочтительном варианте осуществления устройство выявления сходства дополнительно содержит модуль 106 добавления данных для добавления данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Вследствие сложности и большого объема пользовательских комментариев мы не можем одновременно использовать все данные о комментариях для выполнения обучения, и не все комментарии способствуют вычислению векторов-слов посредством поисковых названий торговых марок, которые нам нужны. Недостаточность способствующих данных, вероятно, приведет к тому, что одно из наших поисковых названий торговых марок не обнаружит свою релевантную торговую марку. Здесь мы определяем, обнаруживает ли поисковое название торговой марки релевантную торговую марку, в соответствии с вычисленным сходством, т.е., когда сходства между одним из поисковых названий торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога, это указывает, что поисковое название торговой марки не обнаруживает релевантную торговую марку; данные о пользовательских комментариях под поисковым названием торговой марки извлекаются в соответствии с поисковым названием торговой марки, не обнаруживающей сходство, и вектор-слово поискового названия торговой марки вычисляется снова с этапа S01. Процесс повторяется многократно, пока количество итераций не больше установленного количества порогов, тем самым значительно увеличивая частоту упоминаний расстояния сходства торговых марок.
В предпочтительном варианте осуществления устройство выявления сходства дополнительно содержит модуль 107 демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
В варианте осуществления поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок; когда сходство между поисковыми названиями торговых марок больше определенного порога, поисковые названия торговых марок классифицируются в одну категорию, чтобы сформировать структуры разных категорий, и демонстрируется карта релевантности торговых марок соответствующих категорий. Фиг. 5a-5b демонстрируют структуру рынка нижнего белья в торговой марке одежды, фиг. 6a-6b демонстрируют структуру рынка сухого молока в торговой марке товаров для матери и ребенка, и торговая марка с высоким сходством может быть рекомендована пользователям согласно карте релевантности торговых марок соответствующих категорий, чтобы оптимизировать стратегию позиционирования торговой марки.
Устройство выявления сходства, обеспеченное изобретением, вычисляет сходства названий торговых марок, используя алгоритм кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Описанные выше варианты осуществления в соответствии с изобретением не излагают всех подробностей, и изобретение не ограничено конкретными вариантами осуществления. Очевидно, много модификаций и вариаций могут быть сделаны в соответствии с приведенными выше описаниями. Описание выбирает и подробно описывает эти варианты осуществления для лучшего разъяснения принципа и реального применения изобретения, чтобы специалисты в области техники смогли эффективно использовать изобретение и выполнить модифицированные варианты использования на основе изобретения. Объем защиты изобретения должен быть определен посредством объема, заданного формулой изобретения.
Claims (24)
1. Способ выявления сходства торговых марок, содержащий этапы, на которых:
собирают данные о пользовательском поведении и данные о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах;
собирают поисковые названия торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок;
строят корпус основной лексики, относящийся к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении;
используют корпус основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и
вычисляют сходство между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
2. Способ по п. 1, способ дополнительно содержит этап, на котором:
добавляют данные о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
3. Способ по п. 1, в котором при построении корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
4. Способ по п. 1, в котором при использовании корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, алгоритм word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики.
5. Способ по п. 1, способ дополнительно содержит этап, на котором:
классифицируют поисковые названия торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрируют карты релевантности торговых марок соответствующих категорий согласно результату классификации.
6. Устройство выявления сходства торговых марок, содержащее:
модуль сбора данных для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах;
модуль выявления поисковых названий торговых марок для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок;
модуль построения корпуса лексики для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении;
модуль обучения для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и
модуль вычисления сходства для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
7. Устройство по п. 6, устройство дополнительно содержит:
модуль добавления данных для добавления данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
8. Устройство по п. 6, в котором модуль построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
9. Устройство по п. 6, в котором модуль обучения использует алгоритм word2vec в качестве инструмента векторов-слов и использует модель HS-CBOW для обеспечения векторов-слов корпуса основной лексики.
10. Устройство по п. 6, устройство дополнительно содержит:
модуль демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610146542.9 | 2016-03-15 | ||
CN201610146542.9A CN107193832A (zh) | 2016-03-15 | 2016-03-15 | 相似度挖掘方法及装置 |
PCT/CN2017/070225 WO2017157090A1 (zh) | 2016-03-15 | 2017-01-05 | 相似度挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2700191C1 true RU2700191C1 (ru) | 2019-09-13 |
Family
ID=59850739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018135971A RU2700191C1 (ru) | 2016-03-15 | 2017-01-05 | Способ и устройство выявления сходства |
Country Status (5)
Country | Link |
---|---|
US (1) | US11017043B2 (ru) |
CN (1) | CN107193832A (ru) |
AU (1) | AU2017232659A1 (ru) |
RU (1) | RU2700191C1 (ru) |
WO (1) | WO2017157090A1 (ru) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038133A (zh) * | 2017-11-20 | 2018-05-15 | 青岛鹏海软件有限公司 | 个性化推荐方法 |
CN108416611B (zh) * | 2018-01-31 | 2020-12-04 | 佛山市顺德区中山大学研究院 | 一种超市路径推荐系统及其方法 |
CN108763205B (zh) * | 2018-05-21 | 2022-05-03 | 创新先进技术有限公司 | 一种品牌别名识别方法、装置及电子设备 |
CN109033232B (zh) * | 2018-07-01 | 2021-12-28 | 东莞市华睿电子科技有限公司 | 一种云平台与共享设备相结合的社交用户推荐方法 |
CN110874609B (zh) * | 2018-09-04 | 2022-08-16 | 武汉斗鱼网络科技有限公司 | 基于用户行为的用户聚类方法、存储介质、设备及系统 |
CN109635383A (zh) * | 2018-11-28 | 2019-04-16 | 优信拍(北京)信息科技有限公司 | 一种基于word2vec的车系相关度确定的方法及装置 |
CN112036120A (zh) * | 2020-08-31 | 2020-12-04 | 上海硕恩网络科技股份有限公司 | 一种技能短语抽取方法 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法 |
CN113673216B (zh) * | 2021-10-20 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 文本侵权检测方法、装置和电子设备 |
CN114201962B (zh) * | 2021-12-03 | 2023-07-25 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
CN116308683B (zh) * | 2023-05-17 | 2023-08-04 | 武汉纺织大学 | 基于知识图谱的服装品牌定位推荐方法、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6529892B1 (en) * | 1999-08-04 | 2003-03-04 | Illinois, University Of | Apparatus, method and product for multi-attribute drug comparison |
US20080008348A1 (en) * | 2006-02-01 | 2008-01-10 | Markmonitor Inc. | Detecting online abuse in images |
US20080270203A1 (en) * | 2007-04-27 | 2008-10-30 | Corporation Service Company | Assessment of Risk to Domain Names, Brand Names and the Like |
US20100076983A1 (en) * | 2008-09-08 | 2010-03-25 | Apple Inc. | System and method for playlist generation based on similarity data |
US20130254124A1 (en) * | 2010-12-02 | 2013-09-26 | Sky Castle Global Limited | System to inform about trademarks similar to provided input |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606810B1 (en) * | 2006-04-27 | 2009-10-20 | Colin Jeavons | Editorial related advertising content delivery system |
US7873635B2 (en) * | 2007-05-31 | 2011-01-18 | Microsoft Corporation | Search ranger system and double-funnel model for search spam analyses and browser protection |
CN101206674A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 以商品为媒介的增强型相关搜索系统及其方法 |
US9438733B2 (en) * | 2008-09-08 | 2016-09-06 | Invoca, Inc. | Methods and systems for data transfer and campaign management |
KR101078864B1 (ko) * | 2009-03-26 | 2011-11-02 | 한국과학기술원 | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 |
US8631473B2 (en) * | 2011-07-06 | 2014-01-14 | Symphony Advanced Media | Social content monitoring platform apparatuses and systems |
US20160065534A1 (en) | 2011-07-06 | 2016-03-03 | Nominum, Inc. | System for correlation of domain names |
WO2013124521A1 (en) * | 2012-02-22 | 2013-08-29 | Nokia Corporation | A system and a method for determining context |
US9406072B2 (en) * | 2012-03-29 | 2016-08-02 | Spotify Ab | Demographic and media preference prediction using media content data analysis |
US20150242525A1 (en) * | 2014-02-26 | 2015-08-27 | Pixured, Inc. | System for referring to and/or embedding posts within other post and posts within any part of another post |
US10102669B2 (en) * | 2014-09-08 | 2018-10-16 | Apple Inc. | Density sampling map labels |
US9767409B1 (en) * | 2015-03-30 | 2017-09-19 | Amazon Technologies, Inc. | Latent feature based tag routing |
CN104778161B (zh) * | 2015-04-30 | 2017-07-07 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN105095430A (zh) | 2015-07-22 | 2015-11-25 | 深圳证券信息有限公司 | 构建词语网络及抽取关键词的方法和装置 |
US20170075998A1 (en) * | 2015-09-14 | 2017-03-16 | Ebay Inc. | Assessing translation quality |
CN105279288B (zh) | 2015-12-04 | 2018-08-24 | 深圳大学 | 一种基于深度神经网络的在线内容推荐方法 |
US11263664B2 (en) * | 2015-12-30 | 2022-03-01 | Yahoo Assets Llc | Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content |
-
2016
- 2016-03-15 CN CN201610146542.9A patent/CN107193832A/zh active Pending
-
2017
- 2017-01-05 WO PCT/CN2017/070225 patent/WO2017157090A1/zh active Application Filing
- 2017-01-05 RU RU2018135971A patent/RU2700191C1/ru active
- 2017-01-05 US US16/085,893 patent/US11017043B2/en active Active
- 2017-01-05 AU AU2017232659A patent/AU2017232659A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6529892B1 (en) * | 1999-08-04 | 2003-03-04 | Illinois, University Of | Apparatus, method and product for multi-attribute drug comparison |
US20080008348A1 (en) * | 2006-02-01 | 2008-01-10 | Markmonitor Inc. | Detecting online abuse in images |
US20080270203A1 (en) * | 2007-04-27 | 2008-10-30 | Corporation Service Company | Assessment of Risk to Domain Names, Brand Names and the Like |
US20100076983A1 (en) * | 2008-09-08 | 2010-03-25 | Apple Inc. | System and method for playlist generation based on similarity data |
US20130254124A1 (en) * | 2010-12-02 | 2013-09-26 | Sky Castle Global Limited | System to inform about trademarks similar to provided input |
Also Published As
Publication number | Publication date |
---|---|
AU2017232659A1 (en) | 2018-10-11 |
WO2017157090A1 (zh) | 2017-09-21 |
US20200301982A1 (en) | 2020-09-24 |
US11017043B2 (en) | 2021-05-25 |
CN107193832A (zh) | 2017-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2700191C1 (ru) | Способ и устройство выявления сходства | |
Liu et al. | Analyzing changes in hotel customers’ expectations by trip mode | |
Chang et al. | Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor | |
CN107861972B (zh) | 一种用户录入商品信息后显示商品全结果的方法及设备 | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
Anastasia et al. | Twitter sentiment analysis of online transportation service providers | |
US10198635B2 (en) | Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics | |
CN107205016B (zh) | 物联网设备的检索方法 | |
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
CN104166732B (zh) | 一种基于全局评分信息的项目协同过滤推荐方法 | |
Park | Framework for sentiment-driven evaluation of customer satisfaction with cosmetics brands | |
US20140101293A1 (en) | Apparatus and method for providing issue record, and generating issue record | |
Wang et al. | A novel data-driven weighted sentiment analysis based on information entropy for perceived satisfaction | |
Ishfaq et al. | Modeling to find the top bloggers using sentiment features | |
TWI501183B (zh) | 個人化教科書推薦系統及其方法 | |
KR20220091948A (ko) | 소셜 미디어 활동 분석을 통한 추천 서비스 제공 장치 및 방법 | |
Powell et al. | Developing artwork pricing models for online art sales using text analytics | |
Nuritha et al. | Analysis of Public Perception on Organic Coffee through Text Mining Approach using Naïve Bayes Classifier | |
KR102405503B1 (ko) | 소비 데이터와 소셜 데이터를 이용한 소비동향 예측 지수 생성 방법과 이를 적용한 소비동향 예측 지수 생성 시스템 및 이를 위한 컴퓨터 프로그램 | |
KR101549188B1 (ko) | 브랜드 이미지 측정장치 및 측정방법 | |
Dahlan et al. | Sentiment Analysis of Airline Ticket and Hotel Booking of Traveloka Using Support Vector Machine | |
Amira et al. | Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis | |
JP6895167B2 (ja) | 効用値推定装置及びプログラム | |
Hotti et al. | Graph Neural Networks for Nomination and Representation Learning of Web Elements |