RU2700191C1 - Способ и устройство выявления сходства - Google Patents

Способ и устройство выявления сходства Download PDF

Info

Publication number
RU2700191C1
RU2700191C1 RU2018135971A RU2018135971A RU2700191C1 RU 2700191 C1 RU2700191 C1 RU 2700191C1 RU 2018135971 A RU2018135971 A RU 2018135971A RU 2018135971 A RU2018135971 A RU 2018135971A RU 2700191 C1 RU2700191 C1 RU 2700191C1
Authority
RU
Russia
Prior art keywords
search
data
names
trademarks
trademark
Prior art date
Application number
RU2018135971A
Other languages
English (en)
Inventor
Юньду ХУАН
Хайюн ЧЭНЬ
Original Assignee
Бэйцзин Цзиндун Шанкэ Информейшн Текнолоджи Ко., Лтд.
Бэйцзин Цзиндун Сенчури Трэйдинг Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Бэйцзин Цзиндун Шанкэ Информейшн Текнолоджи Ко., Лтд., Бэйцзин Цзиндун Сенчури Трэйдинг Ко., Лтд. filed Critical Бэйцзин Цзиндун Шанкэ Информейшн Текнолоджи Ко., Лтд.
Application granted granted Critical
Publication of RU2700191C1 publication Critical patent/RU2700191C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Изобретение относится к области вычислительной техники. Технический результат заключается в сокращении времени и повышении точности результатов поиска названий торговых марок. Технический результат достигается за счет сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах, сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок, построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении, использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок. 2 н. и 8 з.п. ф-лы, 8 ил., 1 табл.

Description

Область техники
Изобретение принадлежит к области технологии обработки информации и, в частности, относится к способу и устройству выявления сходства.
Уровень техники
В эпоху быстрого экономического развития также значительно увеличились материальные потребности людей. Вследствие сравнительно устойчивых стилей, функций, эффектов, вкусов и т.д. товаров с торговыми марками люди всегда будут использовать свои собственные знакомые торговые марки. У потребителей возникает некоторое неприятие, когда им рекомендуют другие торговые марки в системе рекомендаций; и это также мешает компании с новой торговой маркой продвигать товары этой торговой марки. Таким образом, изобретение автоматизированного недорогого способа для выявления сходства торговых марок имеет большое значение для рекомендации потребителям в системе рекомендаций торговых марок со сходными стилями, функциями, эффектами, вкусами и т.д., чтобы облегчить потребителям благосклонное восприятие рекомендуемых торговых марок; и построить экологическую структуру торговых марок рынка и заставить компанию развивать стратегические решения с более целевым подходом.
Существующий способ выявления сходства торговых марок включает в себя способ ручной оценки всесторонних показателей и способ кластеризации горячих тематик общественного мнения. Среди них, как показано на фиг. 1, способ ручной оценки всесторонних показателей в общем случае собирает названия торговых марок вручную; выполняет всестороннюю оценку сходства между соответствующими торговыми марками, например, от общественных деятелей, работников образования, политиков, простых людей и предпринимательских элит; и координирует оценки людей всех слоев общества, использует формулы для вычисления сходств торговых марок и выдает ранжирование. Однако этот способ требует большого количества анкетных опросов, и затраты на оплату труда являются высокими; что касается обзора бумажных анкет или онлайнового обзора анкет, опрашиваемые часто имеют небрежное отношение, что приводит к неточным результатам и сравнительно субъективным результатам вычисления; и ручная обработка в реальном времени является сравнительно медленной, и будет иметься задержанная ответная реакция.
Как показано на фиг. 2, способ кластеризации горячих тематик общественного мнения в общем случае просматривает данные точек зрения комментариев, содержащих ключевые слова торговой марки в социальной сети, и использует способ кластеризации, такой как способ кластеризации тематик с использованием латентного размещения Дирихле (LDA), и затем добавляет формулы для вычисления температуры сети торговых марок. Способ просматривает данные о пользовательских комментариях по торговым маркам в поисковой системе или в социальной сети, такой как микроблог, и это затрагивает методики на тему того, как быстро и эффективно выполнить просмотр и выполнить сохранение в форме, которая является простой для чтения; неструктурированные данные для пользовательских комментариев подвергаются очистке, чтобы устранить бессодержательные данные, бесполезные данные и данные помех. После очистки другая копия сохраняется в структурированной форме; требуемые структурированные данные считываются, и выполняется кластеризация посредством способа кластеризации тематик с использованием LDA, чтобы получить матрицу вероятности каждого названия торговой марки. Формулы используются для вычисления сходства между торговыми марками. Однако расчет температуры сети в соответствии с общественным мнением сравнительно легко вызывает колебания вследствие событий на горячие тематики, которые могут представлять лишь некоторую температуру сети и не могут достаточно хорошо представлять относительно стабильное сходство торговых марок.
Сущность изобретения
Задачей изобретения является обеспечение способа и устройства выявления сходства.
В соответствии с одним аспектом изобретения обеспечен способ выявления сходства, способ содержит: сбор данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах; сбор поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок; построение корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении; использование корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и вычисление сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
Предпочтительно способ выявления сходства дополнительно содержит: добавление данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Предпочтительно при построении корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Предпочтительно при использовании корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, алгоритм word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики.
Предпочтительно способ выявления сходства дополнительно содержит: классификацию поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрацию карты релевантности торговых марок соответствующих категорий согласно результату классификации.
В соответствии с другим аспектом изобретения обеспечено устройство выявления сходства, устройство содержит: модуль сбора данных для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах; модуль выявления поисковых названий торговых марок для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок; модуль построения корпуса лексики для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении; модуль обучения для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и модуль вычисления сходства для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
Предпочтительно устройство выявления сходства дополнительно содержит: модуль добавления данных для получения сходства между поисковыми названиями торговых марок в соответствии с расстоянием между поисковыми названиями торговых марок.
Предпочтительно модуль построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Предпочтительно модуль обучения использует алгоритм word2vec в качестве инструмента векторов-слов и использует модель HS-CBOW для обеспечения векторов-слов корпуса основной лексики.
Предпочтительно устройство выявления сходства дополнительно содержит: модуль демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
Способ и устройство выявления сходства, обеспеченные изобретением, вычисляют сходства названий торговых марок, используя алгоритм кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Краткое описание чертежей
Упомянутые выше и другие задачи, характеристики и преимущества изобретения будут более понятны посредством описаний вариантов осуществления изобретения со ссылкой на перечисленные ниже фигуры.
Фиг. 1 показывает блок-схему последовательности этапов способа ручной оценки всесторонних показателей на предшествующем уровне техники;
Фиг. 2 показывает блок-схему последовательности этапов способа кластеризации горячих тематик общественного мнения на предшествующем уровне техники;
Фиг. 3 показывает блок-схему последовательности этапов способа выявления сходства в соответствии с вариантом осуществления изобретения;
Фиг. 4 показывает схему структуры устройства выявления сходства в соответствии с вариантом осуществления изобретения;
Фиг. 5 показывает карта релевантности торговых марок разных категорий в соответствии с вариантом осуществления изобретения; и
Фиг. 6 показывает схему структуры рынка сухого молока в торговой марке товаров для матери и ребенка в соответствии с вариантом осуществления изобретения.
Подробное описание
Ниже будут более подробно описаны различные варианты осуществления изобретения со ссылкой на чертежи. На различных фигурах одинаковые элементы обозначены идентичными или сходными ссылочными позициями. Для ясности различные части на чертежах изображены не в одинаковом масштабе.
Изобретение может быть воплощено в различных формах, и некоторые примеры будут описаны ниже.
Фиг. 3 показывает блок-схему последовательности этапов способа выявления сходства в соответствии с вариантом осуществления изобретения. Как показано на фиг. 3, способ выявления сходства содержит следующие этапы.
На этапе S01 собираются данные о пользовательском поведении и данные о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских поисковых словах и данные о пользовательских комментариях.
В варианте осуществления текстовые данные о пользовательских комментариях после покупки, данные о пользовательских поисковых словах и данные о названиях торговых марок собираются из хранилища данных через формулировку запроса. После отслеживания большого объема данных и интерпретации данных формулируются правила фильтрации, чтобы отфильтровать недостоверные бессодержательные данные. Текстовые данные о пользовательских комментариях после покупки подвергаются сегментации и маркировке по частям речи, и создается собственный банк слов для улучшения эффекта сегментации и маркировки по частям речи.
На этапе S02 поисковые названия торговых марок собираются в соответствии с данными о пользовательских поисковых словах и данными о названиях торговых марок.
В варианте осуществления данные о пользовательских поисковых словах фильтруются, чтобы отфильтровать поисковые слова, не относящиеся к торговой марке, для получения поисковых слов, относящихся к торговой марке. Названия торговых марок извлекаются из поисковых слов, относящихся к торговой марке, в соответствии с данными о названиях торговых марок для получения поискового названия торговой марки.
В частности, данные о пользовательском поведении фильтруются для получения данных о пользовательских поисковых словах, причем данные о пользовательских поисковых словах включают в себя названия торговых марок; в качестве примера одного фрагмента данных о пользовательских поисковых словах, данные о пользовательских поисковых словах представляют собой: "BOSIDENG", "пуховик", "легкий и тонкий", и название торговой марки, т.е., поисковое название торговой марки, выбирается из данных о пользовательских поисковых словах в соответствии с данными о названиях торговых марок. Мы можем получить следующее поисковое название торговой марки: "BOSIDENG".
На этапе S03 строится корпус основой лексики, относящийся к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении.
В варианте осуществления корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
На этапе S04 корпус основной лексики используется в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок.
В варианте осуществления при обучении модели векторов-слов результат достигается посредством инструмента word2vec. Прошедший обучение корпус основной лексики включает в себя данные о пользовательских комментариях для поисковых названий торговых марок, и каждый фрагмент данных включает в себя поисковые названия торговых марок и символы, описывающие поисковые названия торговых марок. Чтобы сократить воздействие данных на обучение векторов-слов, данные сначала подвергаются операциям фильтрации и слияния, и корректные данные получаются после очистки данных. Кроме того, с учетом скорости обучения и сложности достижения рекомендаций, модель HS-CBOW, которая обучается сравнительно быстро и относительно легко достигается с точки зрения разработки, выбрана для использования для обеспечения векторов-слов корпуса основной лексики.
Кроме того, с точки зрения выбора размерности векторов-слов, в общем случае, чем выше размерность и чем больше текстовое окно, тем лучше эффект представления признаков векторов-слов, но тем больше времени потребляется для обучения векторов-слов, и тем больше объем, занимаемый результатами обучения. Когда встречается сравнительно большой набор данных, сравнительно эффективная скорость вычислений может поддерживаться при установке 100-мерных векторов слов и выборе текстового окна с размером 5, и векторы-слова с определенным объемом словаря, наконец, получаются посредством обучения.
Инструмент word2vec является инструментарием нейронной сети, выпущенным компанией Google. Главными используемыми моделями являются CBOW ("непрерывный мешок со словами") и Skip-Gram. Текстовый словарь на входе может быть преобразован в последовательность векторов-слов, и этот инструментальный комплект применялся во многих приложениях для обработки естественного языка. Типичная реализация алгоритма word2vec должна построить корпус лексики с учебными текстовыми данными и затем получить векторное представление лексики посредством обучения.
На этапе S05 вычисляется сходство между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
В варианте осуществления расстояние между торговыми марками a и b вычисляется посредством количественного произведения векторов-слов, и затем сходство между a и b вычисляется в соответствии с формулой sim (a, b)=cos(word2vec(a), word2vec(b)). Чем больше расстояние между a и b, тем выше сходство между a и b.
В предпочтительном варианте реализации способ выявления сходства дополнительно содержит этап S06.
На этапе S06 добавляются данные о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Вследствие сложности и большого объема пользовательских комментариев мы не можем одновременно использовать все данные о комментариях для выполнения обучения, и не все комментарии способствуют вычислению векторов-слов посредством поисковых названий торговых марок, которые нам нужны. Недостаточность способствующих данных, вероятно, приведет к тому, что одно из наших поисковых названий торговых марок не обнаружит свою релевантную торговую марку. Здесь мы определяем, обнаруживает ли поисковое название торговой марки релевантную торговую марку, в соответствии с вычисленным сходством, т.е., когда сходства между одним из поисковых названий торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога, это указывает, что поисковое название торговой марки не обнаруживает релевантную торговую марку; данные о пользовательских комментариях под поисковым названием торговой марки извлекаются в соответствии с поисковым названием торговой марки, не обнаруживающей сходство, и вектор-слово поискового названия торговой марки вычисляется снова с этапа S01. Процесс повторяется многократно, пока количество итераций не больше установленного количества порогов, тем самым значительно увеличивая частоту упоминаний расстояния сходства торговых марок. Как показано в приведенной ниже таблице 1, проиллюстрированы сходства нескольких торговых марок, и измерение сходств торговых марок чувствуется более интуитивно.
Таблица 1: Сходство торговых марок
Торговая марка 1 Торговая марка 2 Сходство
GXG Jack Jones 80%
Hengyuanxiang Antarctic 85%
Hengyuanxiang Jack Jones 75%
Hengyuanxiang McDonald's 30%
В предпочтительном варианте реализации способ выявления сходства дополнительно содержит этап S07.
На этапе S07 поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок, и демонстрируется карта релевантности торговых марок соответствующих категорий согласно результату классификации.
В варианте осуществления поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок; когда сходство между поисковыми названиями торговых марок больше определенного порога, поисковые названия торговых марок классифицируются в одну категорию, чтобы сформировать структуры разных категорий, и демонстрируется карта релевантности торговых марок соответствующих категорий. Фиг. 5a-5b демонстрируют структуру рынка нижнего белья в торговой марке одежды, фиг. 6a-6b демонстрируют структуру рынка сухого молока в торговой марке товаров для матери и ребенка, и торговая марка с высоким сходством может быть рекомендована пользователям согласно карте релевантности торговых марок соответствующих категорий, чтобы оптимизировать стратегию позиционирования торговой марки.
Способ выявления сходства, обеспеченный изобретением, вычисляет сходства названий торговых марок с использованием алгоритма кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Фиг. 4 показывает структурную схему устройства выявления сходства в соответствии с вариантом осуществления изобретения.
Как показано на фиг. 4, устройство выявления сходства содержит модуль 101 сбора данных, модуль 102 выявления поисковых названий торговых марок, модуль 103 построения корпуса лексики, модуль 104 обучения и модуль 105 вычисления сходства.
Модуль 101 сбора данных используется для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах.
В варианте осуществления модуль 101 сбора данных собирает текстовые данные о пользовательских комментариях после покупки, данные о пользовательских поисковых словах и данные о названиях торговых марок из хранилища данных через формулировку запроса. После отслеживания большого объема данных и интерпретации данных формулируются правила фильтрации, чтобы отфильтровать недостоверные бессодержательные данные. Текстовые данные о пользовательских комментариях после покупки подвергаются сегментации и маркировке по частям речи, и создается собственный банк слов для улучшения эффекта сегментации и маркировки по частям речи.
Модуль 102 выявления поисковых названий торговых марок используется для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок.
В варианте осуществления 102 выявления поисковых названий торговых марок фильтрует данные о пользовательских поисковых словах, чтобы отфильтровать поисковые слова, не относящиеся к торговой марке, для получения поисковых слов, относящихся к торговой марке. Названия торговых марок извлекаются из поисковых слов, относящихся к торговой марке, в соответствии с данными о названиях торговых марок для получения поискового названия торговой марки.
В частности, модуль 102 выявления поисковых названий торговых марок фильтрует данные о пользовательском поведении для получения данных о пользовательских поисковых словах, причем данные о пользовательских поисковых словах включают в себя названия торговых марок; в качестве примера одного фрагмента данных о пользовательских поисковых словах, данные о пользовательских поисковых словах представляют собой: "BOSIDENG", "пуховик", "легкий и тонкий", и название торговой марки, т.е., поисковое название торговой марки, выбирается из данных о пользовательских поисковых словах в соответствии с данными о названиях торговых марок. Мы можем получить следующее поисковое название торговой марки: "BOSIDENG".
Модуль 103 построения корпуса лексики используется для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении.
В варианте осуществления модуль 103 построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
Модуль 104 обучения используется для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для получения векторов-слов поисковых названий торговых марок.
В варианте осуществления модуль 104 обучения достигается посредством инструмента word2vec. Прошедший обучение корпус основной лексики включает в себя данные о пользовательских комментариях для поисковых названий торговых марок, и каждый фрагмент данных включает в себя поисковые названия торговых марок и символы, описывающие поисковые названия торговых марок. Чтобы сократить воздействие данных на обучение векторов-слов, данные сначала подвергаются операциям фильтрации и слияния, и корректные данные получаются после очистки данных. Кроме того, с учетом скорости обучения и сложности достижения рекомендаций, модель HS-CBOW, которая обучается сравнительно быстро и относительно легко достигается с точки зрения разработки, выбрана для использования для обеспечения векторов-слов корпуса основной лексики. Инструмент word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики. Размерность векторов-слов установлена равной 100, и текстовое окно установлено равным 5.
Кроме того, с точки зрения выбора размерности векторов-слов, в общем случае, чем выше размерность и чем больше текстовое окно, тем лучше эффект представления признаков векторов-слов, но тем больше времени потребляется для обучения векторов-слов, и тем больше объем, занимаемый результатами обучения. Когда встречается сравнительно большой набор данных, сравнительно эффективная скорость вычислений может поддерживаться при установке 100-мерных векторов слов и выборе текстового окна с размером 5, и векторы-слова с определенным объемом словаря, наконец, получаются посредством обучения.
Модуль 105 вычисления сходства используется для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
В варианте осуществления расстояние между торговыми марками a и b вычисляется посредством количественного произведения векторов-слов, и затем сходство между a и b вычисляется в соответствии с формулой sim (a, b)=cos(word2vec(a), word2vec(b)). Чем больше расстояние между a и b, тем выше сходство между a и b.
В предпочтительном варианте осуществления устройство выявления сходства дополнительно содержит модуль 106 добавления данных для добавления данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
Вследствие сложности и большого объема пользовательских комментариев мы не можем одновременно использовать все данные о комментариях для выполнения обучения, и не все комментарии способствуют вычислению векторов-слов посредством поисковых названий торговых марок, которые нам нужны. Недостаточность способствующих данных, вероятно, приведет к тому, что одно из наших поисковых названий торговых марок не обнаружит свою релевантную торговую марку. Здесь мы определяем, обнаруживает ли поисковое название торговой марки релевантную торговую марку, в соответствии с вычисленным сходством, т.е., когда сходства между одним из поисковых названий торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога, это указывает, что поисковое название торговой марки не обнаруживает релевантную торговую марку; данные о пользовательских комментариях под поисковым названием торговой марки извлекаются в соответствии с поисковым названием торговой марки, не обнаруживающей сходство, и вектор-слово поискового названия торговой марки вычисляется снова с этапа S01. Процесс повторяется многократно, пока количество итераций не больше установленного количества порогов, тем самым значительно увеличивая частоту упоминаний расстояния сходства торговых марок.
В предпочтительном варианте осуществления устройство выявления сходства дополнительно содержит модуль 107 демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
В варианте осуществления поисковые названия торговых марок классифицируются в соответствии со сходством между поисковыми названиями торговых марок; когда сходство между поисковыми названиями торговых марок больше определенного порога, поисковые названия торговых марок классифицируются в одну категорию, чтобы сформировать структуры разных категорий, и демонстрируется карта релевантности торговых марок соответствующих категорий. Фиг. 5a-5b демонстрируют структуру рынка нижнего белья в торговой марке одежды, фиг. 6a-6b демонстрируют структуру рынка сухого молока в торговой марке товаров для матери и ребенка, и торговая марка с высоким сходством может быть рекомендована пользователям согласно карте релевантности торговых марок соответствующих категорий, чтобы оптимизировать стратегию позиционирования торговой марки.
Устройство выявления сходства, обеспеченное изобретением, вычисляет сходства названий торговых марок, используя алгоритм кластеризации (например, word2vector) в соответствии с данными о пользовательских поисковых словах и данными о пользовательских комментариях после покупки, который может автоматически вычислить сходство между торговыми марками, сократить расходы на персонал, увеличить частоту упоминаний торговой марки и увеличить коэффициент привлечения торговой марки.
Описанные выше варианты осуществления в соответствии с изобретением не излагают всех подробностей, и изобретение не ограничено конкретными вариантами осуществления. Очевидно, много модификаций и вариаций могут быть сделаны в соответствии с приведенными выше описаниями. Описание выбирает и подробно описывает эти варианты осуществления для лучшего разъяснения принципа и реального применения изобретения, чтобы специалисты в области техники смогли эффективно использовать изобретение и выполнить модифицированные варианты использования на основе изобретения. Объем защиты изобретения должен быть определен посредством объема, заданного формулой изобретения.

Claims (24)

1. Способ выявления сходства торговых марок, содержащий этапы, на которых:
собирают данные о пользовательском поведении и данные о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах;
собирают поисковые названия торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок;
строят корпус основной лексики, относящийся к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении;
используют корпус основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и
вычисляют сходство между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
2. Способ по п. 1, способ дополнительно содержит этап, на котором:
добавляют данные о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
3. Способ по п. 1, в котором при построении корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении корпус основной лексики строится посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
4. Способ по п. 1, в котором при использовании корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок, алгоритм word2vec используется в качестве инструмента векторов-слов, и модель HS-CBOW используется для обеспечения векторов-слов корпуса основной лексики.
5. Способ по п. 1, способ дополнительно содержит этап, на котором:
классифицируют поисковые названия торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрируют карты релевантности торговых марок соответствующих категорий согласно результату классификации.
6. Устройство выявления сходства торговых марок, содержащее:
модуль сбора данных для сбора данных о пользовательском поведении и данных о названиях торговых марок, причем данные о пользовательском поведении включают в себя данные о пользовательских комментариях и данные о пользовательских поисковых словах;
модуль выявления поисковых названий торговых марок для сбора поисковых названий торговых марок в соответствии с данными о пользовательских поисковых словах и предварительно сохраненными данными о названиях торговых марок;
модуль построения корпуса лексики для построения корпуса основной лексики, относящегося к поисковым названиям торговых марок, в соответствии с данными о пользовательском поведении;
модуль обучения для использования корпуса основной лексики в качестве входной информации инструмента векторов-слов, чтобы выполнить обучение модели векторов-слов для сбора векторов-слов поисковых названий торговых марок; и
модуль вычисления сходства для вычисления сходства между поисковыми названиями торговых марок в соответствии с векторами-словами поисковых названий торговых марок.
7. Устройство по п. 6, устройство дополнительно содержит:
модуль добавления данных для добавления данных о пользовательских комментариях под поисковым названием торговой марки, когда сходства между поисковым названием торговой марки и другими поисковыми названиями торговых марок меньше предварительно заданного порога.
8. Устройство по п. 6, в котором модуль построения корпуса лексики строит корпус основной лексики посредством применения фильтрации, слияния, сегментации и деактивации слов к данным о пользовательском поведении.
9. Устройство по п. 6, в котором модуль обучения использует алгоритм word2vec в качестве инструмента векторов-слов и использует модель HS-CBOW для обеспечения векторов-слов корпуса основной лексики.
10. Устройство по п. 6, устройство дополнительно содержит:
модуль демонстрации для классификации поисковых названий торговых марок в соответствии со сходством между поисковыми названиями торговых марок и демонстрации карты релевантности торговых марок соответствующих категорий согласно результату классификации.
RU2018135971A 2016-03-15 2017-01-05 Способ и устройство выявления сходства RU2700191C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610146542.9 2016-03-15
CN201610146542.9A CN107193832A (zh) 2016-03-15 2016-03-15 相似度挖掘方法及装置
PCT/CN2017/070225 WO2017157090A1 (zh) 2016-03-15 2017-01-05 相似度挖掘方法及装置

Publications (1)

Publication Number Publication Date
RU2700191C1 true RU2700191C1 (ru) 2019-09-13

Family

ID=59850739

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018135971A RU2700191C1 (ru) 2016-03-15 2017-01-05 Способ и устройство выявления сходства

Country Status (5)

Country Link
US (1) US11017043B2 (ru)
CN (1) CN107193832A (ru)
AU (1) AU2017232659A1 (ru)
RU (1) RU2700191C1 (ru)
WO (1) WO2017157090A1 (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038133A (zh) * 2017-11-20 2018-05-15 青岛鹏海软件有限公司 个性化推荐方法
CN108416611B (zh) * 2018-01-31 2020-12-04 佛山市顺德区中山大学研究院 一种超市路径推荐系统及其方法
CN108763205B (zh) * 2018-05-21 2022-05-03 创新先进技术有限公司 一种品牌别名识别方法、装置及电子设备
CN109033232B (zh) * 2018-07-01 2021-12-28 东莞市华睿电子科技有限公司 一种云平台与共享设备相结合的社交用户推荐方法
CN110874609B (zh) * 2018-09-04 2022-08-16 武汉斗鱼网络科技有限公司 基于用户行为的用户聚类方法、存储介质、设备及系统
CN109635383A (zh) * 2018-11-28 2019-04-16 优信拍(北京)信息科技有限公司 一种基于word2vec的车系相关度确定的方法及装置
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112667919A (zh) * 2020-12-28 2021-04-16 山东大学 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法
CN113673216B (zh) * 2021-10-20 2022-02-01 支付宝(杭州)信息技术有限公司 文本侵权检测方法、装置和电子设备
CN114201962B (zh) * 2021-12-03 2023-07-25 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN116308683B (zh) * 2023-05-17 2023-08-04 武汉纺织大学 基于知识图谱的服装品牌定位推荐方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529892B1 (en) * 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
US20080008348A1 (en) * 2006-02-01 2008-01-10 Markmonitor Inc. Detecting online abuse in images
US20080270203A1 (en) * 2007-04-27 2008-10-30 Corporation Service Company Assessment of Risk to Domain Names, Brand Names and the Like
US20100076983A1 (en) * 2008-09-08 2010-03-25 Apple Inc. System and method for playlist generation based on similarity data
US20130254124A1 (en) * 2010-12-02 2013-09-26 Sky Castle Global Limited System to inform about trademarks similar to provided input

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606810B1 (en) * 2006-04-27 2009-10-20 Colin Jeavons Editorial related advertising content delivery system
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
CN101206674A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 以商品为媒介的增强型相关搜索系统及其方法
US9438733B2 (en) * 2008-09-08 2016-09-06 Invoca, Inc. Methods and systems for data transfer and campaign management
KR101078864B1 (ko) * 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US8631473B2 (en) * 2011-07-06 2014-01-14 Symphony Advanced Media Social content monitoring platform apparatuses and systems
US20160065534A1 (en) 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
WO2013124521A1 (en) * 2012-02-22 2013-08-29 Nokia Corporation A system and a method for determining context
US9406072B2 (en) * 2012-03-29 2016-08-02 Spotify Ab Demographic and media preference prediction using media content data analysis
US20150242525A1 (en) * 2014-02-26 2015-08-27 Pixured, Inc. System for referring to and/or embedding posts within other post and posts within any part of another post
US10102669B2 (en) * 2014-09-08 2018-10-16 Apple Inc. Density sampling map labels
US9767409B1 (en) * 2015-03-30 2017-09-19 Amazon Technologies, Inc. Latent feature based tag routing
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105095430A (zh) 2015-07-22 2015-11-25 深圳证券信息有限公司 构建词语网络及抽取关键词的方法和装置
US20170075998A1 (en) * 2015-09-14 2017-03-16 Ebay Inc. Assessing translation quality
CN105279288B (zh) 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法
US11263664B2 (en) * 2015-12-30 2022-03-01 Yahoo Assets Llc Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529892B1 (en) * 1999-08-04 2003-03-04 Illinois, University Of Apparatus, method and product for multi-attribute drug comparison
US20080008348A1 (en) * 2006-02-01 2008-01-10 Markmonitor Inc. Detecting online abuse in images
US20080270203A1 (en) * 2007-04-27 2008-10-30 Corporation Service Company Assessment of Risk to Domain Names, Brand Names and the Like
US20100076983A1 (en) * 2008-09-08 2010-03-25 Apple Inc. System and method for playlist generation based on similarity data
US20130254124A1 (en) * 2010-12-02 2013-09-26 Sky Castle Global Limited System to inform about trademarks similar to provided input

Also Published As

Publication number Publication date
AU2017232659A1 (en) 2018-10-11
WO2017157090A1 (zh) 2017-09-21
US20200301982A1 (en) 2020-09-24
US11017043B2 (en) 2021-05-25
CN107193832A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
RU2700191C1 (ru) Способ и устройство выявления сходства
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
Chang et al. Social media analytics: Extracting and visualizing Hilton hotel ratings and reviews from TripAdvisor
CN107861972B (zh) 一种用户录入商品信息后显示商品全结果的方法及设备
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
Anastasia et al. Twitter sentiment analysis of online transportation service providers
US10198635B2 (en) Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics
CN107205016B (zh) 物联网设备的检索方法
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN104166732B (zh) 一种基于全局评分信息的项目协同过滤推荐方法
Park Framework for sentiment-driven evaluation of customer satisfaction with cosmetics brands
US20140101293A1 (en) Apparatus and method for providing issue record, and generating issue record
Wang et al. A novel data-driven weighted sentiment analysis based on information entropy for perceived satisfaction
Ishfaq et al. Modeling to find the top bloggers using sentiment features
TWI501183B (zh) 個人化教科書推薦系統及其方法
KR20220091948A (ko) 소셜 미디어 활동 분석을 통한 추천 서비스 제공 장치 및 방법
Powell et al. Developing artwork pricing models for online art sales using text analytics
Nuritha et al. Analysis of Public Perception on Organic Coffee through Text Mining Approach using Naïve Bayes Classifier
KR102405503B1 (ko) 소비 데이터와 소셜 데이터를 이용한 소비동향 예측 지수 생성 방법과 이를 적용한 소비동향 예측 지수 생성 시스템 및 이를 위한 컴퓨터 프로그램
KR101549188B1 (ko) 브랜드 이미지 측정장치 및 측정방법
Dahlan et al. Sentiment Analysis of Airline Ticket and Hotel Booking of Traveloka Using Support Vector Machine
Amira et al. Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis
JP6895167B2 (ja) 効用値推定装置及びプログラム
Hotti et al. Graph Neural Networks for Nomination and Representation Learning of Web Elements