RU2680746C2 - Способ и устройство для создания модели качества веб-страницы - Google Patents
Способ и устройство для создания модели качества веб-страницы Download PDFInfo
- Publication number
- RU2680746C2 RU2680746C2 RU2017129409A RU2017129409A RU2680746C2 RU 2680746 C2 RU2680746 C2 RU 2680746C2 RU 2017129409 A RU2017129409 A RU 2017129409A RU 2017129409 A RU2017129409 A RU 2017129409A RU 2680746 C2 RU2680746 C2 RU 2680746C2
- Authority
- RU
- Russia
- Prior art keywords
- web page
- quality
- views
- web
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 66
- 239000002131 composite material Substances 0.000 claims description 75
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000001914 filtration Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 63
- 238000004590 computer program Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Изобретение относится к средствам создания моделей качества веб-страниц. Технический результат заключается в повышении точности модели качества веб-страниц. Извлекают из журнала поискового механизма выбранный индикатор поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма. Вычисляют согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы качество веб-страницы для соответствующей веб-страницы. Извлекают из журнала поискового механизма выбранный признак качества каждой веб-страницы, включенной в журнал поискового механизма. Создают модель качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма. 4 н. и 13 з.п. ф-лы, 3 ил., 1 табл.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится к области сетевых технологий, и более конкретно к способу и к устройству создания моделей качества веб-страниц.
Уровень техники
По мере быстрого развития сетевых технологий все больше пользователей получают информацию посредством использования веб-страницы. Пользователь может вводить ключевое слово (запрос) в поисковый механизм. Поисковый механизм отправляет на сервер ключевое слово, введенное пользователем. Сервер выполняет поиск веб-страницы, соответствующей ключевому слову, затем сортирует найденные веб-страницы и возвращает отсортированные веб-страницы в поисковый механизм для выбора пользователем. Для повышения качества взаимодействия с пользователями сервер сортирует найденные веб-страницы согласно релевантности и качеству веб-страницы в максимально возможной степени. Как можно видеть, качество веб-страницы представляет собой важный фактор, затрагивающий сортировку веб-страниц. В настоящее время качество веб-страницы получается в общем в соответствии с моделью качества веб-страниц. Точность модели качества веб-страниц непосредственно затрагивает результат сортировки веб-страниц и качество взаимодействия с пользователями.
Существующий способ создания моделей качества веб-страниц заключается в том, что множество введённых вручную правил обобщаются вручную из ограниченных выборок. Например, признаки, затрагивающие качество веб-страницы, обобщаются посредством наблюдения сотен и тысяч веб-страниц. Каждый признак может использоваться в качестве введённого вручную правила. Затем эти введённые вручную правила комбинируются для получения модели качества веб-страниц. В способе количество наблюдаемых выборок ограничено, и точность созданной модели качества веб-страниц является относительно плохой. Следовательно, точность вычисленного качества веб-страниц является относительно низкой, сказываясь при этом на результате сортировки веб-страниц и качестве взаимодействия с пользователями.
Раскрытие изобретения
Варианты осуществления настоящего изобретения предусматривают способ и устройство создания моделей качества веб-страниц для разрешения проблемы относительно низкой точности созданной модели качества веб-страниц в уровне техники.
Согласно варианту осуществления настоящего изобретения, предусмотрен способ создания моделей качества веб-страниц, включающий в себя:
- извлечение из журнала поискового механизма выбранного индикатора поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, и вычисление, согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы, качества веб-страницы для соответствующей веб-страницы;
- извлечение из журнала поискового механизма выбранного признака качества каждой веб-страницы, включенной в журнал поискового механизма; и
- создание модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма.
Предпочтительно выбранный индикатор поведения пользователей включает в себя по меньшей мере одно из общей доли просмотров, доли длительных просмотров, доли конечных просмотров или доли просмотров с навигацией, либо их сочетание, причем:
- общая доля просмотров представляет собой количество раз, которое просмотрена веб-страница, доля длительных просмотров представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы, доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, и доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска.
Предпочтительно, вычисление согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы качества веб-страницы для соответствующей веб-страницы конкретно включает в себя:
- вычисление для каждой веб-страницы показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы; и
- определение, для каждой веб-страницы, качества веб-страницы, соответствующего показателю поведения пользователей текущей веб-страницы согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы.
Предпочтительно, вычисление показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы конкретно включает в себя:
- вычисление суммы доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы таким образом, чтобы получить первое значение суммы;
- вычисление суммы общей доли просмотров текущей веб-страницы и первого значения возможностей работы таким образом, чтобы получить второе значение суммы; и
- вычисление отношения первого значения суммы ко второму значению суммы и определение отношения в качестве показателя поведения пользователей текущей веб-страницы.
При необходимости способ дополнительно включает в себя:
- перед этапом создания модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма, сначала фильтрацию веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей, и затем создание модели качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получаются после фильтрации и которые включены в журнал поискового механизма.
Предпочтительно, фильтрация веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей конкретно включает в себя:
- получение общей доли просмотров каждой веб-страницы, включенной в журнал поискового механизма;
- удаление веб-страницы, общая доля просмотров которой меньше или равна первому указанному количеству раз;
- для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервирование веб-страницы, имеющей наихудшее качество веб-страницы, и удаление веб-страниц, за исключением зарезервированной веб-страницы; и
- для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервирование веб-страницы, имеющей наилучшее качество веб-страницы, и удаление веб-страниц, за исключением зарезервированной веб-страницы.
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
При необходимости способ дополнительно включает в себя:
- подстановку выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- вычисление текстового показателя выбранной веб-страницы;
- вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- коррекцию существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Предпочтительно, вычисление текстового показателя выбранной веб-страницы конкретно включает в себя:
- получение поискового запроса, соответствующего выбранной веб-странице;
- вычисление степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
- определение степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы конкретно включает в себя:
- нормализацию качества веб-страницы для выбранной веб-страницы;
- вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
- умножение показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирование произведения с указанным числом с плавающей запятой и умножение полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно, вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы конкретно включает в себя:
- определение, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
- если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определение того, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или
- если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определение того, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Предпочтительно способ нормализации качества веб-страницы для выбранной веб-страницы включает в себя: нормализованное качество веб-страницы для выбранной веб-страницы=(качество веб-страницы для выбранной веб-страницы - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц)/(качество веб-страницы, соответствующее веб-странице, имеющей наилучшее качество веб-страницы в полном наборе веб-страниц - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц).
Согласно варианту осуществления настоящего изобретения, дополнительно предусмотрен способ оценки качества веб-страниц, включающий в себя:
- подстановку выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц, создаваемую согласно вышеприведенному способу, таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- вычисление текстового показателя выбранной веб-страницы;
- вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- оценку качества веб-страницы согласно значению составного показателя выбранной веб-страницы.
Предпочтительно, вычисление текстового показателя выбранной веб-страницы включает в себя:
- получение поискового запроса, соответствующего выбранной веб-странице;
- вычисление степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
- определение степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы включает в себя:
- нормализацию качества веб-страницы для выбранной веб-страницы;
- вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
- умножение показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирование произведения с указанным числом с плавающей запятой и умножение полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы включает в себя:
- определение, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
- если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определение, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или
- если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определение, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Предпочтительно способ нормализации качества веб-страницы для выбранной веб-страницы включает в себя: нормализованное качество веб-страницы для выбранной веб-страницы=(качество веб-страницы для выбранной веб-страницы - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц)/(качество веб-страницы, соответствующее веб-странице, имеющей наилучшее качество веб-страницы в полном наборе веб-страниц - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц).
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
Предпочтительно, способ дополнительно включает в себя: коррекцию существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц для сортировки результатов поиска.
Согласно варианту осуществления настоящего изобретения, дополнительно предусмотрено устройство создания моделей качества веб-страниц, включающее в себя:
- блок вычисления качества веб-страниц, выполненный с возможностью: извлечения из журнала поискового механизма выбранного индикатора поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, и вычисления согласно извлеченному выбранному индикатору поведения пользователей для каждой для веб-страницы качество веб-страницы для соответствующей веб-страницы;
- блок извлечения выбранных признаков качества, выполненный с возможностью извлечения из журнала поискового механизма выбранного признака качества каждой веб-страницы, включенной в журнал поискового механизма; и
- блок создания моделей качества веб-страниц, выполненный с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма.
Предпочтительно, выбранный индикатор поведения пользователей включает в себя по меньшей мере одно из общей доли просмотров, доли длительных просмотров, доли конечных просмотров или доли просмотров с навигацией, либо их сочетание, причем:
- общая доля просмотров представляет собой количество раз, когда веб-страница просмотрена, доля длительных кликов представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы, доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, и доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска.
Предпочтительно, блок вычисления качества веб-страниц конкретно включает в себя субблок вычисления показателей поведения пользователей и субблок определения качества веб-страницы, причем:
- субблок вычисления показателей поведения пользователей выполнен с возможностью:, выполнения для каждой веб-страницы следующей операции: вычисление показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы; и
- субблок определения качества веб-страницы выполнен с возможностью определения качества веб-страницы, соответствующего показателю поведения пользователей текущей веб-страницы, согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы.
Предпочтительно, субблок вычисления показателей поведения пользователей конкретно включает в себя: субблок вычисления первых значений суммы, субблок вычисления вторых значений суммы и субблок определения показателей поведения пользователей, причем:
- субблок вычисления первых значений суммы выполнен с возможностью вычисления суммы доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы, таким образом, чтобы получить первое значение суммы;
- субблок вычисления вторых значений суммы выполнен с возможностью вычисления суммы общей доли просмотров текущей веб-страницы и первого значения возможностей работы, получая второе значение суммы; и
- субблок определения показателей поведения пользователей выполнен с возможностью: вычисления отношения первого значения суммы ко второму значению суммы и определения отношения в качестве показателя поведения пользователей текущей веб-страницы.
При необходимости устройство дополнительно включает в себя блок фильтрации веб-страниц, выполненный с возможностью:
- фильтрации веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей, причем:
- в этом случае блок создания моделей качества веб-страниц выполнен с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получаются после фильтрации и которые включены в журнал поискового механизма.
Предпочтительно, блок фильтрации веб-страниц конкретно включает в себя субблок получения общих долей просмотров и субблок фильтрации веб-страниц, причем:
- субблок получения общих долей просмотров выполнен с возможностью получения общей доли просмотров каждой веб-страницы, включенной в журнал поискового механизма; и
- субблок фильтрации веб-страниц выполнен с возможностью: удаления веб-страницы, общая доля просмотров которой меньше или равна первому указанному количеству раз; для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервирования веб-страницы, имеющей наихудшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы; и для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервирования веб-страницы, имеющей наилучшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы.
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
При необходимости устройство дополнительно включает в себя: субблок подстановки выбранных признаков качества, блок вычисления текстовых показателей, блок вычисления составных показателей и блок коррекции моделей сортировки веб-страниц, причем:
- субблок подстановки выбранных признаков качества выполнен с возможностью подстановки выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- блок вычисления текстовых показателей выполнен с возможностью вычисления текстового показателя выбранной веб-страницы;
- блок вычисления составных показателей выполнен с возможностью вычисления составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- блок коррекции моделей сортировки веб-страниц выполнен с возможностью коррекции существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Предпочтительно блок вычисления текстовых показателей конкретно включает в себя: субблок получения поисковых запросов, субблок вычисления степеней совпадения и субблок определения текстовых показателей, причем:
- субблок получения поисковых запросов выполнен с возможностью получения поискового запросп, соответствующего выбранной веб-странице;
- субблок вычисления степеней совпадения выполнен с возможностью вычисления степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
- субблок определения текстовых показателей выполнен с возможностью определения степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, блок вычисления составных показателей конкретно включает в себя: субблок нормализации, субблок вычисления показателей штрафной функции и субблок вычисления составных показателей, причем:
- субблок нормализации выполнен с возможностью нормализации качество веб-страницы для выбранной веб-страницы;
- субблок вычисления показателей штрафной функции выполнен с возможностью вычисления показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
- субблок вычисления составных показателей выполнен с возможностью: умножения показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирования произведения с указанным числом с плавающей запятой и умножения полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно субблок вычисления показателей штрафной функции конкретно включает в себя субблок разрешения текстовых показателей и субблок определения показателей штрафной функции, причем:
- субблок разрешения текстовых показателей выполнен с возможностью определения, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение;
- субблок определения показателей штрафной функции выполнен с возможностью: если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определения того, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определения того, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Согласно варианту осуществления настоящего изобретения, дополнительно предусмотрено устройство оценки качества веб-страниц, включающее в себя: вышеприведенное устройство создания моделей качества веб-страниц, субблок подстановки выбранных признаков качества, блок вычисления текстовых показателей, блок вычисления составных показателей и блок оценки, причем:
- субблок подстановки выбранных признаков качества выполнен с возможностью подстановки выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- блок вычисления текстовых показателей выполнен с возможностью вычисления текстового показателя выбранной веб-страницы;
- блок вычисления составных показателей выполнен с возможностью вычисления составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- блок оценки выполнен с возможностью оценки качества веб-страницы согласно значению составного показателя выбранной веб-страницы.
Предпочтительно, блок вычисления текстовых показателей конкретно включает в себя: субблок получения поисковых запросов, субблок вычисления степеней совпадения и субблок определения текстовых показателей, причем:
- субблок получения поисковых запросов выполнен с возможностью получения поискового запроса, соответствующего выбранной веб-странице;
- субблок вычисления степеней совпадения выполнен с возможностью вычисления степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
- субблок определения текстовых показателей выполнен с возможностью определения степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, блок вычисления составных показателей конкретно включает в себя: субблок нормализации, субблок вычисления показателей штрафной функции и субблок вычисления составных показателей, причем:
- субблок нормализации выполнен с возможностью нормализации качества веб-страницы для выбранной веб-страницы;
- субблок вычисления показателей штрафной функции выполнен с возможностью вычисления показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
- субблок вычисления составных показателей выполнен с возможностью: умножения показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирования произведения с указанным числом с плавающей запятой и умножения полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно, субблок вычисления показателей штрафной функции конкретно включает в себя субблок разрешения текстовых показателей и субблок определения показателей штрафной функции, причем:
- субблок разрешения текстовых показателей выполнен с возможностью определения, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
- субблок определения показателей штрафной функции выполнен с возможностью: если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определения того, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определения того, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
Предпочтительно, устройство дополнительно включает в себя: блок коррекции моделей сортировки веб-страниц, выполненный с возможностью коррекции существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Варианты осуществления настоящего изобретения предусматривают способ и устройство создания моделей качества веб-страниц и дополнительно предусматривают способ и устройство оценки качества веб-страниц. Выбранный индикатор поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, извлекается из журнала поискового механизма, и качество веб-страницы для соответствующей веб-страницы вычисляется согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы. Выбранный признак качества каждой веб-страницы, включенной в журнал поискового механизма, извлекается из журнала поискового механизма. Модель качества веб-страниц создается согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма. В этом решении, модель качества веб-страниц автоматически создается на основе большого количества журналов поисковых механизмов. По сравнению со способом обобщения вручную из уровня техники, точность созданной модели качества веб-страниц является относительно высокой, и точность вычисленного качества веб-страниц является относительно высокой, за счет этого обеспечивается точность результата сортировки веб-страниц и повышается качество взаимодействия с пользователями.
Краткое описание чертежей
Изобретение должно стать более понятным из подробного описания, приведенного в данном документе ниже только для иллюстрации и в силу этого не ограничивающего изобретение, при этом:
Для более ясного описания вариантов осуществления настоящего изобретения или технических решений из уровня техники, ниже кратко описаны сопровождающие чертежи, необходимые для описания вариантов осуществления или уровня техники. Очевидно, что специалисты в данной области техники по-прежнему могут выполнить другие сопровождающие чертежи на основании этих сопровождающих чертежей без творческих усилий.
Фиг. 1 является блок-схемой способа создания моделей качества веб-страниц согласно варианту осуществления настоящего изобретения;
Фиг. 2 является принципиальной схемой сравнения между результатами поиска, полученными в ходе поисков веб-страницы, выполняемых посредством использования существующей модели сортировки веб-страниц и новой модели сортировки веб-страниц согласно варианту осуществления настоящего изобретения; и
Фиг. 3 является принципиальной блок-схемой устройства создания моделей качества веб-страниц согласно варианту осуществления настоящего изобретения.
Осуществление изобретения
В отношении проблемы уровня техники, состоящей в том, что точность созданной модели качества веб-страниц является относительно низкой, варианты осуществления настоящего изобретения предусматривают способ создания моделей качества веб-страниц. Процедура способа показана на фиг. 1. Способ может осуществляться посредством сервера и т.п. Сервер используется в качестве примера для нижеприведенного описания. Выполняемые этапы являются следующими.
S11. Извлечение из журнала поискового механизма выбранного индикатора поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, и вычисление, согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы, качества веб-страницы для соответствующей веб-страницы.
Когда пользователь должен выполнять поиск информации, пользователь может вводить ключевое слово в поисковый механизм клиента. Сервер выполняет поиск согласно ключевому слову, сортирует полученные веб-страницы и возвращает отсортированные веб-страницы в поисковый механизм для выбора пользователем. Сервер записывает процесс взаимодействия между поисковым механизмом и сервером и сохраняет процесс в журнале поискового механизма. Следовательно, модель качества веб-страниц может создаваться на основе журнала поискового механизма.
Во-первых, может получаться журнал поискового механизма в указанный период времени. Затем получаются веб-страницы, включенные в журнал поискового механизма. Указанный период времени может составлять предыдущие 30 дней, предыдущие 45 дней, предыдущие 60 дней и т.п. или может задаваться согласно фактической потребности.
Затем выбранный индикатор поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, извлекается из журнала поискового механизма. Выбранный индикатор поведения пользователей включает в себя по меньшей мере одно из общей доли просмотров, доли длительных просмотров, доли конечных просмотров или доли просмотров с навигацией, либо их сочетание.
Общая доля просмотров представляет собой количество раз, которое просмотрена веб-страница, например, количество раз, которое просмотрена веб-страница, которое записано в журнале поискового механизма за предыдущие 60 дней.
Доля длительных просмотров представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы. Первая указанная длительность может составлять 30 секунд, 40 секунд, 50 секунд и т.п. или может задаваться согласно фактической потребности. Например, первая указанная длительность может представлять собой количество раз, когда время пребывания на веб-странице превышает 40 секунд с момента просмотра веб-страницы, которое записано в журнале поискового механизма за предыдущие 60 дней.
Доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, например, количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, возвращенных посредством сервера в поисковый механизм, которое записано в журнале поискового механизма за предыдущие 60 дней.
Доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска, например, количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска, возвращенных посредством сервера в поисковый механизм, которое записано в журнале поискового механизма за предыдущие 60 дней.
В завершение, качество веб-страницы для соответствующей веб-страницы вычисляется согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы. Таким образом, может получаться качество веб-страницы для веб-страницы в поисковом механизме.
S12. Извлечение из журнала поискового механизма выбранного признака качества каждой веб-страницы, включенной в журнал поискового механизма.
Выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака либо их сочетание.
Размерный признак поведения пользователей означает определение качества веб-страницы с точки зрения пользователя и, в частности, может представлять собой общую долю просмотров, долю конечных просмотров, среднюю позицию просмотра и т.п. веб-страницы. Размерный признак поведения пользователей может извлекаться из журнала поискового механизма.
Размерный признак веб-страницы означает определение качества веб-страницы только согласно содержимому веб-страницы и, в частности, означает, являются ли заголовок и содержимое веб-страницы когерентными и ясными, и то, имеет ли место мошенническое поведение, такое как накопление ключевых слов, например, количества ответов на вопрос и веб-страницы с ответом, количество пользователей, поставивших оценку «нравится», или то, существует ли наилучший ответ. Размерный признак веб-страницы может быть непосредственно извлечен посредством анализа содержимого веб-страницы.
Сторонний оценочный признак означает определение качества веб-страницы со сторонней точки зрения и, в частности, означает то, существует ли третья сторона, выдающая ссылку на веб-страницу, трафик доступа по веб-странице и т.п. Третья сторона может представлять собой другую веб-страницу. Сторонний оценочный признак должен получаться посредством анализа ссылок или способом взаимодействия с третьей стороной.
S13. Создание модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма.
Модель качества веб-страниц может конструироваться согласно качеству веб-страницы, вычисленному на S11, и выбранному признаку качества каждой веб-страницы, извлеченному на S12, и посредством использования алгоритма с построением деревьев решений на основе градиентного добавления (GBDT). Используемый алгоритм может не быть ограничен GBDT-алгоритмом.
В этом решении, модель качества веб-страниц автоматически создается на основе большого количества журналов поисковых механизмов. По сравнению со способом обобщения вручную из уровня техники, точность созданной модели качества веб-страниц является относительно высокой, и точность вычисленного качества веб-страниц является относительно высокой, за счет этого обеспечивается точность результата сортировки веб-страниц и повышается качество взаимодействия с пользователями.
В частности, вычисление, согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы, качества веб-страницы для соответствующей веб-страницы на вышеприведенном S11 конкретно включает в себя:
- вычисление, для каждой веб-страницы, показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы; и
- определение, для каждой веб-страницы, качества веб-страницы, соответствующего показателю поведения пользователей текущей веб-страницы согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы.
Когда показатель поведения пользователей текущей веб-страницы вычисляется согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы, сумма доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы может сначала вычисляться для получения первого значения суммы. Сумма общей доли просмотров текущей веб-страницы и первого значения возможностей работы вычисляется для получения второго значения суммы. Вычисляется отношение первого значения суммы ко второму значению суммы, и отношение определяется в качестве показателя поведения пользователей текущей веб-страницы. В частности, показатель поведения пользователей может вычисляться посредством использования следующей формулы: показатель поведения пользователей=(доля конечных просмотров+доля просмотров с навигацией+доля длительных просмотров)/(общая доля просмотров+первое значение возможностей работы), причем первое значение возможностей работы является значением, полученным согласно фактическим возможностям работы, и предпочтительно составляет 20.
Соответствие между диапазоном показателя поведения пользователей и качеством веб-страницы может предварительно устанавливаться. Качество веб-страницы, соответствующее диапазону каждого показателя поведения пользователей, сохраняется в соответствии. Когда показатель поведения пользователей веб-страницы получается, качество веб-страницы для веб-страницы может определяться из соответствия. Соответствие между диапазоном показателя поведения пользователей и качеством веб-страницы описано ниже путём использования примера и показано в следующей таблице:
Табл. 1
Диапазоны показателей поведения пользователей | Качество веб-страницы |
(0, 0,1) | 0 |
(0,1, 0,3) | 1 |
(0,3, 0,5) | 2 |
(0,5, 0,8) | 3 |
(0,8, 1) | 4 |
В таблице 1, качество веб-страницы равно 0, 1, 2, 3 и 4. Более высокое качество веб-страницы указывает лучшее качество веб-страницы.
При необходимости способ создания моделей качества веб-страниц дополнительно включает в себя: фильтрацию веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей.
Соответственно, создание модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма, на вышеприведенном S13 дополнительно может включать в себя: создание модели качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получаются после фильтрации и которые включены в журнал поискового механизма.
Веб-страница, имеющая высокую релевантность и высокое качество веб-страницы, требуется при создании модели качества веб-страниц. Некоторые веб-страницы, включенные в журнал поискового механизма, не могут удовлетворять требованию. В этом случае, веб-страницы, включенные в журнал поискового механизма, должны фильтроваться. Веб-страницы, полученные после фильтрации, представляют собой веб-страницы, действительно необходимые при создании модели качества веб-страниц.
В частности, способ фильтрации веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей заключается в следующем: получение общей доли просмотров каждой веб-страницы; удаление веб-страницы, общая доля просмотров которой меньше или равна первому указанному количеству раз; для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервирование веб-страницы, имеющей наихудшее качество веб-страницы, и удаление веб-страниц, за исключением зарезервированной веб-страницы; и для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервирование веб-страницы, имеющей наилучшее качество веб-страницы, и удаление веб-страниц, за исключением зарезервированной веб-страницы.
Когда общая доля просмотров веб-страницы является чрезмерно низкой, даже если качество веб-страницы является очень высоким, конечный результат сортировки веб-страниц не является в достаточной степени идеальным. Следовательно, этот тип веб-страниц должен отфильтровываться из веб-страниц, включенных в журнал поискового механизма. Пример, в котором выбранный индикатор поведения пользователей представляет собой общую долю просмотров веб-страницы, используется в качестве примера для нижеприведенного описания. Веб-страница, общая доля просмотров которой меньше или равна 4, непосредственно удаляется. Для веб-страниц, общие доли просмотров которых превышают 4 и меньше или равны 10, резервируется только веб-страница, качество веб-страницы которой равно 0, и веб-страницы с другим качеством веб-страницы удаляются. Первое указанное количество раз и второе указанное количество раз могут задаваться согласно фактической потребности. В этом примере, первое указанное количество раз составляет 4, и второе указанное количество раз составляет 10.
При фактическом применении, журнал поискового механизма за предыдущие 60 дней извлекается, и 24 миллиона веб-страниц и соответствующее качество веб-страницы получаются после фильтрации, выполняемой посредством использования вышеприведенного правила.
Выше описан способ создания моделей качества веб-страниц. После того, как модель качества веб-страниц создается, существующая модель сортировки веб-страниц может корректироваться посредством использования модели таким образом, чтобы получить новую модель сортировки веб-страниц. Конкретные выполняемые этапы являются следующими:
- подстановка выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- вычисление текстового показателя выбранной веб-страницы;
- вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- коррекция существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Полный набор веб-страниц сохраняет все текущие веб-страницы, и все или некоторые веб-страницы в полном наборе веб-страниц могут выбираться для коррекции модели сортировки веб-страниц. Одна веб-страница может выбираться каждый раз для коррекции модели сортировки веб-страниц. Новая модель сортировки веб-страниц получается после многократной коррекции. Веб-страница, выбираемая каждый раз, представляет собой выбранную веб-страницу. После того, как новая модель сортировки веб-страниц получается, результаты поиска сортируются посредством использования новой модели сортировки веб-страниц. Выбранный признак качества уже описан на S12, и подробности не будут описаны повторно в данном документе.
Выбранный признак качества выбранной веб-страницы может подставляться в модель качества веб-страниц, создаваемую на S13, таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы. Следует отметить, что если к выбранной веб-странице еще не осуществлен доступ, выбранная веб-страница не имеет размерного признака веб-страницы и включает в себя только размерный признак поведения пользователей и сторонний размерный признак, но это не затрагивает вычисление качества веб-страницы для выбранной веб-страницы.
Веб-страница, в общем, ассоциирована с поисковым запросом. Следовательно, может получаться поисковый запрос, соответствующий выбранной веб-странице. Вычисляется степень совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице. Степень совпадения определяется в качестве текстового показателя выбранной веб-страницы. Способ вычисления степени совпадения может быть реализован посредством использования способа из уровня техники, и подробности не будут описаны в данном документе.
Существующая модель сортировки веб-страниц, в общем, получается посредством обучения посредством использования GBrank-алгоритма. Новая модель сортировки веб-страниц также может корректироваться посредством использования GBrank-алгоритма. По сравнению с существующей моделью сортировки веб-страниц, два признака добавляются в новую модель сортировки веб-страниц, т.е. составной показатель веб-страницы и качество веб-страницы для веб-страницы. Составной показатель и качество веб-страницы для веб-страницы рассматриваются вместе. Следовательно, точность модели сортировки веб-страниц может повышаться, когда результаты поиска сортируются посредством использования новой модели сортировки веб-страниц. Веб-страница, имеющая высокий составной показатель и высокое качество веб-страниц, ранжируется на первой позиции таким образом, чтобы упростить пользовательский выбор и повысить качество взаимодействия с пользователями.
В частности, когда составной показатель выбранной веб-страницы вычисляется согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы, качество веб-страницы для выбранной веб-страницы может нормализоваться. Показатель штрафной функции выбранной веб-страницы вычисляется согласно текстовому показателю выбранной веб-страницы. Показатель штрафной функции выбранной веб-страницы умножается на текстовый показатель, затем произведение суммируется с указанным числом с плавающей запятой, и полученное значение суммы умножается на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Когда качество веб-страницы для выбранной веб-страницы нормализуется, может использоваться следующая формула: нормализованное качество веб-страницы для выбранной веб-страницы=(качество веб-страницы для выбранной веб-страницы - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц)/(качество веб-страницы, соответствующее веб-странице, имеющей наилучшее качество веб-страницы в полном наборе веб-страниц - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц).
Когда составной показатель выбранной веб-страницы вычисляется, может использоваться следующая формула: составной показатель выбранной веб-страницы=нормализованное качество веб-страницы для выбранной веб-страницы (текстовый показатель выбранной веб-страницы * показатель штрафной функции выбранной веб-страницы+указанное число с плавающей запятой), причем указанное число с плавающей запятой предпочтительно составляет 0,01f.
В частности, когда показатель штрафной функции выбранной веб-страницы вычисляется согласно текстовому показателю выбранной веб-страницы, сначала может определяться, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение. Если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определяется то, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению. Если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определяется то, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Первое указанное значение и второе указанное значение могут задаваться согласно фактической потребности. Пример, в котором первое указанное значение составляет 130, и второе указанное значение составляет 1, используется для описания. Если текстовый показатель выбранной веб-страницы превышает или равен 130, показатель штрафной функции равен 1. В противном случае, показатель штрафной функции равен текстовому показателю выбранной веб-страницы, деленному на 130.
На основе варианта осуществления вышеприведенного способа создания моделей качества веб-страниц, вариант осуществления настоящего изобретения дополнительно предусматривает способ оценки качества веб-страниц, включающий в себя:
- подстановку выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц, создаваемую согласно вышеприведенному способу, таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- вычисление текстового показателя выбранной веб-страницы;
- вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- оценку качества веб-страницы согласно значению составного показателя выбранной веб-страницы.
Предпочтительно, вычисление текстового показателя выбранной веб-страницы включает в себя:
- получение поискового запроса, соответствующего выбранной веб-странице;
- вычисление степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
- определение степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы включает в себя:
- нормализацию качества веб-страницы для выбранной веб-страницы;
- вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
- умножение показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирование произведения с указанным числом с плавающей запятой и умножение полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно, вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы включает в себя:
- определение, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
- если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определение того, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или
- если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определение того, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Предпочтительно способ нормализации качества веб-страницы для выбранной веб-страницы включает в себя: нормализованное качество веб-страницы для выбранной веб-страницы=(качество веб-страницы для выбранной веб-страницы - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц)/(качество веб-страницы, соответствующее веб-странице, имеющей наилучшее качество веб-страницы в полном наборе веб-страниц - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц).
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
Предпочтительно, способ дополнительно включает в себя: коррекцию существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц для сортировки результатов поиска.
Выше описаны способ создания моделей качества веб-страниц и способ оценки качества веб-страниц. По сравнению со способом обобщения вручную модели качества веб-страниц и способом оценки вручную качества веб-страницы из уровня техники, способы имеют следующие преимущества:
1. В уровне техники выборки, к которым происходит обращение при обобщении введённых вручную правил, ограничены. Следовательно, введённые вручную правила являются неполными и имеют плохую генерализацию. Создание модели качества веб-страниц в настоящем изобретении основано на веб-страницах, включенных в журнал поискового механизма, и каждая веб-страница служит в качестве выборки. В способе настоящего изобретения, используются миллионы выборок, что гораздо больше сотен или тысяч выборок, к которым происходит обращение при обобщении введённых вручную правил. Выборки являются более полными и имеют хорошую генерализацию.
2. Только небольшое количество введённых вручную правил может обобщаться вследствие сложности проблем и ограничений человеческих возможностей. Некорректное правило может обобщаться, или некоторые ключевые правила могут игнорироваться. Тем не менее, в настоящем изобретении, используется способ на основе машинного обучения. Тысячи выбранных признаков качества извлекаются посредством использования принципа минимизации ошибок. Выбранный признак качества может служить в качестве правила. Таким образом, могут формироваться тысячи деревьев правил. Следовательно, можно обеспечивать то, что ошибка модели качества веб-страниц, полученной на основе существующих миллионов выборок, минимизируется, и некорректное правило исключается в наибольшей степени, за счет этого значительно снижая риск игнорирования ключевого правила.
3. Во введённом вручную правиле критерий создателя правила может отличаться от критерия, используемого пользователем для определения качества веб-страницы. Следовательно, затрагивается качество взаимодействия с пользователями. Тем не менее, в настоящем изобретении, модель качества веб-страниц создается посредством извлечения выбранного индикатора поведения пользователей. Качество веб-страницы определяется посредством использования критерия пользователя, за счет этого обеспечивая то, что критерий качества веб-страницы и критерий пользователя являются максимально возможно идентичными, и решая такую проблему, что означенные критерии не являются идентичными.
4. Если качество веб-страницы добавляется только в модель сортировки веб-страниц, эффект сортировки для модели сортировки веб-страниц ослабляется. Тем не менее, в настоящем изобретении, качество веб-страницы и текстовый показатель веб-страницы подгоняются к составному показателю веб-страницы. Затем существующая модель сортировки веб-страниц корректируется согласно составному показателю и качеству веб-страницы для веб-страницы. Качество веб-страницы и составной показатель рассматриваются, и только веб-страница, имеющая хорошую релевантность и высокое качество, имеет высокий составной показатель. Следовательно, после того, как признак составного показателя используется в модели сортировки веб-страниц, может улучшаться эффект сортировки для модели сортировки верхнего уровня веб-страницы.
Как можно видеть посредством комбинирования вышеприведенных четырех аспектов, посредством настоящего изобретения, может эффективно улучшаться сортировка веб-страниц, уменьшается вероятность того, что битая ссылка, веб-страница, которая имеет низкое качество, и веб-страница, которая имеет мошенническое поведение, отображаются пользователю, и повышается вероятность того, что веб-страница, имеющая высокое качество, отображается пользователю. Результаты поиска, полученные в ходе поисков веб-страницы, выполняемых посредством использования существующей модели сортировки веб-страниц и новой модели сортировки веб-страниц, сравниваются посредством использования примера. Как показано на фиг. 2, ключевые слова представляют собой "Xinyi Third Middle School post bar". Результат поиска слева получается посредством использования новой модели сортировки веб-страниц, а результат поиска справа получается посредством использования существующей модели сортировки веб-страниц. Веб-страница в поле является наилучшим результатом. Как можно видеть из фиг. 2, когда веб-страницы сортируются посредством использования новой модели сортировки веб-страниц, наилучший результат перемещается вверх со второго на первое место, и улучшается позиция сортировки наилучшего результата. Пользователь проще находит наилучший результат из отсортированных результатов посредством использования новой модели сортировки веб-страниц, за счет чего повышается качество взаимодействия с пользователями.
На основании того же изобретательского замысла, вариант осуществления настоящего изобретения обеспечивает устройство создания моделей качества веб-страниц. Устройство может располагаться на сервере. На фиг. 3 показана структура, включающая в себя: блок 31 вычисления качества веб-страниц, блок 32 извлечения выбранных признаков качества и блок 33 создания моделей качества веб-страниц.
Блок 31 вычисления качества веб-страниц выполнен с возможностью: извлечения из журнала поискового механизма выбранного индикатора поведения пользователей для каждой веб-страницы, включенной в журнал поискового механизма, и вычисления согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы качества веб-страницы для соответствующей веб-страницы.
Блок 32 извлечения выбранных признаков качества выполнен с возможностью извлечения из журнала поискового механизма выбранного признака качества каждой веб-страницы, включенной в журнал поискового механизма.
Блок 33 создания моделей качества веб-страниц выполнен с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, включенной в журнал поискового механизма.
В этом решении, модель качества веб-страниц автоматически создается на основе большого количества журналов поисковых механизмов. По сравнению со способом обобщения вручную из уровня техники, точность созданной модели качества веб-страниц является относительно высокой, и точность вычисленного качества веб-страниц является относительно высокой, за счет этого обеспечивается точность результата сортировки веб-страниц и повышается качество взаимодействия с пользователями.
В частности, выбранный индикатор поведения пользователей включает в себя по меньшей мере одно из общей доли просмотров, доли длительных просмотров, доли конечных просмотров или доли просмотров с навигацией, либо их сочетание.
Общая доля просмотров представляет собой количество раз, которое просмотрена веб-страница, доля длительных просмотров представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы, доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, и доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска.
В частности, блок 31 вычисления качества веб-страниц включает в себя субблок вычисления показателей поведения пользователей и субблок определения качества веб-страницы.
Субблок вычисления показателей поведения пользователей выполнен с возможностью вычисления показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы.
Субблок определения качества веб-страницы выполнен с возможностью определения качества веб-страницы, соответствующего показателю поведения пользователей текущей веб-страницы, согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы.
В частности, субблок вычисления показателей поведения пользователей конкретно включает в себя: субблок вычисления первых значений суммы, субблок вычисления вторых значений суммы и субблок определения показателей поведения пользователей.
Субблок вычисления первых значений суммы выполнен с возможностью вычисления суммы доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы таким образом, чтобы получить первое значение суммы.
Субблок вычисления вторых значений суммы выполнен с возможностью вычисления суммы общей доли просмотров текущей веб-страницы и первого значения возможностей работы, получая второе значение суммы.
Субблок определения показателей поведения пользователей выполнен с возможностью: вычисления отношения первого значения суммы ко второму значению суммы и определения отношения в качестве показателя поведения пользователей текущей веб-страницы.
При необходимости устройство создания моделей качества веб-страниц дополнительно включает в себя блок фильтрации веб-страниц, выполненный с возможностью:
- фильтрации веб-страниц, включенных в журнал поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей.
В этом случае, блок создания моделей качества веб-страниц выполнен с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получены после фильтрации и которые включены в журнал поискового механизма.
В частности, блок фильтрации веб-страниц конкретно включает в себя субблок получения общих долей просмотров и субблок фильтрации веб-страниц.
Субблок получения общих долей просмотров выполнен с возможностью получения общей доли просмотров каждой веб-страницы, включенной в журнал поискового механизма.
Субблок фильтрации веб-страниц выполнен с возможностью: удаления веб-страницы, общая доля просмотров которой меньше или равна первому указанному количеству раз; для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервирования веб-страницы, имеющей наихудшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы; и для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервирования веб-страницы, имеющей наилучшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы.
В частности, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
При необходимости устройство создания моделей качества веб-страниц дополнительно включает в себя: субблок подстановки выбранных признаков качества, блок вычисления текстовых показателей, блок вычисления составных показателей и блок коррекции моделей сортировки веб-страниц.
Субблок подстановки выбранных признаков качества выполнен с возможностью подстановки выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы.
Блок вычисления текстовых показателей выполнен с возможностью вычисления текстового показателя выбранной веб-страницы.
Блок вычисления составных показателей выполнен с возможностью вычисления составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы.
Блок коррекции моделей сортировки веб-страниц выполнен с возможностью коррекции существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
В частности, блок вычисления текстовых показателей конкретно включает в себя: субблок получения поисковых запросов, субблок вычисления степеней совпадения и субблок определения текстовых показателей.
Субблок получения поисковых запросов выполнен с возможностью получения поискового запроса, соответствующего выбранной веб-странице.
Субблок вычисления степеней совпадения выполнен с возможностью вычисления степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице.
Субблок определения текстовых показателей выполнен с возможностью определения степени совпадения в качестве текстового показателя выбранной веб-страницы.
В частности, блок вычисления составных показателей конкретно включает в себя: субблок нормализации, субблок вычисления показателей штрафной функции и субблок вычисления составных показателей.
Субблок нормализации выполнен с возможностью нормализации качества веб-страницы для выбранной веб-страницы.
Субблок вычисления показателей штрафной функции выполнен с возможностью вычисления показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы.
Субблок вычисления составных показателей выполнен с возможностью: умножения показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирования произведения с указанным числом с плавающей запятой и умножения полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
В частности, субблок вычисления показателей штрафной функции конкретно включает в себя субблок разрешения текстовых показателей и субблок определения показателей штрафной функции.
Субблок разрешения текстовых показателей выполнен с возможностью определения, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение.
Субблок определения показателей штрафной функции выполнен с возможностью: если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определения, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определения, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
На основе вышеприведенного варианта осуществления устройства создания моделей качества веб-страниц, вариант осуществления настоящего изобретения дополнительно предусматривает устройство оценки качества веб-страниц, включающее в себя: вышеприведенное устройство создания моделей качества веб-страниц, субблок подстановки выбранных признаков качества, блок вычисления текстовых показателей, блок вычисления составных показателей и блок оценки.
Субблок подстановки выбранных признаков качества выполнен с возможностью подстановки выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы.
Блок вычисления текстовых показателей выполнен с возможностью вычисления текстового показателя выбранной веб-страницы.
Блок вычисления составных показателей выполнен с возможностью вычисления составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы.
Блок оценки выполнен с возможностью оценки качества веб-страницы согласно значению составного показателя выбранной веб-страницы.
Предпочтительно, блок вычисления текстовых показателей конкретно включает в себя: субблок получения поисковых запросов, субблок вычисления степеней совпадения и субблок определения текстовых показателей.
Субблок получения поисковых запросов выполнен с возможностью получения поискового запроса, соответствующего выбранной веб-странице.
Субблок вычисления степеней совпадения выполнен с возможностью вычисления степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице.
Субблок определения текстовых показателей выполнен с возможностью определения степени совпадения в качестве текстового показателя выбранной веб-страницы.
Предпочтительно, блок вычисления составных показателей конкретно включает в себя: субблок нормализации, субблок вычисления показателей штрафной функции и субблок вычисления составных показателей.
Субблок нормализации выполнен с возможностью нормализации качества веб-страницы для выбранной веб-страницы.
Субблок вычисления показателей штрафной функции выполнен с возможностью вычисления показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы.
Субблок вычисления составных показателей выполнен с возможностью: умножения показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирования произведения с указанным числом с плавающей запятой и умножения полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы.
Предпочтительно, субблок вычисления показателей штрафной функции конкретно включает в себя субблок разрешения текстовых показателей и субблок определения показателей штрафной функции.
Субблок разрешения текстовых показателей выполнен с возможностью определения, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение.
Субблок определения показателей штрафной функции выполнен с возможностью: если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определения, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определения, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
Предпочтительно, выбранный признак качества включает в себя по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака, либо их сочетание.
Предпочтительно, устройство дополнительно включает в себя: блок коррекции моделей сортировки веб-страниц, выполненный с возможностью коррекции существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Настоящее изобретение описано в отношении блок-схем и/или блок-схем способа, устройства (системы) и компьютерного программного продукта согласно вариантам осуществления настоящего изобретения. Следует понимать, что компьютерные программные инструкции могут использоваться для реализации каждого процесса и/или каждого блока на блок-схемах способа и/или блок-схемах, а также сочетания процесса и/или блока на блок-схемах способа и/или блок-схемах. Эти компьютерные программные инструкции могут быть предусмотрены для компьютера общего назначения, специализированного компьютера, встроенного процессора или процессора любого другого программируемого устройства обработки данных таким образом, чтобы образовать механизм, так что инструкции, выполняемые посредством компьютера или процессора любого другого программируемого устройства обработки данных, формируют устройство для реализации конкретной функции в одном или более процессах на блок-схемах способа и/или в одном или более блоках на блок-схемах.
Эти компьютерные программные инструкции также могут сохраняться в машиночитаемом запоминающем устройстве, которое может инструктировать компьютеру или любому другому программируемому устройству обработки данных работать конкретным способом, так что инструкции, сохраненные в машиночитаемом запоминающем устройстве, формируют изделие, которое включает в себя инструктирующее устройство. Инструктирующее устройство реализует конкретную функцию в одном или более процессов на блок-схемах способа и/или в одном или более блоков на блок-схемах.
Эти компьютерные программные инструкции также могут загружаться в компьютер или другое программируемое устройство обработки данных, так что последовательности операций и этапов выполняются на компьютере или другом программируемом устройстве, за счет этого формируя реализуемую компьютером обработку. Следовательно, инструкции, выполняемые на компьютере или другом программируемом устройстве, обеспечивают этапы для реализации конкретной функции в одном или более процессах на блок-схемах способа и/или в одном или более блоков на блок-схемах.
Другими словами, кроме того, настоящее изобретение дополнительно раскрывает терминальное устройство, включающее в себя: запоминающее устройство, выполненное с возможностью хранения компьютерной программной инструкции, используемую для осуществления способа, показанного на фиг. 1; и процессор, соединенный с запоминающим устройством, причем процессор выполнен с возможностью выполнения компьютерной программной инструкции, сохраненной в запоминающем устройстве.
Помимо этого, способ согласно настоящему изобретению дополнительно может реализовываться как компьютерная программа, выполняемая посредством процессора (к примеру, CPU) в мобильном терминале, и сохраняется в запоминающем устройстве мобильного терминала. Когда компьютерная программа выполняется посредством процессора, процессор выполняет вышеприведенные функции, определяемые в способе настоящего изобретения.
Помимо этого, способ согласно настоящему изобретению дополнительно может быть реализован в виде компьютерного программного продукта. Компьютерный программный продукт включает в себя машиночитаемый носитель. Машиночитаемый носитель сохраняет компьютерную программу, выполненную с возможностью выполнения вышеприведенных функций, определяемых в способе по настоящему изобретению.
Специалистам в данной области техники также может быть понятно, что различные примерные логические блоки, модули, схемы и этапы алгоритма, описанные в отношении настоящего изобретения, также могут быть реализованы в виде электронных аппаратных средств, компьютерного программного обеспечения или их сочетания. Для ясного описания взаимозаменяемости между аппаратными средствами и программным обеспечением, уже в общем были описаны функции различных примерных компонентов, блоков, модулей, схем и этапов. То, реализована ли функция в виде программного обеспечения или аппаратных средств, зависит от конкретного варианта применения и проектного ограничения, налагаемого на всю систему. Специалисты в данной области техники могут реализовать функцию различными способами в каждом конкретном варианте применения, но эта реализация не должна истолковываться как выходящая за пределы объема настоящего изобретения.
При том, что описаны некоторые факультативные варианты осуществления настоящего изобретения, специалисты в данной области техники могут вносить изменения и модификации в эти варианты осуществления, когда они изучат основную идею изобретения. Следовательно, предполагается, что прилагаемая формула изобретения должна истолковываться как покрывающая факультативные варианты осуществления и все изменения и модификации, находящиеся в рамках объема настоящего изобретения.
Очевидно, что специалисты в данной области техники могут вносить различные модификации и изменения в варианты осуществления настоящего изобретения без отступления от сущности и объема вариантов осуществления настоящего изобретения. Подразумевается, что изобретение охватывает эти модификации и изменения при условии, что они входят в объём охраны изобретения, определяемый прилагаемой формулой изобретения или ее эквивалентами.
Claims (77)
1. Способ создания моделей качества веб-страниц, содержащий этапы, на которых:
- извлекают из журнала поискового механизма выбранный индикатор поведения пользователей для каждой веб-страницы, содержащейся в журнале поискового механизма, и вычисляют согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы качество веб-страницы для соответствующей веб-страницы;
- извлекают из журнала поискового механизма выбранный признак качества каждой веб-страницы, содержащейся в журнале поискового механизма; и
- создают модель качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, содержащейся в журнале поискового механизма,
причем вычисление качества веб-страницы для соответствующей веб-страницы содержит этапы, на которых:
вычисляют сумму доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы таким образом, чтобы получить первое значение суммы;
вычисляют сумму общей доли просмотров текущей веб-страницы и первого значения качества взаимодействия таким образом, чтобы получить второе значение суммы;
вычисляют отношение первого значения суммы ко второму значению суммы и определяют отношение в качестве показателя поведения пользователей текущей веб-страницы; и
определяют для каждой веб-страницы качество веб-страницы, соответствующее показателю поведения пользователей текущей веб-страницы, согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы.
2. Способ по п. 1, в котором общая доля просмотров представляет собой количество раз, которое просмотрена веб-страница, доля длительных просмотров представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы, доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, и доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска.
3. Способ по п. 1, дополнительно содержащий этап, на котором:
- перед этапом создания модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, содержащейся в журнале поискового механизма, сначала фильтруют веб-страницы, содержащиеся в журнале поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей и затем создают модель качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получены после фильтрации и которые содержатся в журнале поискового механизма.
4. Способ по п. 3, в котором фильтрация веб-страниц, содержащихся в журнале поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей содержит этапы, на которых:
- получают общую долю просмотров каждой веб-страницы, содержащейся в журнале поискового механизма;
- удаляют веб-страницу, общая доля просмотров которой меньше или равна первому указанному количеству раз;
- для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервируют веб-страницу, имеющую наихудшее качество веб-страницы, и удаляют веб-страницы за исключением зарезервированной веб-страницы; и
- для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервируют веб-страницу, имеющую наилучшее качество веб-страницы, и удаляют веб-страницы за исключением зарезервированной веб-страницы.
5. Способ по п. 1, в котором выбранный признак качества содержит по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака либо их сочетание.
6. Способ оценки качества веб-страниц, содержащий этапы, на которых:
- подставляют выбранный признак качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц, созданную по п. 1, таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- вычисляют текстовый показатель выбранной веб-страницы;
- вычисляют составной показатель выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- оценивают качество веб-страницы согласно значению составного показателя выбранной веб-страницы,
причем вычисление текстового показателя выбранной веб-страницы содержит этапы, на которых:
получают поисковый запрос, соответствующий выбранной веб-странице;
вычисляют степень совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
определяют степень совпадения в качестве текстового показателя выбранной веб-страницы;
причем вычисление составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы содержит этапы, на которых:
нормализуют качество веб-страницы для выбранной веб-страницы;
вычисляют показатель штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
умножают показатель штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммируют произведение с указанным числом с плавающей запятой и умножают полученное значение суммы на нормализованное качество веб-страницы для выбранной веб-страницы, чтобы получить составной показатель выбранной веб-страницы; и
при этом вычисление показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы содержит этапы, на которых:
определяют, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определяют, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или
если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определяют, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
7. Способ по п. 6, при этом способ нормализации качества веб-страницы для выбранной веб-страницы содержит: нормализованное качество веб-страницы для выбранной веб-страницы=(качество веб-страницы для выбранной веб-страницы - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц)/(качество веб-страницы, соответствующее веб-странице, имеющей наилучшее качество веб-страницы в полном наборе веб-страниц - качество веб-страницы, соответствующее веб-странице, имеющей наихудшее качество веб-страницы в полном наборе веб-страниц).
8. Способ по п. 6, в котором выбранный признак качества содержит по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака либо их сочетание.
9. Способ по п. 6, дополнительно содержащий этап, на котором:
- корректируют существующую модель сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц для сортировки результатов поиска.
10. Устройство создания моделей качества веб-страниц, содержащее:
- блок вычисления качества веб-страниц, выполненный с возможностью: извлечения из журнала поискового механизма выбранного индикатора поведения пользователей для каждой веб-страницы, содержащейся в журнале поискового механизма, и вычисления согласно извлеченному выбранному индикатору поведения пользователей для каждой веб-страницы качества веб-страницы для соответствующей веб-страницы;
- блок извлечения выбранных признаков качества, выполненный с возможностью извлечения из журнала поискового механизма выбранного признака качества каждой веб-страницы, содержащейся в журнале поискового механизма; и
- блок создания моделей качества веб-страниц, выполненный с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранному признаку качества каждой веб-страницы, содержащейся в журнале поискового механизма,
причем блок вычисления качества веб-страниц конкретно содержит:
субблок вычисления показателей поведения пользователей, выполненный с возможностью вычисления для каждой веб-страницы показателя поведения пользователей текущей веб-страницы согласно общей доле просмотров, доле длительных просмотров, доле конечных просмотров и доле просмотров с навигацией текущей веб-страницы; и
субблок определения качества веб-страницы, выполненный с возможностью определения качества веб-страницы, соответствующего показателю поведения пользователей текущей веб-страницы, согласно соответствию между диапазоном показателя поведения пользователей и качеством веб-страницы, и
при этом субблок вычисления показателей поведения пользователей конкретно содержит:
субблок вычисления первых значений суммы, выполненный с возможностью вычисления суммы доли конечных просмотров, доли просмотров с навигацией и доли длительных просмотров текущей веб-страницы, чтобы получить первое значение суммы;
субблок вычисления вторых значений суммы, выполненный с возможностью вычисления суммы общей доли просмотров текущей веб-страницы и первого значения качества взаимодействия таким образом, чтобы получить второе значение суммы; и
субблок определения показателей поведения пользователей, выполненный с возможностью вычисления отношения первого значения суммы ко второму значению суммы и определения отношения в качестве показателя поведения пользователей текущей веб-страницы.
11. Устройство по п. 10, в котором:
- общая доля просмотров представляет собой количество раз, которое просмотрена веб-страница, доля длительных просмотров представляет собой количество раз, когда время пребывания на веб-странице превышает первую указанную длительность с момента просмотра веб-страницы, доля конечных просмотров представляет собой количество раз, когда веб-страница представляет собой последнюю веб-страницу, которая просмотрена в результатах поиска, и доля просмотров с навигацией представляет собой количество раз, когда веб-страница представляет собой единственную веб-страницу, которая просмотрена в результатах поиска.
12. Устройство по п. 10, дополнительно содержащее блок фильтрации веб-страниц, выполненный с возможностью:
- фильтрации веб-страниц, содержащихся в журнале поискового механизма, согласно качеству веб-страницы и выбранному индикатору поведения пользователей, при этом:
- в этом случае блок создания моделей качества веб-страниц выполнен с возможностью создания модели качества веб-страниц согласно качеству веб-страницы и выбранным признакам качества веб-страниц, которые получены после фильтрации и которые содержатся в журнале поискового механизма.
13. Устройство по п. 12, в котором блок фильтрации веб-страниц конкретно содержит субблок получения общих долей просмотров и субблок фильтрации веб-страниц, при этом:
- субблок получения общих долей просмотров выполнен с возможностью получения общей доли просмотров каждой веб-страницы, содержащейся в журнале поискового механизма; и
- субблок фильтрации веб-страниц выполнен с возможностью: удаления веб-страницы, общая доля просмотров которой меньше или равна первому указанному количеству раз; для веб-страниц, общие доли просмотров которых превышают первое указанное количество раз и меньше или равны второму указанному количеству раз, резервирования веб-страницы, имеющей наихудшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы; и для веб-страниц, общие доли просмотров которых превышают второе указанное количество раз, резервирования веб-страницы, имеющей наилучшее качество веб-страницы, и удаления веб-страниц за исключением зарезервированной веб-страницы.
14. Устройство по п. 10, в котором выбранный признак качества содержит по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака либо их сочетание.
15. Устройство оценки качества веб-страниц, содержащее: устройство создания моделей качества веб-страниц по п. 10, субблок подстановки выбранных признаков качества, блок вычисления текстовых показателей, блок вычисления составных показателей и блок оценки, при этом:
- субблок подстановки выбранных признаков качества выполнен с возможностью подстановки выбранного признака качества выбранной веб-страницы в полном наборе веб-страниц в модель качества веб-страниц таким образом, чтобы получить качество веб-страницы для выбранной веб-страницы;
- блок вычисления текстовых показателей выполнен с возможностью вычисления текстового показателя выбранной веб-страницы;
- блок вычисления составных показателей выполнен с возможностью вычисления составного показателя выбранной веб-страницы согласно качеству веб-страницы и текстовому показателю выбранной веб-страницы; и
- блок оценки выполнен с возможностью оценки качества веб-страницы согласно значению составного показателя выбранной веб-страницы,
причем блок вычисления текстовых показателей конкретно содержит:
субблок получения поисковых запросов, выполненный с возможностью получения поискового запроса, соответствующего выбранной веб-странице;
субблок вычисления степеней совпадения, выполненный с возможностью вычисления степени совпадения между текстовым содержимым выбранной веб-страницы и поисковым запросом, соответствующим выбранной веб-странице; и
субблок определения текстовых показателей, выполненный с возможностью определения степени совпадения в качестве текстового показателя выбранной веб-страницы,
причем блок вычисления составных показателей конкретно содержит:
субблок нормализации, выполненный с возможностью нормализации качества веб-страницы для выбранной веб-страницы;
субблок вычисления показателей штрафной функции, выполненный с возможностью вычисления показателя штрафной функции выбранной веб-страницы согласно текстовому показателю выбранной веб-страницы; и
субблок вычисления составных показателей, выполненный с возможностью: умножения показателя штрафной функции выбранной страницы на текстовый показатель выбранной веб-страницы, суммирования произведения с указанным числом с плавающей запятой и умножения полученного значения суммы на нормализованное качество веб-страницы для выбранной веб-страницы таким образом, чтобы получить составной показатель выбранной веб-страницы; и
при этом субблок вычисления показателей штрафной функции конкретно содержит:
субблок разрешения текстовых показателей, выполненный с возможностью определения, превышает ли текстовый показатель выбранной веб-страницы первое указанное значение; и
субблок определения показателей штрафной функции, выполненный с возможностью: если текстовый показатель выбранной веб-страницы превышает или равен первому указанному значению, определения, что показатель штрафной функции выбранной веб-страницы равен второму указанному значению; или если текстовый показатель выбранной веб-страницы меньше первого указанного значения, определения, что показатель штрафной функции выбранной веб-страницы равен отношению текстового показателя выбранной веб-страницы к первому указанному значению.
16. Устройство по п. 15, в котором выбранный признак качества содержит по меньшей мере одно из размерного признака поведения пользователей, размерного признака веб-страницы или стороннего оценочного признака либо их сочетание.
17. Устройство по п. 15, дополнительно содержащее: блок коррекции моделей сортировки веб-страниц, выполненный с возможностью коррекции существующей модели сортировки веб-страниц согласно составному показателю и качеству веб-страницы для выбранной веб-страницы таким образом, чтобы получить новую модель сортировки веб-страниц.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510030753.1 | 2015-01-21 | ||
CN201510030753.1A CN104615680B (zh) | 2015-01-21 | 2015-01-21 | 网页质量模型的建立方法及装置 |
PCT/CN2015/096036 WO2016115944A1 (zh) | 2015-01-21 | 2015-11-30 | 网页质量模型的建立方法及装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017129409A3 RU2017129409A3 (ru) | 2019-02-21 |
RU2017129409A RU2017129409A (ru) | 2019-02-21 |
RU2680746C2 true RU2680746C2 (ru) | 2019-02-26 |
Family
ID=53150122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017129409A RU2680746C2 (ru) | 2015-01-21 | 2015-11-30 | Способ и устройство для создания модели качества веб-страницы |
Country Status (4)
Country | Link |
---|---|
US (1) | US10891350B2 (ru) |
CN (1) | CN104615680B (ru) |
RU (1) | RU2680746C2 (ru) |
WO (1) | WO2016115944A1 (ru) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615680B (zh) * | 2015-01-21 | 2016-11-02 | 广州神马移动信息科技有限公司 | 网页质量模型的建立方法及装置 |
CN106897301A (zh) * | 2015-12-18 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种搜索质量的评测方法、装置及电子设备 |
CN106777132A (zh) * | 2016-12-18 | 2017-05-31 | 深圳市辣妈帮科技有限公司 | 数据处理方法及装置 |
CN106886554A (zh) * | 2016-12-27 | 2017-06-23 | 苏州思杰马克丁软件有限公司 | 一种文章质量的确定方法及装置 |
US11682029B2 (en) | 2018-03-23 | 2023-06-20 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for scoring user reactions to a software program |
CN110928537B (zh) * | 2018-09-19 | 2023-08-11 | 百度在线网络技术(北京)有限公司 | 模型评测方法、装置、设备及计算机可读介质 |
CN111597236A (zh) * | 2020-05-22 | 2020-08-28 | 中国工商银行股份有限公司 | 制度信息处理方法、装置和计算机系统 |
CN111767444B (zh) * | 2020-06-22 | 2024-04-09 | 北京百度网讯科技有限公司 | 页面特征构建方法、装置、设备和存储介质 |
CN113806660B (zh) * | 2021-09-17 | 2024-04-26 | 北京百度网讯科技有限公司 | 数据评估方法、训练方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260774B2 (en) * | 2000-04-28 | 2007-08-21 | Inceptor, Inc. | Method & system for enhanced web page delivery |
RU2336561C2 (ru) * | 2002-06-27 | 2008-10-20 | Майкрософт Корпорейшн | Фильтрация контента при веб-просмотре |
US8615514B1 (en) * | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
US8938463B1 (en) * | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9223868B2 (en) * | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US20070038608A1 (en) | 2005-08-10 | 2007-02-15 | Anjun Chen | Computer search system for improved web page ranking and presentation |
US7483894B2 (en) | 2006-06-07 | 2009-01-27 | Platformation Technologies, Inc | Methods and apparatus for entity search |
US7996393B1 (en) | 2006-09-29 | 2011-08-09 | Google Inc. | Keywords associated with document categories |
US20080114624A1 (en) * | 2006-11-13 | 2008-05-15 | Microsoft Corporation | Click-fraud protector |
CN100507920C (zh) * | 2007-05-25 | 2009-07-01 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
US8429750B2 (en) * | 2007-08-29 | 2013-04-23 | Enpulz, L.L.C. | Search engine with webpage rating feedback based Internet search operation |
CN101178728A (zh) * | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和系统 |
US8402031B2 (en) | 2008-01-11 | 2013-03-19 | Microsoft Corporation | Determining entity popularity using search queries |
US8484179B2 (en) | 2008-12-08 | 2013-07-09 | Microsoft Corporation | On-demand search result details |
US8639682B2 (en) | 2008-12-29 | 2014-01-28 | Accenture Global Services Limited | Entity assessment and ranking |
US8458171B2 (en) | 2009-01-30 | 2013-06-04 | Google Inc. | Identifying query aspects |
US20100293179A1 (en) | 2009-05-14 | 2010-11-18 | Microsoft Corporation | Identifying synonyms of entities using web search |
CN102486774A (zh) * | 2010-12-01 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 一种网络页面的质量获取方法、系统及服务器 |
CN102654875B (zh) * | 2011-03-04 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种自动处理网页文本的内链的方法及装置 |
US8589399B1 (en) | 2011-03-25 | 2013-11-19 | Google Inc. | Assigning terms of interest to an entity |
US8843477B1 (en) | 2011-10-31 | 2014-09-23 | Google Inc. | Onsite and offsite search ranking results |
US9251249B2 (en) | 2011-12-12 | 2016-02-02 | Microsoft Technology Licensing, Llc | Entity summarization and comparison |
US9443021B2 (en) | 2011-12-30 | 2016-09-13 | Microsoft Technology Licensing, Llc | Entity based search and resolution |
US9116994B2 (en) | 2012-01-09 | 2015-08-25 | Brightedge Technologies, Inc. | Search engine optimization for category specific search results |
CN103544169B (zh) * | 2012-07-12 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 页面调整方法及装置 |
CN103577416B (zh) | 2012-07-20 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 扩展查询方法及系统 |
US9047278B1 (en) | 2012-11-09 | 2015-06-02 | Google Inc. | Identifying and ranking attributes of entities |
CN103544257B (zh) * | 2013-10-15 | 2017-01-18 | 北京国双科技有限公司 | 网页质量检测方法和装置 |
CN106716402B (zh) | 2014-05-12 | 2020-08-11 | 销售力网络公司 | 以实体为中心的知识发现 |
CN104615680B (zh) * | 2015-01-21 | 2016-11-02 | 广州神马移动信息科技有限公司 | 网页质量模型的建立方法及装置 |
-
2015
- 2015-01-21 CN CN201510030753.1A patent/CN104615680B/zh active Active
- 2015-11-30 WO PCT/CN2015/096036 patent/WO2016115944A1/zh active Application Filing
- 2015-11-30 RU RU2017129409A patent/RU2680746C2/ru active
-
2017
- 2017-07-19 US US15/653,780 patent/US10891350B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260774B2 (en) * | 2000-04-28 | 2007-08-21 | Inceptor, Inc. | Method & system for enhanced web page delivery |
RU2336561C2 (ru) * | 2002-06-27 | 2008-10-20 | Майкрософт Корпорейшн | Фильтрация контента при веб-просмотре |
US8938463B1 (en) * | 2007-03-12 | 2015-01-20 | Google Inc. | Modifying search result ranking based on implicit user feedback and a model of presentation bias |
US8615514B1 (en) * | 2010-02-03 | 2013-12-24 | Google Inc. | Evaluating website properties by partitioning user feedback |
Also Published As
Publication number | Publication date |
---|---|
RU2017129409A3 (ru) | 2019-02-21 |
RU2017129409A (ru) | 2019-02-21 |
US10891350B2 (en) | 2021-01-12 |
CN104615680A (zh) | 2015-05-13 |
CN104615680B (zh) | 2016-11-02 |
WO2016115944A1 (zh) | 2016-07-28 |
US20170316109A1 (en) | 2017-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2680746C2 (ru) | Способ и устройство для создания модели качества веб-страницы | |
WO2020077824A1 (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN107122467B (zh) | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 | |
CN105335391B (zh) | 基于搜索引擎的搜索请求的处理方法和装置 | |
JP4866421B2 (ja) | ユーザの自己修正する検索動作の分析により検索文字列の代替スペルを特定する方法 | |
US9317550B2 (en) | Query expansion | |
US20090182725A1 (en) | Determining entity popularity using search queries | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
US20070196804A1 (en) | Question-answering system, question-answering method, and question-answering program | |
CN106408249A (zh) | 简历与职位匹配方法及装置 | |
CN104516949B (zh) | 网页数据处理方法和装置、查询处理方法及问答系统 | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
US20130006975A1 (en) | System and method for matching entities and synonym group organizer used therein | |
US11868914B2 (en) | Moderation of user-generated content | |
CN110134842B (zh) | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 | |
CN106599215A (zh) | 一种基于深度学习的问句生成方法和问句生成系统 | |
CN106776609A (zh) | 网站转载数量的统计方法及装置 | |
CN106407316B (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN113722478A (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
Li et al. | A hybrid model for experts finding in community question answering | |
CN107704763A (zh) | 多源异构漏洞情报去重方法、分级方法及装置 | |
WO2015149550A1 (zh) | 确定网站内链接等级的方法及装置 | |
Jatowt et al. | Predicting importance of historical persons using Wikipedia | |
CN113468206A (zh) | 数据维护方法、装置、服务器、介质及产品 | |
JP2017194730A (ja) | 意思決定支援システムおよび意思決定支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20200828 |