WO2015089860A1 - 基于用户参与的搜索引擎排序方法 - Google Patents

基于用户参与的搜索引擎排序方法 Download PDF

Info

Publication number
WO2015089860A1
WO2015089860A1 PCT/CN2013/090350 CN2013090350W WO2015089860A1 WO 2015089860 A1 WO2015089860 A1 WO 2015089860A1 CN 2013090350 W CN2013090350 W CN 2013090350W WO 2015089860 A1 WO2015089860 A1 WO 2015089860A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
search engine
information
model
data
Prior art date
Application number
PCT/CN2013/090350
Other languages
English (en)
French (fr)
Inventor
孙燕群
Original Assignee
孙燕群
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 孙燕群 filed Critical 孙燕群
Priority to RU2015110455A priority Critical patent/RU2015110455A/ru
Priority to JP2015552986A priority patent/JP2016505178A/ja
Priority to US14/410,252 priority patent/US20150379135A1/en
Priority to EP13890864.5A priority patent/EP2902923A4/en
Publication of WO2015089860A1 publication Critical patent/WO2015089860A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the invention relates to a search engine ranking method based on user participation, and belongs to the technical field of software.
  • search engine plays an important role in everyone's daily online life.
  • An excellent search engine can discover real knowledge from huge amounts of information like junk, and improve the value of information through the screening, processing and purification of information.
  • search engine correlation ranking algorithms are not perfect, users often need to manually select relevant web pages from a large number of returned results, and the search engine navigation function does not play a significant advantage.
  • the ranking of search results is based on the order in which search engines find matching pages in the database. There is no guarantee that the top-ranked pages are more relevant to user queries, so they cannot help users from overloading. Quickly pick up really relevant information in the message.
  • the number of web pages visited by search engines has reached the scale of one billion.
  • the search results contain thousands of web pages. Even if these web pages are required by users, users cannot browse all web pages. How to put more relevant web pages in front, reducing the number of users browsing the web and helping them find the information they need quickly is a meaningful and challenging task. Users usually only care about the top documents returned by the search engine. So research the search engine's relevance sorting algorithm, and rank the results expected by users. Being listed in the front is becoming more and more important.
  • Search engines not only need to return search results, but also reprocess these results to determine which ones are more in line with the user's search intent, and arrange the documents that users are most interested in, so that users can find the information they need in the shortest time and improve the search engine. User satisfaction.
  • This is the relevance principle of search engines and has been used as one of the most basic principles of search engines.
  • the search engine relevance ranking model includes Boolean model, vector space model, probability model, hyperlink model, and self-learning sorting model.
  • the Boolean model is based on classical set theory and Boolean algebra. It judges whether the documents are related according to whether keywords appear in the document. All relevant documents are related to the query in the same degree, so the relevance sorting is not supported.
  • the vector space model converts the document and the user query into a vector form, calculates the cosine of the two vectors, and arranges the documents in descending order.
  • the probability model ranks all documents based on the probability of association by estimating the probability that the document is associated with the query.
  • the hyperlink model calculates the page rank based on the hyperlinks between the web pages, and determines the level of the page from the number of links and the quality of the linked pages.
  • the self-learning sorting model applies the machine learning method to the search engine relevance ranking problem, and solves many of the shortcomings of the previous model. It learns the sorting model based on the training samples, and then predicts the sorting model to predict the document related to the query.
  • Hyperlink analysis that is, the more times a web page is linked and the more authoritative the link is, the higher the quality of the web page is.
  • the frequency of the word frequency is the frequency of the query words in the web document. The higher the order, the higher the ranking.
  • click-through rate method that is, the more times a web page is clicked, the higher the relevance.
  • the purpose of any search engine is Respond to user searches more quickly, and feed back search results that meet user needs to search users.
  • the ability to prioritize high-quality documents that are most relevant to user retrieval needs is one of the key techniques for measuring search engine performance.
  • the object of the present invention is to provide a search engine ranking method based on user participation, according to the user's participation in the evaluation of the search list, and to rank and rank the evaluation results, and to conveniently search for the corresponding results according to the results of the user participation evaluation, which is convenient for people to Need to use.
  • a search engine ranking method based on user participation which is based on a search engine ranking system.
  • the user on the display list of search results scores all the information and search results by expressing opinions such as approval, like, disapproval, and opposition.
  • the score of the search result will be automatically sorted according to the score of the next search result.
  • the scores are ranked high and the malicious scoring program is set.
  • the system established by the method implementation includes a user, a search engine ranking system, a model processing system, and an output system, wherein
  • the users are registered users and non-registered users respectively.
  • the personalized service is mainly for registered users, and the non-registered users have search engine sorting function.
  • the search engine ranking system itself is more complex. To ensure the quality and real-time performance of the search engine, it is required to construct a reasonable search engine ranking system.
  • the search engine ranking system adopts a user-based participation method, which is a fully personalized search engine ranking, providing users with personalized services.
  • the search engine ranking system needs to manage website information, user registration information, ratings and other data as well as search engines. Sort methods, models, results, and more.
  • the system includes online real-time search engine sorting and model processing. Online is for accessing users. The model processing is not performed in real time, which is beneficial to improve the execution efficiency of the search engine.
  • the search engine ranking system is applicable to general websites, collects user personal information according to customer registration information, and predicts the list contents of interest according to the user's evaluation of different display lists.
  • search engine ranking system The purpose of the search engine ranking system is to facilitate user selection of evaluations and to facilitate search selection. Since different search engine sorting techniques will achieve better results in a particular type of search engine ranking system, there is a certain range of applicability.
  • display list of search results it is generally not fully described in the form of a specification, but needs to be described in terms of user experience. After the user selects a display list of search results, according to a series of information of the user, the user can express opinions such as approval, like, disapproval, and opposition.
  • the model processing system mainly processes the data according to the search engine ranking method.
  • the online search engine sorting will output the search engine sorting list to the user according to the model result.
  • the online search engine sorting section performs different search engine sorting strategies according to different situations.
  • the new user uses different search engine ranking methods to solve the cold start problem to a certain extent and improve the search engine ranking quality.
  • the main function of the personalized search engine sorting system is to collect user information, website information and evaluation information of the website. After the model processing, the user is provided with a sorting list of search engines.
  • the data that the above system needs to manage is as follows: the system needs a display list of search results. A large amount of data exists in the analysis, and the system management data mainly includes input data, model data and output data.
  • the system input includes user information, display list information, and user evaluation information.
  • the user information data is obtained by collecting personal information filled in after the user logs in to the system.
  • User information includes: user identification, login password, age, gender, occupation, address, email.
  • the search engine ranking system needs to sort the display list information that may be of interest to the user search engine, while predicting user interest based on the information of interest and the corresponding search engine ranking algorithm.
  • the system sorts the search engines that display the list, so the information mainly includes: list number, list name, date, type.
  • the search engine ranking system collects the data information of the user's evaluation of the list information as an important input content of the search engine sorting algorithm.
  • the user's evaluation of the list information can be of various types, such as a description in the form of a text, a fuzzy evaluation (approval, like, disapproval, opposition) or a form of direct scoring.
  • User's method of scoring list information includes: user identification, list number, rating, time stamp.
  • Model data includes two types:
  • Model input data The core of the search engine ranking system is the search engine sorting algorithm model. However, because different algorithms require different input data, the input data of the system needs to be preprocessed and sorted into model input data. It mainly includes: user, list information, and rating data.
  • the user data converts the user information into a form required by the algorithm model, and specifically includes: a user identifier, an age group, a gender indicator, and a career indicator; wherein the age, gender, and occupation are data corresponding to the user information preprocessed by the model data. form.
  • List data converts list information into the form required by the model, including: List number, type I, type 2, - type M.
  • Scoring data User rating data needs to be processed into a scoring matrix, including user number, list 1 score, list score 2 ⁇ score K. The rating data of each user is expressed in the form of a row vector.
  • Model output data Model structure data: The search engine ranking system uses the search engine sorting algorithm to calculate the input data, and obtains the structural composition data of the algorithm model, as the basis for prediction, including model labeling, algorithm-based weights, model parameters; user classification Data: After the model input data is processed by the algorithm, the classification result is obtained. It consists of two parts, one part is the classification result of the original user, including the user number, model label and classification number. The other part is the classification result of the classification, including model number, classification number, list 1 rating, list 2 rating... list ⁇ rating.
  • User prediction score data The output of the search engine ranking system is the application model to perform user prediction, and output the search engine ranking result. According to the input data and model data of the search engine ranking system, the search engine ranking results of the predicted users are calculated, including the user number, the model identifier, the classification number, the list number, and the score.
  • Predict new list user data Predict user classes that may be of interest based on the characteristics of the new list and user rating information.
  • New user rating data Based on new users and original user data, predict user rating results, including new user number, model number, list number, and rating. If the user Not satisfied with all the search results, or without the information he wants, the user can consciously provide the search information he thinks should appear. This added information will appear on a page location. The search results are listed on the right or after the search results with high scores, and the results are also scored by other users. The score determines the order
  • the model processing portion of the search engine ranking system is invisible to the accessing user. Due to the large amount of data and rapid growth of the list website, the algorithm model will take a long time to process. The system resources are very expensive, which seriously affects the real-time performance of search engine ranking. Therefore, the search engine ranking system uses an offline calculation model to generate model output results.
  • the model results and system input data are used in the sorting of the line search engine, and the search engine sort results are returned to the user.
  • the calculation of the model is updated according to the input data increment. When the newly added user rating data reaches a certain limit value, the model needs to be reprocessed.
  • the specific steps are as follows:
  • Data preprocessing The data is processed according to the requirements of different algorithms, and the system input data is processed into model input data.
  • Model calculation The search engine ranking system periodically runs the model according to the change of the data amount, calculates the update data, and modifies the model output result to ensure the search engine sorting quality.
  • the online search engine sorting process is as follows:
  • the main task of the personalized list search engine ranking system is to sort the list by the search engine based on the user's personal preferences.
  • the main function of online recommendation is to analyze the type of search engine sorting, select the output of the corresponding algorithm model and predict the search engine sorting result in combination with the input data, and feed back to the user.
  • Selection model The search engine ranking system sorts according to the type of search engine. Choose different models, mainly including three search engine sorts:
  • 1 rating user's search engine ranking If it is a user who already has a rating in the system, the model for classification is selected based on its rating data, list data, and user data.
  • New list search engine sorting The new list means that the original search engine ranking system does not have any user rating data and list feature data about the list.
  • the search engine ranking for the new list is analyzed using a content-based classification model based on the input list characteristics. If the user is dissatisfied with all the search results, or does not have the information he wants, the user can consciously provide the search information he thinks should appear. This added information will appear on a certain page location.
  • the search results are listed on the right or after the search results with high scores, and the results are also scored by other users. The score determines the order in which they are arranged.
  • new user refers to the search engine sorting system does not exist any of its rating data, including two types of users, one is a newly registered user, the other is registered but not carried out Rating users.
  • the search engine ranking for new users uses a model based on user information.
  • the search engine results are predicted based on the output of the model and the input data.
  • Online search engine sorting uses a real-time search engine sorting mode for search engine sorting. When the user logs into the search engine ranking system website and browses the page, the user's rating data is directly read, the list of interest to the user is predicted, and the user is directly fed back to the list that the user is most likely to be interested in.
  • Combining user information based hybrid search engine sorting algorithm can realize two kinds of classes Type of search engine sorting. Among them, the neighboring clustering combined with the content and user information based hybrid search engine sorting is based on the list information and the user rating data, forming user preferences, and then performing neighbor clustering to cluster similar users. Then, in conjunction with the test user information prediction, a user search engine sorted list is generated. The other is to search the search engine of the new user based on the search information of the user information, and use the support vector machine to predict the new user score according to the new user information and the original user information, and generate a new user list search engine sorting list. For users to use.
  • the invention has the beneficial effects that: the method of the invention can enhance the participation of the user, express the opinions on the search information, and provide reference for other users, thereby effectively improving the search quality and facilitating the selection of the user's reference opinions, thereby effectively reducing the user.
  • the search time of search improves the efficiency of the work and the ability to know the information.
  • 1 is a basic framework diagram of a search engine used in an embodiment of the present invention.
  • FIG. 2 is a flow chart of online scoring in a search engine in an embodiment of the present invention.
  • FIG. 3 is a flow chart of a combined list and user ratings in an embodiment of the present invention.
  • FIG. 4 is a flow chart of a combined list and a new user rating in an embodiment of the present invention.
  • the method is based on the search engine ranking system.
  • the basic framework of the system is shown in Figure 1. Take a search engine website as an example, the search result On the display list, the user can express opinions such as approval, like, disapproval, and opposition. The scores of all the information and the search results are scored according to the scores of the search results. In the next search result, the scores are automatically sorted according to the scores. The high row is in front. There is also a special program to prevent malicious scoring. As shown in FIG.
  • the system includes a user, a search engine ranking system, a model processing system, and an output system, wherein the user is a registered user and a non-registered user respectively, the personalized service is mainly for registered users, and the non-registered users have search engine ranking.
  • the search engine ranking system itself is more complex. To ensure the quality and real-time performance of the search engine, it is required to construct a reasonable search engine ranking system.
  • the search engine ranking system based on user participation belongs to a fully personalized search engine ranking, and uses a reasonable algorithm to provide personalized services for registered users. Among them, the search engine ranking system needs to manage website information, user registration information, ratings and other data as well as search engine ranking methods, models, results and the like.
  • the system includes online real-time search engine sorting and model processing.
  • Online is for accessing users.
  • Model processing can be performed in real time, which is beneficial to improve the execution efficiency of the search engine ranking system.
  • the model processing part mainly processes the data according to the search engine sorting method to obtain the model.
  • the online search engine sorting will output the search engine sorting list feedback to the user in real time according to the model result.
  • the online search engine sorting section performs different search engine sorting strategies according to different situations. Especially for new users using different search engine ranking methods, to some extent solve the cold start problem and improve the search engine sorting quality.
  • 2 is a flow chart of online scoring in a search engine in an embodiment of the present invention.
  • the main function of the personalized search bow engine sorting system is to collect user information, website information and evaluation information of the website. After the model processing, the user is provided with a sorting list of search engines.
  • the search engine ranking system is applicable to general websites, collects user personal information according to customer registration information, and predicts the list contents of interest according to the user's evaluation of different display lists.
  • the purpose of the search engine ranking system is to facilitate user selection of evaluations and to facilitate search selection. Since different search engine sorting techniques can achieve better results in a specific type of search engine ranking system, there is a certain range of applicability.
  • the display list of search results it is generally not fully described in the form of a specification, but needs to be described in terms of user experience.
  • the user can express opinions such as approval, like, disapproval, and opposition.
  • 3 is a flow chart of a combined list and user ratings in an embodiment of the present invention.
  • the data that the system needs to manage and the running process are as follows:
  • the system needs a large amount of data in the display list of the search results for analysis, and the system management data mainly includes input data, model data and output data.
  • the system input includes user information, display list information, and user evaluation information.
  • the user information data is obtained by collecting personal information filled in after the user logs in to the system.
  • User information includes: user identification, login password, age, gender, occupation, address, email.
  • Display list information The search engine ranking system needs to sort the display list information that may be of interest to the user search engine, while predicting user interest based on the information of interest and the corresponding search engine ranking algorithm.
  • the system sorts the search engines that display the list, so the information mainly includes: list number, list name, date, type.
  • the user evaluation information a list of collected user pairs of the search engine ranking system Data information for information evaluation, as an important input to the search engine ranking algorithm.
  • the user's evaluation of the list information can be of various types, such as a description in a text form, a fuzzy evaluation (approval, like, disapproval, objection) or a form of direct scoring.
  • User's method of scoring list information includes: user identification, list number, rating, time stamping.
  • Model data includes two types:
  • Model input data The core of the search engine sorting system is the search engine sorting algorithm model. However, since different algorithms require different input data, the input data of the system needs to be preprocessed and sorted into model input data. It mainly includes: users, list information, and rating data.
  • the user data converts the user information into a form required by the algorithm model, and specifically includes: a user identifier, an age group, a gender indicator, and a career indicator; wherein the age, gender, and occupation are data corresponding to the user information preprocessed by the model data. form.
  • List data Converts list information into the form required by the model, including: list number, type I, type 2, - type M.
  • Rating data User rating data needs to be processed into a form of a scoring matrix, including user number, list 1 rating, list rating 2 ⁇ score K. The rating data for each user is represented in the form of a row vector.
  • Model output data Model structure data: The search engine ranking system uses the search engine sorting algorithm to calculate the input data, and obtains the structural composition data of the algorithm model as the basis for the prediction. Model labeling, algorithm-based weights, model parameters; User classification data: After the model input data is processed by the algorithm, the classification result is obtained. It consists of two parts, one part is the classification result of the original user, including the user number, model label, and classification number. The other part is the classification result of the classification, including model number, classification number, list 1 score, list 2 score... list K score.
  • User prediction score data The output of the search engine ranking system is the application model to perform user prediction, and output the search engine ranking result. Based on the input data and model data of the search engine ranking system, the search engine ranking results of the predicted users are calculated.
  • Predict new list user data Predict user classes that may be of interest based on the characteristics of the new list and user rating information.
  • New user rating data Predict user rating results based on new users and original user data. Includes new user number, model number, list number, and rating. If the user is dissatisfied with all the search results, or does not have the information he wants, the user can consciously provide the search information he thinks should appear. This added information will appear on a certain page location.
  • the search results are listed to the right or after the search results with high scores, and the results are also scored by other users. The score determines the order in which they are arranged.
  • 4 is a flow chart of a combined list and new user ratings in an embodiment of the present invention.
  • the model processing portion of the search engine ranking system is invisible to the accessing user. Due to the large amount of data and rapid growth of the list website, the algorithm model will take a long time to process. The system resources are very expensive, which seriously affects the real-time performance of search engine ranking. Therefore, the search engine ranking system uses an offline calculation model to generate model output results.
  • the line search engine sorts the model results and the system input data, and returns the search engine sort results.
  • the calculation of the model is updated according to the input data increment. When the newly added user rating data reaches a certain limit value, the model needs to be reprocessed. The specific steps are as follows:
  • Data preprocessing The data is processed according to the requirements of different algorithms, and the system input data is processed into model input data.
  • Model calculation The search engine ranking system periodically runs the model according to the change of the data amount, calculates the update data, and modifies the model output result to ensure the search engine sorting quality.
  • the main task of the personalized list search engine ranking system is to sort the list by the search engine based on the user's personal preferences.
  • the main function of online recommendation is to analyze the type of search engine sorting, select the output of the corresponding algorithm model and predict the search engine sorting result in combination with the input data, and feed back to the user.
  • the main process is shown in Figure 3 and Figure 4.
  • the search engine ranking system selects different models according to the type of search engine, and mainly includes three search engine rankings:
  • 1 rating user's search engine ranking If it is a user who already has a rating in the system, the model for classification is selected based on its rating data, list data, and user data.
  • New list search bow I engine sort The new list means that there is no user score data and list feature data about the list in the original search engine.
  • the search engine ranking for the new list is based on the input list characteristics using a content-based classification model for analysis. If the user is dissatisfied with all the search results, or does not have the information he wants, the user can consciously provide the search information he thinks should appear. This added information will appear on a page location. The right side of the search results or after the search results with high scores Come out, and the results of this addition also participate in the ratings of other users. The score determines the order in which they are arranged.
  • new user refers to the search engine sorting system does not exist any of its rating data, including two types of users, one is a newly registered user, the other is registered but not carried out Rating users.
  • the search engine ranking for new users uses a model based on user information.
  • the search engine results are predicted based on the output of the model and the input data.
  • Online search engine sorting uses a real-time search engine sorting mode for search engine sorting. When the user logs into the search engine ranking system website and browses the page, the user's rating data is directly read, the list of interest to the user is predicted, and the user is directly fed back to the list that the user is most likely to be interested in.
  • Two types of search engine rankings can be implemented by combining a hybrid search engine ranking algorithm based on user information.
  • the neighboring clustering combined with the content and user information based hybrid search engine ranking is based on the list information and the user rating data, forming user preferences, and then performing neighbor clustering to cluster similar users.
  • a user search engine sorted list is generated.
  • the other is to search the search engine of the new user based on the search information of the user information, and use the support vector machine to predict the new user score according to the new user information and the original user information, and generate a new user list search engine sorting list. For users to use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于用户参与的搜索引擎排序方法,属于软件技术领域。该方法基于搜索引擎排序系统,搜索结果的显示列表上用户通过表达赞同、喜欢、不赞同、反对等意见针对全部的信息及检索结果评分,依据搜索结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序,分数高的排在前面,并设置有防止恶意评分程序。该方法实施所建立的系统包括用户、搜索引擎排序系统、模型处理系统和输出系统。本发明方法可以加强用户的参与,针对搜索信息进行意见表达,并供其他用户参考,从而能够有效地提高搜索质量,便于用户参考意见进行选择,从而有效地减少了用户的搜索查找时间,提高了办事效率和获知信息的能力。

Description

说明书
基于用户参与的搜索引擎排序方法 技术领域
本发明涉及一种基于用户参与的搜索弓 I擎排序方法,属于软件 技术领域。
背景技术
中国互联网络信息中心调査报告指出,有 82.5%的网民经常使 用搜索引擎, 83.4%的用户通过搜索引擎得知新网站。 可见, 搜索引 擎在大家日常的网络生活中发挥了重要作用。一个优秀的搜索引擎能 从巨量的、 形如垃圾的信息中发现真正的知识, 通过对信息的甄别、 加工、 提纯, 带来信息价值的提升。 然而由于当今搜索引擎相关性排 序算法并不完善,用户通常需要从大量的返回结果中手工挑选相关网 页, 搜索引擎的导航功能没有发挥明显优势。
在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在 数据库中找到匹配网页的先后次序,不保证排在前面的网页与用户査 询的相关性更大,因此不能帮助用户从过载的海量信息中快速地选取 真正相关的信息。 目前搜索引擎访问的网页数量已达到上十亿的规 模, 通常搜索结果包含成千上万的网页, 即便这些网页都是用户所需 要的,用户也不可能浏览所有的网页。如何将更相关的网页排在前面, 减少用户浏览网页的数目, 帮助其快速找到需要的信息, 是一项很有 意义且富有挑战性的工作。用户通常只关心搜索引擎返回的排在前面 的文档。 因此研究搜索引擎的相关性排序算法, 将用户期望的结果排 列在前面, 显得越来越重要。
搜索引擎不仅需要返回检索结果,而且应该对这些结果进行再 加工, 判断哪些更符合用户搜索意图, 将用户最感兴趣的文档排列在 前面, 方便用户在最短时间内找到需要的信息, 提高搜索引擎的用户 满意度。这便是搜索引擎的相关性原则, 已被作为搜索引擎最基本原 则之一。 搜索引擎的相关性排序模型包含布尔模型, 向量空间模型, 概率模型, 超链接模型, 自学习排序模型。布尔模型建立在经典集合 论和布尔代数的基础上,根据文档中是否出现关键词来判断文档是否 相关, 所有相关文档与査询的相关程度都是一样的, 所以不支持相关 性排序。 向量空间模型将文档和用户査询分别转化为向量形式, 计算 两个向量的夹角余弦, 并按照递减的顺序排列文档。概率模型通过估 计文档与査询相关联的概率, 根据关联概率对所有文档进行排序。超 链接模型根据网页之间相互的超链接计算网页排名,从链接数目和链 接页面的质量判断网页的级别。自学习排序模型将机器学习的方法运 用到搜索引擎相关性排序问题, 解决了以往模型的许多不足之处。它 根据训练样本学习排序模型,再将排序模型预测与査询相关的文档排 序。
目前, 不同的搜索引擎使用了不同的相关度排序方法。 比较流 行的有两类: 超链接分析法, 即一个网页被链接的次数越多而且链接 的站点越权威就说明此网页的质量越高; 词频统计法, 即网页文档中 出现査询词的频率越高, 其排序就越靠前。 此外, 还有点击率法,即 网页被点击的次数越多, 相关度越高。任何一个搜索引擎的目的就是 更快速地响应用户搜索, 把满足用户需求的搜索结果反馈给搜索用 户。能否把与用户检索需求最相关的高质量文档纳入结果排序的前面 是衡量搜索引擎性能的关键技术之一。
发明内容
本发明的目的在于提供一种基于用户参与的搜索引擎排序方 法, 依据用户参与对搜索列表的评价, 并对评价结果打分评比参与排 序, 方便根据用户参与评价的结果査找相应的结果, 方便人们根据需 要使用。
为了实现上述目的, 本发明的技术方案如下。
一种基于用户参与的搜索引擎排序方法,该方法基于搜索弓 I擎 排序系统,搜索结果的显示列表上用户通过表达赞同、喜欢、不赞同、 反对等意见针对全部的信息及检索结果评分, 依据搜索结果的分值, 在下一次搜索结果的时候, 会自动按照分值的高低排序, 分数高的排 在前面, 并设置有防止恶意评分程序。该方法实施所建立的系统包括 用户、 搜索引擎排序系统、 模型处理系统和输出系统, 其中,
( 1 ) 用户分别为注册用户和非注册用户, 个性化服务主要针 对注册用户, 非注册用户具有搜索引擎排序功能。搜索引擎排序系统 本身较为复杂性, 为保证搜索引擎排序质量和实时性, 要求构建合理 的搜索引擎排序系统。
(2 ) 搜索引擎排序系统采用基于用户参与的方法, 属于完全 个性化搜索引擎排序, 为用户提供个性化的服务。 其中, 搜索引擎排 序系统需要管理网站信息、用户注册信息、评分等数据以及搜索引擎 排序方法、模型、 结果等内容。考虑到搜索引擎排序方法运行效率和 搜索引擎排序实时性的要求,系统包括在线实时搜索引擎排序和模型 处理两部分。在线是对于访问用户而言。模型处理不实时进行, 从而 有利于提高搜索弓 I擎排序系统的执行效率。搜索引擎排序系统适用于 一般网站, 根据客户注册信息采集用户个人信息, 根据用户对不同显 示列表评价, 预测其感兴趣的列表内容。搜索引擎排序系统目的是方 便用户选择评价, 促进搜索选择。 由于不同的搜索引擎排序技术在特 定类型的搜索引擎排序系统中, 会获得较好的效果, 具有一定的适用 性范围。对于搜索结果的显示列表来说, 一般不能通过规范的形式全 面描述出, 而是需要依据用户感受描述。用户选择一种搜索结果的显 示列表后,根据用户一系列信息,用户可以表达赞同、喜欢、不赞同、 反对等意见。
(3 ) 模型处理系统主要根据搜索引擎排序方法处理数据得到 模型, 当用户浏览网页时, 在线搜索引擎排序会依据模型结果实时输 出搜索引擎排序列表反馈给用户。在线搜索引擎排序部分根据不同的 情况, 执行不同的搜索引擎排序策略。特别是对于新用户采用不同搜 索引擎排序方法, 在一定程度上解决冷启动问题, 提高搜索引擎排序 质量。
(4 ) 输入输出系统: 个性化搜索引擎排序系统主要的功能是 收集用户信息、 网站信息以及对网站的评价信息, 经过模型处理,为 用户提供搜索引擎排序列表。
上述系统需要管理的数据如下:系统需要搜索结果的显示列表 中存在的大量数据进行分析, 系统管理的数据主要包括输入数据、模 型数据与输出数据。
( 1 ) 输入数据: 系统的输入包括用户信息、 显示列表信息、 用户评价信息。其中, 用户信息数据是通过收集用户登录系统后填写 的个人信息获得的。 用户信息包括: 用户标示、 登录密码、 年龄、性 别、 职业、 住址、 电子邮件。 搜索引擎排序系统需要为用户搜索引擎 排序其可能感兴趣的显示列表信息,同时根据感兴趣的信息和相应的 搜索引擎排序算法预测用户兴趣度。该系统针对显示列表的搜索引擎 排序, 因此信息主要包括: 列表编号、 列表名称、 日期、 类型。 搜索 引擎排序系统的采集用户对列表信息评价的数据信息,作为搜索引擎 排序算法的重要输入内容。 用户对列表信息的评价可以是多种类型 的, 如文字形式的描述、 模糊评价 (赞同、 喜欢、 不赞同、 反对)或直 接评分的形式。用户对列表信息的评分方法。评价信息包括: 用户标 示、 列表编号、 评分、 时间标示。
( 2 ) 模型数据包括两种:
①模型输入数据:搜索引擎排序系统的核心是搜索引擎排序算 法模型, 但由于不同算法要求输入数据不同, 因此在进行计算时需要 将系统的输入数据进行预处理, 整理为模型输入数据。 主要包括:用 户、 列表信息、 评分数据。 其中, 用户数据, 将用户信息转化为算法 模型需要的形式, 具体包括: 用户标示、 年龄段、 性别标示、 职业标 示; 其中年龄、性别与职业分别是对应用户信息经过模型数据预处理 后的数据形式。列表数据:将列表信息转化为模型要求的形式,包括: 列表编号、 类型 I、 类型 2、 -类型 M。 其中类型是根据列表信息转 化而来, 将不同的类型表现为不同的字段, 每部列表类型表现为一行 0-1 向量的形式。 评分数据: 用户评分数据需要进行处理成为评分 矩阵的形式, 包括用户编号、 列表 1评分、 列表评分 2···评分 K。 其 中每位用户的评分数据表示成行向量的形式。
②模型输出数据: 模型结构数据: 搜索引擎排序系统利用搜索 引擎排序算法计算输入数据, 得出算法模型的结构组成数据, 作为预 测的依据, 包括模型标示、 基于算法的权重、 模型参数; 用户分类数 据:模型输入数据经过算法处理后,得到分类结果。包括两部分内容, 一部分是原有用户的分类结果,包括用户编号、模型标示、分类编号。 另一部分是分类的评分结果,包括模型编号、分类编号、列表 1评分、 列表 2评分…列表 Κ评分。
(3) 输出数据:
根据搜索引擎排序系统的应用不同, 采用不同的模型, 主要产 生三种输出结果:
①用户预测评分数据:搜索引擎排序系统的输出是应用模型进 行用户预测后, 输出搜索引擎排序结果。根据搜索引擎排序系统的输 入数据和模型数据, 计算得到预测用户的搜索引擎排序结果, 包括用 户编号、 模型标示、 分类编号、 列表编号、 评分。 预测新列表用户数 据: 根据新列表的特征和用户评分信息, 预测可能感兴趣的用户类。
②新用户评分数据: 根据新用户以及原有用户数据, 预测用户 评分结果, 包括新用户编号、 模型编号、 列表编号、 评分。 如果用户 对所有的搜索结果都不满意, 或者没有他想要的信息, 用户可自觉提 供添加他觉得应该出现的搜索信息。此添加信息将在某一页面位置出 现。搜索结果的右侧或者在分值高的搜索结果后面列表出来, 同时此 添加结果同样参与其他用户的评分。 分值决定其排列顺序
上述模型处理部分工作过程如下:
搜索引擎排序系统的模型处理部分对于访问用户是不可见的。 由于列表网站的数据量庞大、增长迅速, 使得算法模型在处理上会耗 费较长时间。系统资源消耗很大,严重影响了搜索引擎排序的实时性。 因此, 搜索引擎排序系统采用离线计算模型, 产生模型输出结果。在 线搜索引擎排序时利用模型结果和系统输入数据,返回给用户搜索引 擎排序结果。模型的计算是根据输入数据增量进行更新, 当新增加用 户评分数据达到一定的限制值时,需要重新处理模型,其具体步骤为:
(1 )数据预处理: 根据不同算法的要求处理数据, 将系统输入 数据处理为模型输入数据。
(2)模型计算搜索引擎排序系统根据数据量的变动, 定期运行 模型, 计算更新数据, 修改模型输出结果, 保证搜索引擎排序质量。
在线搜索引擎排序过程如下:
个性化列表搜索引擎排序系统的主要任务是根据用户的个人 喜好, 搜索引擎排序列表。在线推荐主要的功能是分析搜索引擎排序 的类型,选择相应的算法模型的输出结果与输入数据结合预测出搜索 引擎排序结果, 并反馈给用户。
(1 )选择模型: 搜索引擎排序系统根据搜索弓 I擎排序的类型, 选择不同模型, 主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序: 如果是系统中已存在评分的用 户, 根据其评分数据、 列表数据以及用户数据选择用于分类的模型。
②新列表搜索引擎排序:新列表是指原有搜索引擎排序系统不 存在有关该列表的任何用户评分数据以及列表特征数据。对于新列表 的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行 分析。如果用户对所有的搜索结果都不满意,或者没有他想要的信息, 用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某 一页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表 出来, 同时此添加结果同样参与其他用户的评分。分值决定其排列顺 序。
③新用户搜索弓 I擎排序:新用户是指搜索引擎排序系统中不存 在其任何评分数据, 包括有两种类型的用户, 一种是新注册的用户, 另一种是注册但没有进行过评分的用户。对于新用户的搜索引擎排序 采用依据用户信息的模型。
(2)预测搜索引擎排序:
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排 序结果。在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜 索引擎排序。 当用户登录搜索引擎排序系统网站, 浏览页面时, 直接 读取用户评分数据, 预测用户感兴趣的列表, 直接反馈给用户其最可 能感兴趣的列表。
结合基于用户信息的混合搜索引擎排序算法可以实现两种类 型的搜索引擎排序。其中, 近邻聚类结合基于内容和用户信息的混合 搜索引擎排序是根据列表信息和用户评分数据, 形成用户偏好, 然后 进行近邻聚类, 将相似用户进行聚类。 然后结合测试用户信息预测, 产生用户搜索引擎排序列表。另一种是基于用户信息的搜索弓 I擎排序 算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户信息 加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎排序 列表, 供用户使用。
该发明的有益效果在于: 本发明方法可以加强用户的参与,针 对搜索信息进行意见表达, 并供其他用户参考, 从而能够有效地提高 搜索质量, 便于用户参考意见进行选择, 从而有效地减少了用户的搜 索査找时间, 提高了办事效率和获知信息的能力。
附图说明
图 1 是本发明实施例中所使用搜索引擎基本框架图。
图 2是本发明实施例中搜索引擎中在线评分流程图。
图 3是本发明实施例中结合列表和用户评分流程图。
图 4是本发明实施例中结合列表和新用户评分流程图。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式进行描述,以 便更好的理解本发明。
实施例
基于用户参与的搜索引擎排序方法,该方法基于搜索弓 I擎排序 系统, 该系统的基本框架见图 1, 以某搜索引擎网站为例, 搜索结果 的显示列表上用户可以表达赞同、 喜欢、 不赞同、 反对等意见针对全 部的信息及检索结果评分, 依据搜索结果的分值, 在下一次搜索结果 的时候, 会自动按照分值的高低排序, 分数高的排在前面。 同时有专 门的防止恶意评分程序。如图 1所示, 该系统包括用户、搜索引擎排 序系统、 模型处理系统和输出系统, 其中, 用户分别为注册用户和非 注册用户, 个性化服务主要针对注册用户, 非注册用户具有搜索引擎 排序功能。搜索引擎排序系统本身较为复杂性, 为保证搜索引擎排序 质量和实时性, 要求构建合理的搜索引擎排序系统。基于用户参与的 搜索引擎排序系统属于完全个性化搜索引擎排序, 采用合理算法,为 注册用户提供个性化的服务。其中, 搜索引擎排序系统需要管理网站 信息、 用户注册信息、 评分等数据以及搜索引擎排序方法、 模型、结 果等内容。考虑到搜索弓 I擎排序方法运行效率和搜索弓 I擎排序实时性 的要求, 系统包括在线实时搜索引擎排序和模型处理两部分。在线是 对于访问用户而言。模型处理可以不实时进行, 从而有利于提高搜索 引擎排序系统的执行效率。模型处理部分主要根据搜索引擎排序方法 处理数据得到模型, 当用户浏览网页时, 在线搜索引擎排序会依据模 型结果实时输出搜索引擎排序列表反馈给用户。在线搜索引擎排序部 分根据不同的情况, 执行不同的搜索引擎排序策略。特别是对于新用 户采用不同搜索引擎排序方法, 在一定程度上解决冷启动问题, 提高 搜索引擎排序质量。图 2是本发明实施例中搜索引擎中在线评分流程 图。
搜索引擎排序系统的适用性: 输入输出系统:个性化搜索弓 I擎排序系统主要的功能是收集用 户信息、 网站信息以及对网站的评价信息, 经过模型处理, 为用户提 供搜索引擎排序列表。搜索引擎排序系统适用于一般网站, 根据客户 注册信息采集用户个人信息, 根据用户对不同显示列表评价, 预测其 感兴趣的列表内容。 搜索引擎排序系统目的是方便用户选择评价,促 进搜索选择。由于不同的搜索引擎排序技术在特定类型的搜索弓 I擎排 序系统中, 会获得较好的效果, 具有一定的适用性范围。对于搜索结 果的显示列表来说, 一般不能通过规范的形式全面描述出, 而是需要 依据用户感受描述。用户选择一种搜索结果的显示列表后, 根据用户 一系列信息, 用户可以表达赞同、 喜欢、 不赞同、 反对等意见。 图 3 是本发明实施例中结合列表和用户评分流程图。
该系统需要管理的数据以及运行过程如下:系统需要搜索结果 的显示列表中存在的大量数据进行分析,系统管理的数据主要包括输 入数据、 模型数据与输出数据。
( 1 ) 输入数据: 系统的输入包括用户信息、 显示列表信息、 用户评价信息。其中, 用户信息数据是通过收集用户登录系统后填写 的个人信息获得的。 用户信息包括: 用户标示、 登录密码、 年龄、性 别、 职业、 住址、 电子邮件。 显示列表信息: 搜索引擎排序系统需要 为用户搜索引擎排序其可能感兴趣的显示列表信息,同时根据感兴趣 的信息和相应的搜索引擎排序算法预测用户兴趣度。该系统针对显示 列表的搜索引擎排序, 因此信息主要包括: 列表编号、 列表名称、日 期、类型。所述用户评价信息: 搜索引擎排序系统的采集用户对列表 信息评价的数据信息, 作为搜索引擎排序算法的重要输入内容。用户 对列表信息的评价可以是多种类型的, 如文字形式的描述、模糊评价 (赞同、 喜欢、 不赞同、 反对)或直接评分的形式。 用户对列表信息的 评分方法。 评价信息包括: 用户标示、 列表编号、 评分、 时间标示。
(2) 模型数据包括两种:
①模型输入数据:搜索引擎排序系统的核心是搜索引擎排序算 法模型, 但由于不同算法要求输入数据不同, 因此在进行计算时需要 将系统的输入数据进行预处理, 整理为模型输入数据。 主要包括:用 户、 列表信息、 评分数据。 其中, 用户数据, 将用户信息转化为算法 模型需要的形式, 具体包括: 用户标示、 年龄段、 性别标示、 职业标 示; 其中年龄、性别与职业分别是对应用户信息经过模型数据预处理 后的数据形式。列表数据:将列表信息转化为模型要求的形式,包括: 列表编号、 类型 I、 类型 2、 - 类型 M。 其中类型是根据列表信息转 化而来, 将不同的类型表现为不同的字段, 每部列表类型表现为一行 0-1 向量的形式。 评分数据: 用户评分数据需要进行处理成为评分 矩阵的形式, 包括用户编号、 列表 1评分、 列表评分 2···评分 K。其 中每位用户的评分数据表示成行向量的形式。
②模型输出数据: 模型结构数据: 搜索引擎排序系统利用搜索 引擎排序算法计算输入数据, 得出算法模型的结构组成数据, 作为预 测的依据。 模型标示、 基于算法的权重、 模型参数; 用户分类数据: 模型输入数据经过算法处理后, 得到分类结果。 包括两部分内容,一 部分是原有用户的分类结果, 包括用户编号、 模型标示、 分类编号。 另一部分是分类的评分结果,包括模型编号、分类编号、列表 1评分、 列表 2评分…列表 K评分。
(3) 输出数据:
根据搜索引擎排序系统的应用不同, 采用不同的模型, 主要产 生三种输出结果:
①用户预测评分数据:搜索引擎排序系统的输出是应用模型进 行用户预测后, 输出搜索引擎排序结果。根据搜索引擎排序系统的输 入数据和模型数据, 计算得到预测用户的搜索引擎排序结果。用户编 号、 模型标示、 分类编号、 列表编号、 评分。 预测新列表用户数据: 根据新列表的特征和用户评分信息, 预测可能感兴趣的用户类。
②新用户评分数据: 根据新用户以及原有用户数据, 预测用户 评分结果。 包括新用户编号、 模型编号、 列表编号、 评分。 如果用户 对所有的搜索结果都不满意, 或者没有他想要的信息, 用户可自觉提 供添加他觉得应该出现的搜索信息。此添加信息将在某一页面位置出 现。搜索结果的右侧或者在分值高的搜索结果后面列表出来, 同时此 添加结果同样参与其他用户的评分。分值决定其排列顺序。图 4是本 发明实施例中结合列表和新用户评分流程图。
模型处理部分:
搜索引擎排序系统的模型处理部分对于访问用户是不可见的。 由于列表网站的数据量庞大、增长迅速, 使得算法模型在处理上会耗 费较长时间。系统资源消耗很大,严重影响了搜索引擎排序的实时性。 因此, 搜索引擎排序系统采用离线计算模型, 产生模型输出结果。在 线搜索引擎排序时利用模型结果和系统输入数据,返回给用户搜索引 擎排序结果。模型的计算是根据输入数据增量进行更新, 当新增加用 户评分数据达到一定的限制值时,需要重新处理模型,其具体步骤为:
(1 )数据预处理: 根据不同算法的要求处理数据, 将系统输入 数据处理为模型输入数据。
(2)模型计算搜索引擎排序系统根据数据量的变动, 定期运行 模型, 计算更新数据, 修改模型输出结果, 保证搜索引擎排序质量。
在线搜索引擎排序部分:
个性化列表搜索引擎排序系统的主要任务是根据用户的个人 喜好, 搜索引擎排序列表。在线推荐主要的功能是分析搜索引擎排序 的类型,选择相应的算法模型的输出结果与输入数据结合预测出搜索 引擎排序结果, 并反馈给用户。 主要过程如图 3、 图 4所示。
(1 )选择模型: 搜索引擎排序系统根据搜索弓 I擎排序的类型, 选择不同模型, 主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序: 如果是系统中已存在评分的用 户, 根据其评分数据、 列表数据以及用户数据选择用于分类的模型。
②新列表搜索弓 I擎排序:新列表是指原有搜索弓 I擎排序系统不 存在有关该列表的任何用户评分数据以及列表特征数据。对于新列表 的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行 分析。如果用户对所有的搜索结果都不满意,或者没有他想要的信息, 用户可自觉提供添加他觉得应该出现的搜索信息。此添加信息将在某 一页面位置出现。搜索结果的右侧或者在分值高的搜索结果后面列表 出来, 同时此添加结果同样参与其他用户的评分。分值决定其排列顺 序。
③新用户搜索弓 I擎排序:新用户是指搜索引擎排序系统中不存 在其任何评分数据, 包括有两种类型的用户, 一种是新注册的用户, 另一种是注册但没有进行过评分的用户。对于新用户的搜索引擎排序 采用依据用户信息的模型。
(2)预测搜索引擎排序
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排 序结果。在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜 索引擎排序。 当用户登录搜索引擎排序系统网站, 浏览页面时, 直接 读取用户评分数据, 预测用户感兴趣的列表, 直接反馈给用户其最可 能感兴趣的列表。
结合基于用户信息的混合搜索引擎排序算法可以实现两种类 型的搜索引擎排序。其中, 近邻聚类结合基于内容和用户信息的混合 搜索引擎排序是根据列表信息和用户评分数据, 形成用户偏好, 然后 进行近邻聚类, 将相似用户进行聚类。 然后结合测试用户信息预测, 产生用户搜索引擎排序列表。另一种是基于用户信息的搜索弓 I擎排序 算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户信息 加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎排序 列表, 供用户使用。
以上所述是本发明的优选实施方式, 应当指出, 对于本技术领域的普 通技术人员来说, 在不脱离本发明原理的前提下, 还可以做出若干改 进和润饰, 这些改进和润饰也视为本发明的保护范围。

Claims

权利要求书
1、 一种基于用户参与的搜索引擎排序方法, 其特征在于: 该方法基 于搜索引擎排序系统, 搜索结果的显示列表上用户通过表达赞同、喜 欢、 不赞同、 反对等意见针对全部的信息及检索结果评分, 依据搜索 结果的分值,在下一次搜索结果的时候,会自动按照分值的高低排序, 分数高的排在前面, 并设置有防止恶意评分程序; 该方法实施所建立 的系统包括用户、 搜索引擎排序系统、 模型处理系统和输出系统,所 述:
( 1 ) 用户分别为注册用户和非注册用户, 个性化服务主要针 对注册用户, 非注册用户具有搜索引擎排序功能;
(2 ) 搜索引擎排序系统采用基于用户参与的方法, 属于完全 个性化搜索引擎排序, 为用户提供个性化的服务; 搜索引擎排序系统 管理网站信息、 用户注册信息、 评分等数据以及搜索引擎排序方法、 模型、结果等内容; 系统包括在线实时搜索引擎排序和模型处理两部 分; 在线是对于访问用户而言, 模型处理不实时进行; 搜索引擎排序 系统适用于一般网站, 根据客户注册信息采集用户个人信息, 根据用 户对不同显示列表评价, 预测其感兴趣的列表内容; 用户选择一种搜 索结果的显示列表后,根据用户一系列信息,用户能表达赞同、喜欢、 不赞同、 反对等意见;
(3 ) 模型处理系统主要根据搜索引擎排序方法处理数据得到 模型, 当用户浏览网页时, 在线搜索引擎排序会依据模型结果实时输 出搜索引擎排序列表反馈给用户;在线搜索弓 I擎排序部分根据不同的 情况, 执行不同的搜索引擎排序策略; 特别是对于新用户采用不同搜 索引擎排序方法, 在一定程度上解决冷启动问题, 提高搜索引擎排序 质量;
(4 ) 输入输出系统: 个性化搜索引擎排序系统主要的功能是 收集用户信息、 网站信息以及对网站的评价信息, 经过模型处理,为 用户提供搜索引擎排序列表。
2、 根据权利要求 1所述的基于用户参与的搜索引擎排序方法, 其 特征在于: 所述系统需要管理的数据主要包括输入数据、模型数据与 输出数据, 所述:
( 1 ) 输入数据: 系统的输入包括用户信息、 显示列表信息、 用户评 价信息;用户信息数据通过收集用户登录系统后填写的个人信息获得 的; 所述用户信息包括: 用户标示、 登录密码、 年龄、 性别、 职业、 住址、 电子邮件; 搜索引擎排序系统为用户搜索引擎排序其感兴趣的 显示列表信息,同时根据感兴趣的信息和相应的搜索引擎排序算法预 测用户兴趣度; 该信息主要包括: 列表编号、列表名称、 日期、类型; 搜索引擎排序系统的采集用户对列表信息评价的数据信息,作为搜索 引擎排序算法的重要输入内容; 用户对列表信息的评价多种类型,如 文字形式的描述、 模糊评价 (赞同、 喜欢、 不赞同、 反对)或直接评分 的形式; 评价信息包括: 用户标示、 列表编号、 评分、 时间标示;
( 2 ) 模型数据包括两种:
①模型输入数据:搜索引擎排序系统的核心是搜索引擎排序算法模 型, 但由于不同算法要求输入数据不同, 在进行计算时需要将系统的 输入数据进行预处理, 整理为模型输入数据; 主要包括: 用户、 列表 信息、 评分数据; 所述用户数据, 将用户信息转化为算法模型需要的 形式, 具体包括: 用户标示、 年龄段、 性别标示、 职业标示; 其中年 龄、性别与职业分别是对应用户信息经过模型数据预处理后的数据形 式;列表数据为将列表信息转化为模型要求的形式,包括:列表编号、 类型 I、 类型 2、 -类型 M; 类型是根据列表信息转化而来, 将不同 的类型表现为不同的字段, 每部列表类型表现为一行 0— 1 向量的形 式;用户评分数据需要进行处理成为评分矩阵的形式,包括用户编号、 列表 1评分、 列表评分 2··· 评分 K; 其中每位用户的评分数据表示成 行向量的形式;
②模型输出数据:搜索引擎排序系统利用搜索弓 I擎排序算法计算输入 数据, 得出算法模型的结构组成数据, 作为预测的依据, 包括模型标 示、 基于算法的权重、 模型参数; 用户分类数据是模型输入数据经过 算法处理后得到分类结果, 包括两部分内容,一部分是原有用户的分 类结果, 包括用户编号、 模型标示、 分类编号; 另一部分是分类的评 分结果, 包括模型编号、 分类编号、 列表 1评分、 列表 2评分… 列表 K评分;
(3) 输出数据:
根据搜索引擎排序系统的应用不同, 采用不同的模型, 主要产 生三种输出结果:
①用户预测评分数据:搜索引擎排序系统的输出是应用模型进 行用户预测后, 输出搜索引擎排序结果; 根据搜索引擎排序系统的输 入数据和模型数据, 计算得到预测用户的搜索引擎排序结果, 包括用 户编号、 模型标示、 分类编号、 列表编号、 评分; 根据新列表的特征 和用户评分信息, 预测可能感兴趣的用户类;
②新用户评分数据: 根据新用户以及原有用户数据, 预测用户 评分结果, 包括新用户编号、 模型编号、 列表编号、 评分; 如果用户 对所有的搜索结果都不满意, 或者没有他想要的信息, 用户能自觉提 供添加他觉得应该出现的搜索信息,此添加信息将在某一页面位置出 现; 搜索结果的右侧或者在分值高的搜索结果后面列表出来, 同时此 添加结果同样参与其他用户的评分, 分值决定其排列顺序。
3、 根据权利要求 1所述的基于用户参与的搜索引擎排序方法, 其特 征在于: 所述上述模型处理部分工作过程如下: 搜索引擎排序系统的 模型处理部分对于访问用户是不可见的, 采用离线计算模型, 产生模 型输出结果; 在线搜索引擎排序时利用模型结果和系统输入数据,返 回给用户搜索引擎排序结果;模型的计算是根据输入数据增量进行更 新,当新增加用户评分数据达到一定的限制值时,需要重新处理模型, 其具体步骤为:
(1 )数据预处理: 根据不同算法的要求处理数据, 将系统输入 数据处理为模型输入数据;
(2)模型计算搜索引擎排序系统根据数据量的变动, 定期运行 模型, 计算更新数据, 修改模型输出结果, 保证搜索引擎排序质量。
4、 根据权利要求 1所述的基于用户参与的搜索引擎排序方法, 其特 征在于: 所述在线搜索引擎排序过程如下: 在线推荐主要的功能是分 析搜索引擎排序的类型,选择相应的算法模型的输出结果与输入数据 结合预测出搜索引擎排序结果, 并反馈给用户, 具体过程为:
(1 )选择模型: 搜索引擎排序系统根据搜索弓 I擎排序的类型, 选择不同模型, 主要包括三种搜索引擎排序:
①评分用户的搜索引擎排序: 如果是系统中已存在评分的用 户, 根据其评分数据、 列表数据以及用户数据选择用于分类的模型;
②新列表搜索引擎排序:新列表是指原有搜索引擎排序系统不 存在有关该列表的任何用户评分数据以及列表特征数据;对于新列表 的搜索引擎排序根据输入的列表特征运用基于内容的分类模型进行 分析;如果用户对所有的搜索结果都不满意,或者没有他想要的信息, 用户自觉提供添加他觉得应该出现的搜索信息;此添加信息将在某一 页面位置出现;搜索结果的右侧或者在分值高的搜索结果后面列表出 来,同时此添加结果同样参与其他用户的评分,分值决定其排列顺序;
③新用户搜索弓 I擎排序:新用户是指搜索引擎排序系统中不存 在其任何评分数据, 包括有两种类型的用户, 一种是新注册的用户, 另一种是注册但没有进行过评分的用户;对于新用户的搜索引擎排序 采用依据用户信息的模型;
(2)预测搜索引擎排序:
根据模型的输出结果和输入的数据进行计算,预测搜索引擎排 序结果;在线搜索引擎排序采用的是实时搜索引擎排序模式的进行搜 索引擎排序; 当用户登录搜索引擎排序系统网站, 浏览页面时, 直接 读取用户评分数据, 预测用户感兴趣的列表, 直接反馈给用户其最可 能感兴趣的列表;结合基于用户信息的混合搜索引擎排序算法实现两 种类型的搜索引擎排序; 其中, 近邻聚类结合基于内容和用户信息的 混合搜索引擎排序是根据列表信息和用户评分数据, 形成用户偏好, 然后进行近邻聚类, 将相似用户进行聚类, 然后结合测试用户信息预 测, 产生用户搜索引擎排序列表; 另一种是基于用户信息的搜索引擎 排序算法实现对新用户的搜索引擎排序,根据新用户信息和原有用户 信息加权使用支持向量机预测新用户评分,产生新用户列表搜索引擎 排序列表, 供用户使用。
PCT/CN2013/090350 2013-12-18 2013-12-24 基于用户参与的搜索引擎排序方法 WO2015089860A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2015110455A RU2015110455A (ru) 2013-12-18 2013-12-24 Способ поискового ранжирования с участием пользователя
JP2015552986A JP2016505178A (ja) 2013-12-18 2013-12-24 ユーザ参加による検索エンジンソーティング方法
US14/410,252 US20150379135A1 (en) 2013-12-18 2013-12-24 Search Engine Ranking Method Based on User Participation
EP13890864.5A EP2902923A4 (en) 2013-12-18 2013-12-24 SEARCH ENGINEERING PROCEDURE BASED ON A USER PARTICIPATION

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310693680.5 2013-12-18
CN201310693680.5A CN103646092B (zh) 2013-12-18 2013-12-18 基于用户参与的搜索引擎排序方法

Publications (1)

Publication Number Publication Date
WO2015089860A1 true WO2015089860A1 (zh) 2015-06-25

Family

ID=50251306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/090350 WO2015089860A1 (zh) 2013-12-18 2013-12-24 基于用户参与的搜索引擎排序方法

Country Status (6)

Country Link
US (1) US20150379135A1 (zh)
EP (1) EP2902923A4 (zh)
JP (1) JP2016505178A (zh)
CN (1) CN103646092B (zh)
RU (1) RU2015110455A (zh)
WO (1) WO2015089860A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765345A (zh) * 2018-07-10 2020-02-07 阿里巴巴集团控股有限公司 搜索方法、装置以及设备
CN117076773A (zh) * 2023-08-23 2023-11-17 上海兰桂骐技术发展股份有限公司 一种基于互联网信息的数据源筛选优化方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104348628A (zh) * 2014-12-01 2015-02-11 北京奇虎科技有限公司 获取本机Root权限的方法和装置
CN104346576A (zh) * 2014-12-01 2015-02-11 北京奇虎科技有限公司 提权配置信息反馈、匹配方法及相应的装置
US10015269B2 (en) 2014-12-09 2018-07-03 Xiaomi Inc. Method and device for providing contact information
CN105069653A (zh) * 2015-08-07 2015-11-18 合肥工业大学 一种针对推荐系统解释的交互方法
CN106909412A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种终端设备的root方法、配置方法、终端设备和服务器
CN106060637A (zh) * 2016-06-29 2016-10-26 乐视控股(北京)有限公司 视频推荐方法、装置及系统
CN106547816B (zh) * 2016-09-27 2019-10-18 河海大学 一种基于负相关反馈的时间序列相似性搜索方法
CN107122467B (zh) * 2017-04-26 2020-12-29 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
KR101804960B1 (ko) * 2017-06-08 2017-12-06 윤성민 집단지성 수렴 시스템 및 그 방법
CN110020096B (zh) * 2017-07-24 2021-09-07 北京国双科技有限公司 基于查询的分类器训练方法和装置
CN109948032A (zh) * 2017-08-21 2019-06-28 李华林 基于用户偏好的网络搜索结果排名装置、搜索引擎及浏览器
CN109934648A (zh) * 2017-12-15 2019-06-25 中国移动通信集团公司 一种基于信息协同过滤算法的集团产品推荐方法及装置
CN108446964B (zh) * 2018-03-30 2022-03-22 中南大学 一种基于移动流量dpi数据的用户推荐方法
US20190325069A1 (en) * 2018-04-18 2019-10-24 Microsoft Technology Licensing, Llc Impression-tailored computer search result page visual structures
CN109104301A (zh) * 2018-07-19 2018-12-28 国政通科技有限公司 一种基于深度学习模型针对综艺节目进行网络热度预测的方法和系统
CN109034895A (zh) * 2018-07-23 2018-12-18 中国联合网络通信集团有限公司 一种搜索结果评分方法和系统
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及系统
CN109740140B (zh) * 2018-12-28 2023-07-11 北京百度网讯科技有限公司 页面排版方法、装置和计算机设备
CN116501969B (zh) * 2023-04-28 2024-01-30 北京泰茂科技股份有限公司 一种基于个性化推荐算法的医药数据搜索系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661474A (zh) * 2008-08-26 2010-03-03 华为技术有限公司 一种搜索方法和系统
CN102081604A (zh) * 2009-11-27 2011-06-01 上海电机学院 一种用于元搜索引擎的搜索方法及其装置
US20110196733A1 (en) * 2010-02-05 2011-08-11 Wei Li Optimizing Advertisement Selection in Contextual Advertising Systems
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006218A (en) * 1997-02-28 1999-12-21 Microsoft Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge
WO2006102122A2 (en) * 2005-03-18 2006-09-28 Wink Technologies, Inc. Search engine that applies feedback from users to improve search results
CN101169797B (zh) * 2007-11-30 2010-04-07 朱廷劭 一种用于搜索的方法
CN101661487B (zh) * 2008-08-27 2012-08-08 国际商业机器公司 对信息项进行搜索的方法和系统
CN101968799B (zh) * 2010-09-21 2012-02-08 百度在线网络技术(北京)有限公司 一种基于搜索引擎的用户交互方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661474A (zh) * 2008-08-26 2010-03-03 华为技术有限公司 一种搜索方法和系统
CN102081604A (zh) * 2009-11-27 2011-06-01 上海电机学院 一种用于元搜索引擎的搜索方法及其装置
US20110196733A1 (en) * 2010-02-05 2011-08-11 Wei Li Optimizing Advertisement Selection in Contextual Advertising Systems
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765345A (zh) * 2018-07-10 2020-02-07 阿里巴巴集团控股有限公司 搜索方法、装置以及设备
CN110765345B (zh) * 2018-07-10 2023-04-25 阿里巴巴集团控股有限公司 搜索方法、装置以及设备
CN117076773A (zh) * 2023-08-23 2023-11-17 上海兰桂骐技术发展股份有限公司 一种基于互联网信息的数据源筛选优化方法
CN117076773B (zh) * 2023-08-23 2024-05-28 上海兰桂骐技术发展股份有限公司 一种基于互联网信息的数据源筛选优化方法

Also Published As

Publication number Publication date
US20150379135A1 (en) 2015-12-31
JP2016505178A (ja) 2016-02-18
EP2902923A4 (en) 2016-10-26
EP2902923A1 (en) 2015-08-05
RU2015110455A (ru) 2016-10-10
CN103646092A (zh) 2014-03-19
CN103646092B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
WO2015089860A1 (zh) 基于用户参与的搜索引擎排序方法
US20200311155A1 (en) Systems for and methods of finding relevant documents by analyzing tags
US11507551B2 (en) Analytics based on scalable hierarchical categorization of web content
TWI351619B (en) Search engine that applies feedback from users to
WO2015055094A1 (zh) 筛选条件提供方法、装置和搜索方法、装置
CN102779193B (zh) 自适应个性化信息检索系统及方法
Zhong et al. Time-aware service recommendation for mashup creation in an evolving service ecosystem
Kundu et al. Formulation of a hybrid expertise retrieval system in community question answering services
Li et al. CoWS: An Internet-enriched and quality-aware Web services search engine
CN102591977A (zh) 一种对搜索结果进行排序的方法以及系统
Liu et al. How to choose appropriate experts for peer review: An intelligent recommendation method in a big data context
JP5504213B2 (ja) 興味分析方法及び興味分析装置
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
Wang et al. A personalization-oriented academic literature recommendation method
CN114820050A (zh) 一种多模型融合的用户属性预测方法
Xiong et al. A clickthrough rate prediction algorithm based on users’ behaviors
Du et al. Scientific users' interest detection and collaborators recommendation
CN106649537A (zh) 基于改进的群智能算法实现搜索引擎关键词优化技术
Gemechu et al. A framework for personalized information retrieval model
Tang Link-prediction and its application in online social networks
Thali et al. Survey on job recommendation systems using machine learning
Chen et al. Research on Content Recommendation System of Army Equipment Information Network
Rezai et al. Group recommendation in Telegram by membership graph analyzing
Chen et al. Personalized search based on learning user click history
Alqudah et al. Incorporating prioritized user preferences in search system

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14410252

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2015552986

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2013890864

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013890864

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015110455

Country of ref document: RU

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13890864

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE