WO2014094481A1 - 推送信息的方法和装置 - Google Patents

推送信息的方法和装置 Download PDF

Info

Publication number
WO2014094481A1
WO2014094481A1 PCT/CN2013/084828 CN2013084828W WO2014094481A1 WO 2014094481 A1 WO2014094481 A1 WO 2014094481A1 CN 2013084828 W CN2013084828 W CN 2013084828W WO 2014094481 A1 WO2014094481 A1 WO 2014094481A1
Authority
WO
WIPO (PCT)
Prior art keywords
query string
candidate
picture
query
string
Prior art date
Application number
PCT/CN2013/084828
Other languages
English (en)
French (fr)
Inventor
高健
陈戈
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to US14/653,589 priority Critical patent/US9589026B2/en
Publication of WO2014094481A1 publication Critical patent/WO2014094481A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Definitions

  • the present invention relates to the field of communication technologies, and in particular, to a method and apparatus for pushing information. Background technique
  • a query string with the word "picture” needs to be input on the search engine.
  • the search engine gets the query string entered on the page, looks up the picture about the Forbidden City based on the query string, and then outputs it on the page.
  • a method of pushing information comprising:
  • the corresponding picture is output on the webpage according to the specified query string.
  • an apparatus for pushing information comprising:
  • An obtaining module configured to obtain a specified query string input on a webpage
  • a matching module configured to match the specified query string with a query string in the query string candidate set, where the query string in the query string candidate set is a query string with a picture orientation
  • a picture output module configured to: when the query string candidate set has a query string that matches the specified query string, output a corresponding picture on the webpage according to the specified query string.
  • the technical solution provided in the embodiment of the present invention has the beneficial effects of: obtaining a specified query string input on a webpage; and matching the specified query string with a query string in the query string candidate set, where The query string in the query string candidate set is a query string with a picture orientation; when the query string candidate set has a query string matching the specified query string, according to the specified query string The corresponding picture is output on the webpage. If the query string is not limited to the word "picture", the matching of the specified query string with the query string of the query string candidate set can be used to know whether the specified query string has a picture orientation, thereby Provide users with more accurate image search results.
  • FIG. 1 is a flowchart of a method for pushing information provided in Embodiment 1 of the present invention
  • FIG. 2 is a flowchart of a method for pushing information provided in Embodiment 2 of the present invention
  • FIG. 3 is a third embodiment of the present invention
  • FIG. 4 is a schematic structural diagram of another apparatus for pushing information provided in Embodiment 3 of the present invention.
  • a method for pushing information including:
  • 101 Obtain a specified query string input on a webpage; 102.
  • the specified query string is matched with a query string in the query string candidate set, where the query string in the query string candidate set is a query string with a picture orientation;
  • the query string candidate set has a query string that matches the specified query string, outputting a corresponding picture on the webpage according to the specified query string.
  • the beneficial effects of the embodiment are: obtaining a specified query string input on a webpage; matching the specified query string with a query string in the query string candidate set, wherein the query character in the query string candidate set The string is a query string with a picture orientation; when the query string candidate set has a query string matching the specified query string, the corresponding image is output on the webpage according to the specified query string. . If the query string is matched with the query string in the query string candidate set, it is possible to know whether the specified query string has a picture orientation, and thus Provide users with more accurate image search results.
  • Embodiment 2 is possible to know whether the specified query string has a picture orientation, and thus Provide users with more accurate image search results.
  • a method for pushing information is provided, and a query string having a picture orientation on a webpage is searched.
  • a user searches for the query string on a webpage
  • the first page of the search result is displayed.
  • the result of the picture box (picture frame), making it easy for users to view the picture results.
  • a query string with a picture orientation means that the user wants to see the result of the picture when searching for the query string.
  • a picture box is a form of displaying a picture in a web search.
  • the picture can be scaled to a certain ratio, and a plurality of pictures can be displayed horizontally in one display frame, or multiple pictures can be displayed vertically, and the specific form is implemented.
  • the method flow includes:
  • the step of preprocessing the historical query string on the webpage to obtain a query string candidate set includes:
  • the historical query string on the webpage is counted, the number of searches for each query string is obtained, and the query string whose search times are higher than the first threshold is selected.
  • the first threshold and the second threshold may be set according to an empirical value, which is not specifically limited in this embodiment.
  • the centralized query string is filtered to obtain a second candidate query string set, including: obtaining search results in a specified page of each query string in the first candidate query string set, and extracting a title of each search result Obtaining a correlation score of each query string in the first candidate query string set according to a keyword included in the title and a position of the title, wherein if the title includes a preset keyword and the Positioning the title before the first specified position in the search result or at the first specified position, accumulating the relevant score of the query string by a third threshold, if the position of the title is in the After a specified location, the correlation score of the query string is accumulated to a fourth threshold, and the third threshold is greater than the fourth threshold a value, the correlation score of the query string is accumulated one by one from the first search result in the specified page; screening the query string in
  • the specified page in this embodiment refers to the first page displayed on the webpage when searching according to the query string, and the title of each search result on the first page is captured, such as 6 on the first page.
  • the search results grab the title of each search result, and determine whether each title contains a preset key.
  • Words where the default keywords refer to keywords with a tendency to picture, such as the National Emblem, the Forbidden City, and so on.
  • the first designated location, the second designated location, the third threshold, the fourth threshold, the fifth threshold, and the sixth threshold may be set according to an actual search situation in the webpage, which is not in this embodiment. Make specific limits.
  • the first designated position is set to 3, the second specified position is 5, the third threshold is 2, the fourth threshold is 1, the fifth threshold is 3, and the sixth threshold is 30%.
  • the relevant scores of the query string are accumulated one by one from the head of the first search result on the first page, and the initial score of the relevant score is 0.
  • a total of 2 points is added.
  • the title of the second search result includes any one of the preset keywords
  • a total of 2 points is added.
  • no points are added.
  • a total of 1 point is added.
  • a total of 1 point is added.
  • the correlation score is 6, and the correlation score in the third position is 6, which is greater than the fifth threshold 3.
  • the query string is retained, and the number of titles of the preset keyword included in the search result of the query string is 4. Article, greater than 30% of the total number of titles. The query string is thus added to the second candidate query string set.
  • the number of preset keywords included in each query string in the second candidate query string set is obtained, that is, each query string included in the second candidate query string set is included.
  • the number of preset keywords is counted.
  • the second candidate query character is obtained according to the correlation score of each query string in the second candidate query string set and the number of preset keywords included in each query string.
  • the string propensity score for each query string in the string set including:
  • the picture propensity score of the query string is set to be zero
  • the preset keywords included in the query string are set.
  • the number is an eighth threshold, and according to the 2* eighth threshold* the relevant score of the query string/the length of the query string, the picture propensity score of the query string is obtained;
  • the correlation score of the query string in the second candidate query string set is greater than zero, and the number of preset keywords included in the query string is equal to zero, setting a preset keyword included in the query string
  • the number is a ninth threshold, and according to the 2* ninth threshold* the relevant score of the query string/the length of the query string, the picture propensity score of the query string is obtained.
  • the seventh threshold, the eighth threshold, and the ninth threshold may be set according to an actual search situation in the webpage, where the calculation method of the query string correlation score and the second candidate query string set are according to the foregoing
  • the seventh threshold may be set to 1.5
  • the eighth threshold is set to 1.5
  • the ninth threshold is set to 1.
  • the relevant score may be further defined.
  • the maximum and minimum values such as setting the maximum value of the correlation score to 2, the minimum value to 0.01, and when the calculated correlation score exceeds 2, the correlation score is set to 2, when the calculated correlation score is less than At 0.01, the correlation score is set to 0.01 for unified management.
  • the query string is added to the query string candidate set, and further includes: according to the query The string candidate sets the click rate of the search result in the specified page of the query string, and corrects the picture propensity score of the query string in the query string candidate set.
  • the image propensity score is corrected to ensure that the query string in the query string candidate set is a query string that is really prone to the image, and the query string in which the image in the query string candidate set tends to be less strong is filtered out.
  • the picture propensity score of the query string in the query string candidate set is performed.
  • the correction includes: obtaining, according to a click rate of the search result in the specified page of the query string of the query string candidate set, an average click rate of the location of each search result in the specified page; according to each of the specified pages
  • the average click rate of the location of the search results is the standard click rate of the location of each search result
  • the search result in the specified page is the click rate of the image, according to the click rate of the image and each of the specified pages
  • the standard click rate of the location of the search result, the specified position of the picture is obtained; ⁇ according to the specified position of the picture and the original position of the picture, the picture propensity score of the query string in the query string candidate set is corrected .
  • the average click rate of the location of each search result in the specified page is obtained according to the click rate of the search result in the specified page of the query string candidate set in the query string candidate set, including: counting all searches in the specified page.
  • the click rate of the resulting location the click rate of the location of each search result is divided by the click rate of the location of all the search results, and the average click rate of the location of each search result is obtained.
  • the standard click rate of the location of each search result is obtained according to the average click rate of the location of each search result in the specified page, including: setting the standard click rate of the location of each search result as the average click rate t Times. For example, if the average click rate of the location of the first search result is 0.5, the standard click rate of the location of the search result is 0.5t, where t is a number greater than 1, such as 1.5, 1.6, 1.8, 2, etc., This embodiment is not specifically limited.
  • the correction of the picture propensity score of the query string is discarded.
  • the specified position of the image is the position in the search result that is the standard clickthrough rate of the image's clickthrough rate for each search result in the specified page.
  • the standard click rate of each search result is 0.5, 0.4, 0.3, 0.2, and the search result is 0.36, and the specified position of the image is between 0.4 and 0.3.
  • the specified position of the picture and the original position of the picture are corrected for the picture propensity score of the query string in the query string candidate set, including:
  • the picture propensity score is corrected according to the added value of the picture propensity score or the decrease value of the picture propensity score.
  • the tenth threshold and the eleventh threshold may be set according to actual search conditions in the webpage, such as setting the tenth threshold to 0.02, 0.025, and the like.
  • the eleventh threshold is set to 0.05, 0.055, etc., which is not specifically limited in this embodiment.
  • steps 201-202 are steps that need to be performed when the query string is not mined before the user inputs the query string. If the query string is already drilled when the user inputs the query string. You do not need to repeat this step.
  • the matching in this embodiment is not limited to the full text matching, when the specified query string contains a query string in the query string candidate set, or the specified query string is included in the query string candidate.
  • a certain query string is in the set, it is also counted as a query string matching the specified query string in the query string candidate set, which is not specifically limited in this embodiment.
  • the query string candidate set has a query string that matches the specified query string, it is confirmed that the specified query string is a string with a picture orientation, and the search result of the query string is specified.
  • the first page is preferably outputting a picture box for the user to browse.
  • the query string candidate set does not have a query string that matches the specified query string, it is confirmed that the specified query string is a string that does not have a picture orientation, and the corresponding text search result is output on the webpage, This is not repeated in this embodiment.
  • the beneficial effects of the embodiment are: obtaining a specified query string input on a webpage; matching the specified query string with a query string in the query string candidate set, wherein the checking The query string in the query string candidate set is a query string with a picture orientation; when the query string candidate set has a query string matching the specified query string, according to the specified query string The corresponding picture is output on the webpage. If the query string is matched with the query string in the query string candidate set, it is possible to know whether the specified query string has a picture orientation, and thus Provide users with more accurate image search results.
  • the same threshold may be specified for each position in the search result for the title, without distinguishing whether it is before the first specified position, thereby obtaining the designation from the specified
  • Each search result in the page begins to accumulate the associated scores of the query string one by one.
  • the query string candidate set is not limited to being obtained by preprocessing the historical query string on the webpage in the manner of the second embodiment, or may be performed according to other manners, for example, by using each query string in the past.
  • the search history contains the "picture" record for analysis.
  • the apparatus includes: an obtaining module 301, a matching module 302, and a picture output module 303.
  • the obtaining module 301 is configured to obtain a specified query string input on the webpage;
  • the matching module 302 is configured to match the specified query string with the query string in the query string candidate set, where the query string in the query string candidate set is a query string with a picture tendency;
  • the picture output module 303 is configured to: when the query string candidate set has a query string that matches the specified query string, output a corresponding picture on the webpage according to the specified query string.
  • the apparatus further includes:
  • the query string candidate set obtaining module 304 is configured to preprocess the historical query string on the webpage to obtain the query string candidate set before the obtaining module 301 obtains the specified query string input on the webpage.
  • the query string candidate set obtaining module 304 includes: a first screening unit 304a, configured to filter the historical query string according to the number of searches of the historical query string in the webpage, to obtain the first a candidate query string set, where the number of searches for each query string in the first candidate query string set is greater than a first threshold;
  • a second screening unit 304b configured to acquire a correlation score of each query string in the first candidate query string set, and according to the correlation score of each query string in the first candidate query string set A query string in a candidate query string set is filtered to obtain a second candidate query string set;
  • the picture propensity score obtaining unit 304c is configured to acquire the number of preset keywords included in each query string in the second candidate query string set, and set each query character according to the second candidate query string set. a correlation score of the string and a number of preset keywords included in each of the query strings, to obtain a picture propensity score of each query string in the second candidate query string set;
  • the query string candidate set obtaining unit 304d is configured to add a query string whose picture propensity score of the query string in the second candidate query string set is greater than the second threshold to the query string candidate set.
  • the second selection unit 304b includes:
  • An extraction subunit configured to obtain search results in a specified page of each query string in the first candidate query string set, and extract a title of each search result
  • a correlation score calculation subunit configured to obtain, according to a keyword included in the title and a position of the title, a correlation score of each query string in the first candidate query string set, wherein, if the title includes Presetting a keyword and the position of the title before the first specified position in the search result or at the first specified position, accumulating the relevant score of the query string by a third threshold, if After the position of the title is after the first specified position, the relevant score of the query string is accumulated to a fourth threshold, the third threshold is greater than the fourth threshold, and the relevant score of the query string is from the The first search result in the specified page begins to accumulate one by one;
  • a filtering subunit for screening a query string in the first candidate query string set Selecting, when the score of the query string in the first candidate query string set at the second specified position is less than a fifth threshold, discarding the query string, when the search result in the specified page includes the When the number of titles of the preset keyword is less than the sixth threshold, the query string is discarded, and the filtered second candidate query string set is obtained.
  • the picture propensity score obtaining unit is specifically configured to:
  • the picture propensity score of the query string is set to be zero
  • the image propensity score of the query string is set to be seventh. Threshold value
  • the preset keywords included in the query string are set.
  • the number is an eighth threshold, and according to the 2* eighth threshold* the relevant score of the query string/the length of the query string, the picture propensity score of the query string is obtained;
  • the correlation score of the query string in the second candidate query string set is greater than zero, and the number of preset keywords included in the query string is equal to zero, setting a preset keyword included in the query string
  • the number is a ninth threshold, and according to the 2* ninth threshold* the relevant score of the query string/the length of the query string, the picture propensity score of the query string is obtained.
  • the query string candidate set obtaining module 304 further includes: a modifying unit 304e, configured to query the second candidate query string in the query character set by the query string candidate set obtaining unit 304d After the query string of the string propensity score greater than the second threshold is added to the query string candidate set, according to the click rate of the search result in the specified page of the query string candidate set, the query string is The picture propensity score of the query string in the candidate set is corrected.
  • a modifying unit 304e configured to query the second candidate query string in the query character set by the query string candidate set obtaining unit 304d After the query string of the string propensity score greater than the second threshold is added to the query string candidate set, according to the click rate of the search result in the specified page of the query string candidate set, the query string is The picture propensity score of the query string in the candidate set is corrected.
  • the correcting unit 304e includes:
  • An average click rate acquisition subunit configured to obtain an average click rate of a location of each search result in the specified page according to a click rate of the search result in the specified page of the query string candidate set in the query string candidate set;
  • a standard click rate acquisition subunit for obtaining a standard click rate of the location of each search result according to an average click rate of the location of each search result in the specified page
  • a location obtaining sub-unit configured to collect a click rate of the search result in the specified page as a picture, and obtain the picture according to a click rate of the picture and a standard click rate of a location of each search result in the specified page.
  • a correction subunit configured to correct a picture propensity score of the query string of the query string candidate set according to the specified position of the picture and the original position of the picture.
  • the modifying subunit is specifically configured to:
  • the picture propensity score is corrected based on the added value of the picture propensity score or the decrease value of the picture propensity score.
  • the beneficial effects of the embodiment are: obtaining a specified query string input on a webpage; matching the specified query string with a query string in the query string candidate set, wherein the query character in the query string candidate set The string is a query string with a picture orientation; when the query string candidate set has a query string matching the specified query string, the corresponding query string is outputted on the webpage according to the specified query string. image. If the query string is matched with the query string in the query string candidate set, it is possible to know whether the specified query string has a picture orientation, and thus Provide users with more accurate image search results.
  • the device for pushing information provided in the foregoing embodiment is only exemplified by the division of each functional module, and in actual application, the function distribution may be completed by different functional modules as needed, that is, the device is The internal structure is divided into different functional modules to perform all or part of the functions described above.
  • the device for pushing information and the method for pushing information provided in the above embodiments are in the same concept, and the specific implementation process is described in detail in the method embodiment, and details are not described herein again.

Abstract

本发明公开了推送信息的方法和装置,属于通信技术领域。所述方法包括:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。本发明不限定查询字符串中是否带有"图片"字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。

Description

推送信息的方法和装置 技术领域
本发明涉及通信技术领域, 特别涉及推送信息的方法和装置。 背景技术
随着搜索引擎的发展, 更加方便了用户在网页上搜索信息, 其中怎样为 用户提供准确的搜索结果是每个网站需要解决的问题。
现有技术中, 当用户想在网页中搜索图片时, 需要在搜索引擎上输入带 有 "图片" 字样的查询字符串 (Query ), 例如, 用户想浏览故宫的图片, 则 需要输入 "故宫图片" 这样的字符串, 搜索引擎获取网页上输入的查询字符 串, 根据查询字符串查找关于故宫的图片, 然后在网页上输出。
现有技术中在输出图片的搜索结果时, 需要用户输入带有 "图片"字样 的查询字符串, 但用户输入的很多查询字符串均不带有 "图片" 字样, 虽然 查询字符串不带有 "图片" 字样, 但用户还是希望能得到图片的搜索结果, 例如, 用户输入 "中国国徽", 这种查询字符串虽然没有 "图片" 字样, 但 是用户会 4艮希望能得到中国国徽图片的搜索结果。所以怎样根据用户输入的 查询字符串为用户提供准确的图片搜索结果是需要解决的问题。 发明内容
为了能够为用户提供更准确的图片搜索结果,本发明实施例中提供了推 送信息的方法和装置。 所述技术方案如下:
一方面, 提供了一种推送信息的方法, 所述方法包括:
获取网页上输入的指定查询字符串;
将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符 串;
当所述查询字符串候选集中有与所述指定查询字符串匹配的查询字符 串时, 根据所述指定查询字符串在所述网页上输出相应的图片。
另一方面, 提供了一种推送信息的装置, 所述装置包括:
获取模块, 用于获取网页上输入的指定查询字符串; 匹配模块,用于将所述指定查询字符串与查询字符串候选集中的查询字 符串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾 向的查询字符串;
图片输出模块,用于当所述查询字符串候选集中有与所述指定查询字符 串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的 图片。
本发明实施例中提供的技术方案带来的有益效果是:获取网页上输入的 指定查询字符串; 将所述指定查询字符串与查询字符串候选集中的查询字符 串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾向 的查询字符串; 当所述查询字符串候选集中有与所述指定查询字符串匹配的 查询字符串时, 根据所述指定查询字符串在所述网页上输出相应的图片。 其 中, 不限定查询字符串中是否带有 "图片" 字样, 将所述指定查询字符串与 查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串 是否带有图片倾向, 从而为用户提供更准确的图片搜索结果。 附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中 所需要使用的附图作筒单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的 前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例一中提供的一种推送信息的方法的流程图; 图 2是本发明实施例二中提供的一种推送信息的方法的流程图; 图 3是本发明实施例三中提供的一种推送信息的装置的结构示意图; 图 4是本发明实施例三中提供的另一种推送信息的装置的结构示意图。 具体实施方式
为使本发明的目的、技术方案和优点更加清楚, 下面将结合附图对本发 明实施方式作进一步地详细描述。
实施例一
参见图 1 , 本实施例中提供了一种推送信息的方法, 包括:
101、 获取网页上输入的指定查询字符串; 102、 将所述指定查询字符串与查询字符串候选集中的查询字符串进行 匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾向的查询 字符串;
103、 当所述查询字符串候选集中有与所述指定查询字符串匹配的查询 字符串时, 根据所述指定查询字符串在所述网页上输出相应的图片。
本实施例的有益效果是: 获取网页上输入的指定查询字符串; 将所述指 定查询字符串与查询字符串候选集中的查询字符串进行匹配, 其中, 所述查 询字符串候选集中的查询字符串是带有图片倾向的查询字符串; 当所述查询 字符串候选集中有与所述指定查询字符串匹配的查询字符串时,根据所述指 定查询字符串在所述网页上输出相应的图片。 其中, 不限定查询字符串中是 否带有 "图片" 字样, 将所述指定查询字符串与查询字符串候选集中的查询 字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用 户提供更准确的图片搜索结果。 实施例二
本发明实施例中提供了一种推送信息的方法,对网页上具有图片倾向的 查询字符串进行挖掘, 当用户在网页上搜索该查询字符串时, 搜索结果的第 一页中将会展示出图片 box (图片框)的结果, 从而方便用户查看图片结果。 其中, 具有图片倾向的查询字符串是指用户在搜索这个查询字符串的时候, 希望看到图片结果。 图片 box是在网页搜索中展现图片一种形式, 如, 可以 将图片缩放到一定比例, 在一个显示框内横向拉开展示多张图片, 或是纵向 展示多张图片, 对其具体形式本实施例不做具体限定。 参见图 2, 方法流程 包括:
201、对网页上的历史查询字符串进行预处理, 获取查询字符串候选集。 本实施例中,挖掘网页上具有图片倾向的查询字符串, 并将这些具有图 片倾向的查询字符串进行统一管理, 使得用户在输入这些查询字符串时, 能 够准确输出图片 box。具体的,所述对网页上的历史查询字符串进行预处理, 获取查询字符串候选集, 包括:
1 )根据网页中历史查询字符串的搜索次数对所述历史查询字符串进行 筛选, 得到第一候选查询字符串集, 其中, 所述第一候选查询字符串集中的 每个查询字符串的搜索次数大于第一阈值; 2 )获取所述第一候选查询字符串集中每个查询字符串的相关分数, 并 根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一 候选查询字符串集中的查询字符串进行筛选, 得到第二候选查询字符串集;
3 )获取所述第二候选查询字符串集中的每个查询字符串包含的预设关 键词的个数, 并根据所述第二候选查询字符串集中每个查询字符串的相关分 数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询 字符串集中每个查询字符串的图片倾向分数;
4 )将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第 二阈值的查询字符串加入到查询字符串候选集中。
本步骤中, 对网页上的历史查询字符串进行统计,得到每个查询字符串 的搜索次数, 并选取搜索次数高于第一阈值的查询字符串。 其中第一阈值和 第二阈值可以根据经验值进行设定, 对此本实施例不做具体限定。
具体的, 获取所述第一候选查询字符串集中每个查询字符串的相关分 数, 并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述 第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串 集, 包括: 获取所述第一候选查询字符串集中每个查询字符串的指定页中的 搜索结果, 并提取每条搜索结果的标题; 根据所述标题中包含的关键词和所 述标题的位置得到所述第一候选查询字符串集中每个查询字符串的相关分 数, 其中, 如果所述标题中包含预设关键词且所述标题的位置在所述搜索结 果中的第一指定位置之前或在所述第一指定位置上, 则将所述查询字符串的 相关分数累加第三阈值, 如果所述标题的位置在所述第一指定位置之后, 则 将所述查询字符串的相关分数累加第四阈值, 所述第三阈值大于所述第四阈 值, 所述查询字符串的相关分数从所述指定页中的第一条搜索结果逐条向下 累加; 对所述第一候选查询字符串集中的查询字符串进行筛选, 当所述第一 候选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值 时, 则丟弃该查询字符串, 当所述指定页中搜索结果中包含所述预设关键词 的标题数小于第六阈值时, 则丟弃该查询字符串, 得到筛选后的第二候选查 询字符串集。
优选地, 本实施例中的指定页是指根据查询字符串进行搜索时, 在网页 上展现的第一页, 抓取第一页上的每条搜索结果的标题, 如第一页上有 6条 搜索结果, 则抓取每条搜索结果的标题, 判断每个标题中是否包含预设关键 词, 其中预设关键词是指带有图片倾向的关键词, 例如, 国徽、 故宫等。 本 实施例中, 第一指定位置、 第二指定位置、 第三阈值、 第四阈值、 第五阈值 和第六阈值, 可以根据网页中的实际搜索情况进行设定, 对此本实施例中不 做具体限定。
为使本领域技术人员更加清楚的了解本发明实施例中的查询字符串相 关分数的计算方法和第二候选查询字符串集的筛选方法, 现举例如下:
设定第一指定位置为 3 , 第二指定位置为 5 , 第三阈值为 2, 第四阈值 为 1 , 第五阈值为 3 , 第六阈值为 30%。
对查询字符串 "故宫" 进行搜索, 得到 6条搜索结果, 从第一页中的第 一条搜索结果的标题开始逐条向下累加查询字符串的相关分数,相关分数初 始值为 0。 当第一条搜索结果的标题中包括任意一个预设关键词时, 则累计 加 2分, 当第二条搜索结果的标题中包括任意一个预设关键词时, 则累计加 2分, 当第三条搜索结果的标题中不包括任意一个预设关键词时,则不加分, 当第四条搜索结果的标题中包括任意一个预设关键词时, 则累计加 1分, 当 第五条搜索结果的标题中包括任意一个预设关键词时, 则累计加 1分, 当第 六条搜索结果的标题中不包括任意一个预设关键词时, 则不加分, 从而得到 该查询字符串的相关分数为 6, 其在第三位置上的相关分数为 6, 大于第五 阈值 3 , 则保留该查询字符串, 且该查询字符串的搜索结果中包含预设关键 词的标题数为 4条, 大于总标题数的 30%。 从而将该查询字符串加入到第二 候选查询字符串集中。
本实施例中,获取所述第二候选查询字符串集中的每个查询字符串包含 的预设关键词的个数, 即对所述第二候选查询字符串集中的每个查询字符串 包含的预设关键词的数量进行统计。
本步骤中具体的,根据所述第二候选查询字符串集中每个查询字符串的 相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候 选查询字符串集中每个查询字符串的图片倾向分数, 包括:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分 数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该 查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾 向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关 键词的个数为第八阈值,根据 2*第八阈值 *该查询字符串的相关分数 /该查询 字符串的长度, 得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该 查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预 设关键词的个数为第九阈值, 根据 2*第九阈值 *该查询字符串的相关分数 / 该查询字符串的长度, 得到该查询字符串的图片倾向分数。
上述, "*" 表示做乘法的运算, "/" 表示做除法的运算。
本实施例中, 第七阈值、 第八阈值、 第九阈值, 可以根据网页中的实际 搜索情况进行设定, 其中根据上述对查询字符串相关分数的计算方法和第二 候选查询字符串集的筛选方法的举例说明中, 在此可以将第七阈值设置为 1.5 , 第八阈值设置为 1.5 , 第九阈值设置为 1 , 当然此处只是举例说明, 在 本实施例中, 可以进一步限定相关分数的最大值和最小值, 如将相关分 数的最大值设置为 2, 最小值设置为 0.01 , 当计算出来的相关分数超过 2时, 则将该相关分数设置为 2, 当计算出来的相关分数小于 0.01时, 则将该相关 分数设置为 0.01 , 以便于统一管理。
202、 根据所述查询字符串候选集中查询字符串的指定页中的搜索结果 的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修 正。
本实施例中, 可选地, 将所述第二候选查询字符串集中查询字符串的图 片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中之后,还 包括: 根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点 击率, 对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。 其中,对图片倾向分数进行修正是为了保证查询字符串候选集中的查询字符 串是真正有图片倾向的查询字符串,过滤掉查询字符串候选集中那一些图片 倾向不强的查询字符串。
具体的,根据所述查询字符串候选集中查询字符串的指定页中的搜索结 果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行 修正, 包括: 根据所述查询字符串候选集中查询字符串的指定页中的搜索结 果的点击率, 得到所述指定页中每个搜索结果的位置的平均点击率; 根据所 述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的 标准点击率; 统计所述指定页中搜索结果为图片的点击率, 根据所述图片的 点击率和所述指定页中每个搜索结果的位置的标准点击率,得到所述图片的 指定位置; ^据所述图片的指定位置和所述图片的原始位置, 对所述查询字 符串候选集中查询字符串的图片倾向分数进行修正。
其中,根据所述查询字符串候选集中查询字符串的指定页中的搜索结果 的点击率, 得到所述指定页中每个搜索结果的位置的平均点击率, 包括: 统 计指定页中的所有搜索结果的位置的点击率, 用每条搜索结果的位置的点击 率除以所述所有搜索结果的位置的点击率,得到每个搜索结果的位置的平均 点击率。
进一步地,根据所述指定页中每个搜索结果的位置的平均点击率得到每 个搜索结果的位置的标准点击率, 包括: 设置每个搜索结果的位置的标准点 击率为平均点击率的 t倍。例如,第一条搜索结果的位置的平均点击率为 0.5 , 则该条搜索结果的位置的标准点击率为 0.5t, 其中 t为大于 1的数, 如 1.5 , 1.6, 1.8, 2等, 对此本实施例不做具体限定。
本实施例中, 对于统计到的出现过图片 box的查询字符串, 如果该查询 字符串的点击率小于预设阈值, 则放弃对该查询字符串的图片倾向分数的修 正。 图片的指定位置是指搜索结果为图片的点击率在指定页中每个搜索结果 的位置的标准点击率中的位置。例如每个搜索结果的位置的标准点击率依次 为 0.5、 0.4、 0.3、 0.2, 搜索结果为图片的点击率为 0.36, 则图片的指定位置 就是 0.4与 0.3之间的位置。
进一步地, 所述 居所述图片的指定位置和所述图片的原始位置, 对所 述查询字符串候选集中查询字符串的图片倾向分数进行修正, 包括:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的增加值, 其中, 所述增加值为第十阈值 * (所述图片的 原始位置-所述图片的指定位置);
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的减小值, 其中, 所述减小值为第十一阈值 * (所述图片 的指定位置-所述图片的原始位置); 根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述 图片倾向分数进行修正。
上述, "*" 表示做乘法的运算, "-" 表示做减法运算。
其中, 在图片倾向分数的基础上加上增加值或是减去减少值, 已对图片 倾向分数进行修正, 以得到准确的具有图片倾向的查询字符串。 第十阈值和 第十一阈值可以根据网页中的实际搜索情况进行设定,如将第十阈值设置为 0.02、 0.025等。 将第十一阈值设置为 0.05 , 0.055等, 对此本实施例不做具 体限定。
值得说明的是, 步骤 201-202是在用户输入查询字符串之前还未对查询 字符串进行挖掘时需要执行的步骤,如果当用户输入查询字符串时已经对网 页上的查询字符串进行了挖掘则不需要重复执行该步骤。
203、 获取网页上输入的指定查询字符串, 将所述指定查询字符串与查 询字符串候选集中的查询字符串进行匹配。
本步骤中, 在对网页上的查询字符串进行挖掘之后, 当获取到用户在网 页上输入的指定查询字符串,将该指定查询字符串与查询字符串候选集中的 查询字符串进行匹配, 以确认该指定查询字符串是否具有图片倾向。
本实施例中的匹配并不局限于完全意义上的文字匹配,当指定查询字符 串中包含有查询字符串候选集中的某个查询字符串时, 或是指定查询字符串 包含在查询字符串候选集中的某个查询字符串中时,也算作查询字符串候选 集中有与所述指定查询字符串匹配的查询字符串,对此本实施例并不做具体 限定。
204、 当所述查询字符串候选集中有与所述指定查询字符串匹配的查询 字符串时, 根据所述指定查询字符串在所述网页上输出相应的图片。
本步骤中,当所述查询字符串候选集中有与所述指定查询字符串匹配的 查询字符串时, 则确认该指定查询字符串为具有图片倾向的字符串, 在指定 查询字符串搜索结果的第一页上优选输出图片 box, 以供用户浏览。
当所述查询字符串候选集中没有与所述指定查询字符串匹配的查询字 符串时, 则确认该指定查询字符串为不具有图片倾向的字符串, 在网页上输 出相应的文字搜索结果, 对此本实施例中不再赘述。
本实施例的有益效果是: 获取网页上输入的指定查询字符串; 将所述指 定查询字符串与查询字符串候选集中的查询字符串进行匹配, 其中, 所述查 询字符串候选集中的查询字符串是带有图片倾向的查询字符串; 当所述查询 字符串候选集中有与所述指定查询字符串匹配的查询字符串时,根据所述指 定查询字符串在所述网页上输出相应的图片。 其中, 不限定查询字符串中是 否带有 "图片" 字样, 将所述指定查询字符串与查询字符串候选集中的查询 字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用 户提供更准确的图片搜索结果。
这里, 本领域技术人员可以理解, 在上述实施例二中提到的各种计算方 式及相应的计算公式仅是示例, 本发明实施例并不限于上述实施例二中所提 到的特定方式。
例如, 在计算每个查询字符串的相关分数时, 可以为所述标题在所述搜 索结果中的各个位置指定相同的阈值, 而不区分是否在第一指定位置之前, 从而获得从所述指定页中的每条搜索结果开始逐条向下累加的所述查询字 符串的相关分数。
此外,计算每个查询字符串的图片倾向分数以及对查询字符串的图片倾 向分数进行修正也可以有其它的方式, 而并不仅限于上述实施例二中所提到 的方式。
进一步,所述查询字符串候选集也并不限于以实施例二的方式对网页上 的历史查询字符串进行预处理而获得, 也可以根据其它方式, 例如, 通过对 每个查询字符串在过去的搜索历史中包含 "图片" 的记录进行分析而获得。 实施例三
参见图 3 , 本发明实施例中提供了一种推送信息的装置, 该装置包括: 获取模块 301、 匹配模块 302和图片输出模块 303。
获取模块 301 , 用于获取网页上输入的指定查询字符串;
匹配模块 302, 用于将所述指定查询字符串与查询字符串候选集中的查 询字符串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图 片倾向的查询字符串;
图片输出模块 303 , 用于当所述查询字符串候选集中有与所述指定查询 字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相 应的图片。
可选地, 参见图 4, 所述装置还包括: 查询字符串候选集获取模块 304, 用于在所述获取模块 301获取网页上 输入的指定查询字符串之前, 对网页上的历史查询字符串进行预处理, 获取 查询字符串候选集。
参见图 4, 进一步地, 所述查询字符串候选集获取模块 304, 包括: 第一筛选单元 304a, 用于根据网页中历史查询字符串的搜索次数对所 述历史查询字符串进行筛选, 得到第一候选查询字符串集, 其中, 所述第一 候选查询字符串集中的每个查询字符串的搜索次数大于第一阈值;
第二筛选单元 304b, 用于获取所述第一候选查询字符串集中每个查询 字符串的相关分数, 并根据所述第一候选查询字符串集中每个查询字符串的 相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二 候选查询字符串集;
图片倾向分数获取单元 304c, 用于获取所述第二候选查询字符串集中 的每个查询字符串包含的预设关键词的个数, 并根据所述第二候选查询字符 串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键 词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分 数;
查询字符串候选集获取单元 304d, 用于将所述第二候选查询字符串集 中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符 串候选集中。
其中, 所述第二 选单元 304b, 包括:
提取子单元,用于获取所述第一候选查询字符串集中每个查询字符串的 指定页中的搜索结果, 并提取每条搜索结果的标题;
相关分数计算子单元,用于根据所述标题中包含的关键词和所述标题的 位置得到所述第一候选查询字符串集中每个查询字符串的相关分数, 其中, 如果所述标题中包含预设关键词且所述标题的位置在所述搜索结果中的第 一指定位置之前或在所述第一指定位置上, 则将所述查询字符串的相关分数 累加第三阈值, 如果所述标题的位置在所述第一指定位置之后, 则将所述查 询字符串的相关分数累加第四阈值, 所述第三阈值大于所述第四阈值, 所述 查询字符串的相关分数从所述指定页中的第一条搜索结果开始逐条向下累 加;
筛选子单元,用于对所述第一候选查询字符串集中的查询字符串进行筛 选, 当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数 小于第五阈值时, 则丟弃该查询字符串, 当所述指定页中搜索结果中包含所 述预设关键词的标题数小于第六阈值时, 则丟弃该查询字符串, 得到筛选后 的第二候选查询字符串集。
其中, 所述图片倾向分数获取单元具体用于:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分 数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该 查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾 向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关 键词的个数为第八阈值,根据 2*第八阈值 *该查询字符串的相关分数 /该查询 字符串的长度, 得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该 查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预 设关键词的个数为第九阈值, 根据 2*第九阈值 *该查询字符串的相关分数 / 该查询字符串的长度, 得到该查询字符串的图片倾向分数。
参见图 4, 可选地, 所述查询字符串候选集获取模块 304还包括: 修正单元 304e, 用于在所述查询字符串候选集获取单元 304d将所述第 二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字 符串加入到查询字符串候选集中之后,根据所述查询字符串候选集中查询字 符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字 符串的图片倾向分数进行修正。
其中, 所述修正单元 304e, 包括:
平均点击率获取子单元,用于根据所述查询字符串候选集中查询字符串 的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的 平均点击率;
标准点击率获取子单元,用于根据所述指定页中每个搜索结果的位置的 平均点击率得到每个搜索结果的位置的标准点击率; 位置获取子单元, 用于统计所述指定页中搜索结果为图片的点击率, 根 据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得 到所述图片的指定位置;
修正子单元, 用于根据所述图片的指定位置和所述图片的原始位置, 对 所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
本实施例中, 所述修正子单元具体用于:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述 图片倾向分数进行修正。
本实施例的有益效果是: 获取网页上输入的指定查询字符串; 将所述指 定查询字符串与查询字符串候选集中的查询字符串进行匹配, 其中, 所述查 询字符串候选集中的查询字符串是带有图片倾向的查询字符串; 当所述查询 字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述 指定查询字符串在所述网页上输出相应的图片。 其中, 不限定查询字符串中 是否带有 "图片" 字样, 将所述指定查询字符串与查询字符串候选集中的查 询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为 用户提供更准确的图片搜索结果。
需要说明的是: 上述实施例中提供的推送信息的装置,仅以上述各功能 模块的划分进行举例说明, 实际应用中, 可以根据需要而将上述功能分配由 不同的功能模块完成, 即将装置的内部结构划分成不同的功能模块, 以完成 以上描述的全部或者部分功能。
另外,上述实施例中提供的推送信息的装置与推送信息的方法实施例属 于同一构思, 其具体实现过程详见方法实施例, 这里不再赘述。
上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以 通过硬件来完成, 也可以通过程序来指令相关的硬件完成, 所述的程序可以 存储于一种计算机可读存储介质中, 上述提到的存储介质可以是只读存储 器, 磁盘或光盘等。 以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明 的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发 明的保护范围之内。

Claims

权利要求书
1. 一种推送信息的方法, 包括:
获取网页上输入的指定查询字符串;
将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符 串;
当所述查询字符串候选集中有与所述指定查询字符串匹配的查询字符 串时, 根据所述指定查询字符串在所述网页上输出相应的图片。
2. 根据权利要求 1所述的方法, 其中, 所述获取网页上输入的指定查 询字符串之前, 还包括:
对网页上的历史查询字符串进行预处理, 获取所述查询字符串候选集。
3. 根据权利要求 2所述的方法, 其中, 所述对网页上的历史查询字符 串进行预处理, 获取所述查询字符串候选集, 包括:
根据网页中历史查询字符串的搜索次数对所述历史查询字符串进行筛 选, 得到第一候选查询字符串集, 其中, 所述第一候选查询字符串集中的每 个查询字符串的搜索次数大于第一阈值;
获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据 所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选 查询字符串集中的查询字符串进行筛选, 得到第二候选查询字符串集;
获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键 词的个数, 并根据所述第二候选查询字符串集中每个查询字符串的相关分数 和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字 符串集中每个查询字符串的图片倾向分数;
将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二 阈值的查询字符串加入到所述查询字符串候选集中。
4. 根据权利要求 3所述的方法, 其中, 所述获取所述第一候选查询字 符串集中每个查询字符串的相关分数, 并根据所述第一候选查询字符串集中 每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串 进行 选, 得到第二候选查询字符串集, 包括:
获取所述第一候选查询字符串集中每个查询字符串的指定页中的搜索 结果, 并提取每条搜索结果的标题;
根据所述标题中包含的关键词和所述标题的位置得到所述第一候选查 询字符串集中每个查询字符串的相关分数, 其中, 如果所述标题中包含预设 关键词且所述标题的位置在所述搜索结果中的第一指定位置之前或在所述 第一指定位置上, 则将所述查询字符串的相关分数累加第三阈值, 如果所述 标题的位置在所述第一指定位置之后, 则将所述查询字符串的相关分数累加 第四阈值, 所述第三阈值大于所述第四阈值, 所述查询字符串的相关分数从 所述指定页中的第一条搜索结果开始逐条向下累加;
对所述第一候选查询字符串集中的查询字符串进行筛选,当所述第一候 选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值时, 则丟弃该查询字符串, 当所述指定页中搜索结果中包含所述预设关键词的标 题数小于第六阈值时, 则丟弃该查询字符串, 得到筛选后的第二候选查询字 符串集。
5. 根据权利要求 3所述的方法, 其中, 所述根据所述第二候选查询字 符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关 键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向 分数, 包括:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分 数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该 查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾 向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关 键词的个数为第八阈值,根据 2*第八阈值 *该查询字符串的相关分数 /该查询 字符串的长度, 得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该 查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预 设关键词的个数为第九阈值, 根据 2*第九阈值 *该查询字符串的相关分数 / 该查询字符串的长度, 得到该查询字符串的图片倾向分数。
6. 根据权利要求 3所述的方法, 其中, 所述将所述第二候选查询字符 串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询 字符串候选集中之后, 还包括:
根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点 击率, 对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。
7. 根据权利要求 6所述的方法, 其中, 所述根据所述查询字符串候选 集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集 中的查询字符串的图片倾向分数进行修正, 包括:
根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点 击率, 得到所述指定页中每个搜索结果的位置的平均点击率;
根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结 果的位置的标准点击率;
统计所述指定页中搜索结果为图片的点击率,根据所述图片的点击率和 所述指定页中每个搜索结果的位置的标准点击率, 得到所述图片的指定位 置;
根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候 选集中查询字符串的图片倾向分数进行修正。
8. 根据所述权利要求 7所述的方法, 其中, 所述根据所述图片的指定 位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片 倾向分数进行修正, 包括:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述 图片倾向分数进行修正。
9. 一种推送信息的装置, 包括:
获取模块, 用于获取网页上输入的指定查询字符串;
匹配模块,用于将所述指定查询字符串与查询字符串候选集中的查询字 符串进行匹配, 其中, 所述查询字符串候选集中的查询字符串是带有图片倾 向的查询字符串; 图片输出模块,用于当所述查询字符串候选集中有与所述指定查询字符 串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的 图片。
10. 根据权利要求 9所述的装置, 其中, 所述装置还包括:
查询字符串候选集获取模块,用于在所述获取模块获取网页上输入的指 定查询字符串之前, 对网页上的历史查询字符串进行预处理, 获取所述查询 字符串候选集。
11. 根据权利要求 10所述的装置, 其中, 所述查询字符串候选集获取 模块, 包括:
第一筛选单元,用于根据网页中历史查询字符串的搜索次数对所述历史 查询字符串进行筛选, 得到第一候选查询字符串集, 其中, 所述第一候选查 询字符串集中的每个查询字符串的搜索次数大于第一阈值;
第二筛选单元,用于获取所述第一候选查询字符串集中每个查询字符串 的相关分数, 并根据所述第一候选查询字符串集中每个查询字符串的相关分 数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查 询字符串集;
图片倾向分数获取单元,用于获取所述第二候选查询字符串集中的每个 查询字符串包含的预设关键词的个数, 并根据所述第二候选查询字符串集中 每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个 数, 得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数; 查询字符串候选集获取单元,用于将所述第二候选查询字符串集中查询 字符串的图片倾向分数大于第二阈值的查询字符串加入到所述查询字符串 候选集中。
12. 根据权利要求 11所述的装置, 其中, 所述第二筛选单元, 包括: 提取子单元,用于获取所述第一候选查询字符串集中每个查询字符串的 指定页中的搜索结果, 并提取每条搜索结果的标题;
相关分数计算子单元,用于根据所述标题中包含的关键词和所述标题的 位置得到所述第一候选查询字符串集中每个查询字符串的相关分数, 其中, 如果所述标题中包含预设关键词且所述标题的位置在所述搜索结果中的第 一指定位置之前或在所述第一指定位置上, 则将所述查询字符串的相关分数 累加第三阈值, 如果所述标题的位置在所述第一指定位置之后, 则将所述查 询字符串的相关分数累加第四阈值, 所述第三阈值大于所述第四阈值, 所述 查询字符串的相关分数从所述指定页中的第一条搜索结果开始逐条向下累 加;
筛选子单元,用于对所述第一候选查询字符串集中的查询字符串进行筛 选, 当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数 小于第五阈值时, 则丟弃该查询字符串, 当所述指定页中搜索结果中包含所 述预设关键词的标题数小于第六阈值时, 则丟弃该查询字符串, 得到筛选后 的第二候选查询字符串集。
13. 根据权利要求 11所述的装置, 其中, 所述图片倾向分数获取单元 具体用于:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分 数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该 查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾 向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字 符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关 键词的个数为第八阈值,根据 2*第八阈值 *该查询字符串的相关分数 /该查询 字符串的长度, 得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该 查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预 设关键词的个数为第九阈值, 根据 2*第九阈值 *该查询字符串的相关分数 / 该查询字符串的长度, 得到该查询字符串的图片倾向分数。
14. 根据权利要求 11所述的装置, 其中, 所述查询字符串候选集获取 模块还包括:
修正单元,用于在所述查询字符串候选集获取单元将所述第二候选查询 字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到 查询字符串候选集中之后,根据所述查询字符串候选集中查询字符串的指定 页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片 倾向分数进行修正。
15. 根据权利要求 14所述的装置, 其中, 所述修正单元, 包括: 平均点击率获取子单元,用于根据所述查询字符串候选集中查询字符串 的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的 平均点击率;
标准点击率获取子单元,用于根据所述指定页中每个搜索结果的位置的 平均点击率得到每个搜索结果的位置的标准点击率;
位置获取子单元, 用于统计所述指定页中搜索结果为图片的点击率, 根 据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得 到所述图片的指定位置;
修正子单元, 用于根据所述图片的指定位置和所述图片的原始位置, 对 所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
16. 根据所述权利要求 15所述的装置, 其中, 所述修正子单元具体用 于:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符 串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述 图片倾向分数进行修正。
PCT/CN2013/084828 2012-12-21 2013-10-08 推送信息的方法和装置 WO2014094481A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/653,589 US9589026B2 (en) 2012-12-21 2013-10-08 Method and device for pushing information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210562496.2A CN103885979B (zh) 2012-12-21 2012-12-21 推送信息的方法和装置
CN201210562496.2 2012-12-21

Publications (1)

Publication Number Publication Date
WO2014094481A1 true WO2014094481A1 (zh) 2014-06-26

Family

ID=50954874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/084828 WO2014094481A1 (zh) 2012-12-21 2013-10-08 推送信息的方法和装置

Country Status (3)

Country Link
US (1) US9589026B2 (zh)
CN (1) CN103885979B (zh)
WO (1) WO2014094481A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909166B1 (en) * 2017-11-03 2021-02-02 Shutterstock, Inc. Reverse search with manual composition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及系统
CN102622417A (zh) * 2012-02-20 2012-08-01 北京搜狗信息服务有限公司 对信息记录进行排序的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9128945B1 (en) * 2008-05-16 2015-09-08 Google Inc. Query augmentation
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
CA2785746C (en) * 2009-12-30 2016-09-13 Nokia Corporation Methods and apparatuses for facilitating content-based image retrieval
US9087107B2 (en) * 2012-06-14 2015-07-21 Google Inc. Rank-specific search results
US20140095427A1 (en) * 2012-10-01 2014-04-03 Rimm-Kaufman Group, LLC Seo results analysis based on first order data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及系统
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置
CN102622417A (zh) * 2012-02-20 2012-08-01 北京搜狗信息服务有限公司 对信息记录进行排序的方法和装置

Also Published As

Publication number Publication date
US9589026B2 (en) 2017-03-07
CN103885979A (zh) 2014-06-25
CN103885979B (zh) 2018-06-05
US20160004700A1 (en) 2016-01-07

Similar Documents

Publication Publication Date Title
KR102080362B1 (ko) 쿼리 확장
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
US8655889B2 (en) Autonomous mobile blogging
US9448999B2 (en) Method and device to detect similar documents
TWI512506B (zh) Sorting method and device for search results
CN102156737B (zh) 一种中文网页主题内容的提取方法
CN102750390B (zh) 新闻网页要素自动提取方法
JP2013531847A (ja) インテリジェントナビゲーションの方法、装置、およびシステム
CN101984423A (zh) 一种热搜词生成方法及系统
CN103984757B (zh) 在搜索结果页上插入新闻信息条目的方法和系统
JP4367355B2 (ja) 写真画像検索装置、写真画像検索方法、記録媒体、およびプログラム
CN102831242B (zh) 搜索图片信息的方法及装置
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
WO2014090007A1 (zh) 用于获取推荐主题的方法、装置和服务器
CN106250424A (zh) 一种日志上下文内容的搜索方法、装置及系统
CN103324614A (zh) 图像识别搜索方法及装置
CN104537341A (zh) 人脸图片信息获取方法和装置
CN105550359B (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
Tran et al. Joint graphical models for date selection in timeline summarization
WO2013108157A1 (en) Grouping search results into a profile page
CN110825977A (zh) 一种数据推荐方法及相关设备
CN105574030A (zh) 一种信息搜索方法及装置
US20090024591A1 (en) Device, method and program for producing related words dictionary, and content search device
JP5367632B2 (ja) 知識量推定装置及びプログラム
WO2014094481A1 (zh) 推送信息的方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13866195

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14653589

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205N DATED 27/08/2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13866195

Country of ref document: EP

Kind code of ref document: A1