WO2015043322A1 - 引擎抓取、验证和提供网页开放式摘要的方法及装置 - Google Patents

引擎抓取、验证和提供网页开放式摘要的方法及装置 Download PDF

Info

Publication number
WO2015043322A1
WO2015043322A1 PCT/CN2014/084206 CN2014084206W WO2015043322A1 WO 2015043322 A1 WO2015043322 A1 WO 2015043322A1 CN 2014084206 W CN2014084206 W CN 2014084206W WO 2015043322 A1 WO2015043322 A1 WO 2015043322A1
Authority
WO
WIPO (PCT)
Prior art keywords
summary information
open summary
search
open
web page
Prior art date
Application number
PCT/CN2014/084206
Other languages
English (en)
French (fr)
Inventor
袁瑞峰
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201310445194.1A external-priority patent/CN103514278B/zh
Priority claimed from CN201310445238.0A external-priority patent/CN103473358B/zh
Priority claimed from CN201310445329.4A external-priority patent/CN103473359B/zh
Priority claimed from CN201310445150.9A external-priority patent/CN103473357B/zh
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Priority to US15/025,236 priority Critical patent/US20160232237A1/en
Publication of WO2015043322A1 publication Critical patent/WO2015043322A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Definitions

  • the present invention relates to the field of Internet technologies, and in particular, to a method and apparatus for engine crawling, verifying, and providing webpage open summary information.
  • the search engine When a user searches using a search engine, the search engine returns multiple search results and presents them to the user based on the search key words entered by the user.
  • different users sometimes have different preferred sites.
  • the mainstream search engine only extracts the content of the website according to the simple robots protocol (also known as crawler protocol, crawler rule, robot protocol, etc.), and provides simple information display according to the matching degree when the user searches. This makes the website information not match the user's search needs, the display effect is poor, the search result conversion rate is low, and the content cannot be verified.
  • the simple robots protocol also known as crawler protocol, crawler rule, robot protocol, etc.
  • the present invention has been made in order to provide an apparatus and apparatus for engine crawling, verifying, and providing web page open summary information that overcomes the above problems or at least partially solves or mitigates the above problems.
  • a method for a search engine to crawl webpage open summary information including: detecting, when crawling webpage information, whether an identifier of a preset open summary information is included; and detecting In the case where the webpage information includes an identifier, the protocol header describing the structure of the open summary information in the webpage information and the webpage content mapped to the structure described in the open summary information are captured.
  • an apparatus for crawling webpage open summary information by a search engine including: a detecting module, configured to detect whether a preset open summary information is included when crawling webpage information And a capture module, configured to: in a case where the detected webpage information includes the identifier, crawl a protocol header describing a structure of the open summary information in the webpage information and the structure described in the open summary information The mapped web content.
  • a computer program comprising computer readable code, when the computer readable code is run on a computer, performs the aforementioned method of crawling web page open summary information by a search engine.
  • a computer readable medium wherein the aforementioned computer program is stored.
  • a method for verifying open-type summary information of a webpage including: verifying that the open summary information is rendered in the case that the identifier of the preset open summary information is included in the webpage information is detected Whether the rendering result is successful; and verifying the format of the open summary information and/or verifying the web content of the open summary information according to a predefined rule.
  • an apparatus for verifying webpage open summary information including: a first verification module, configured to: when detecting that the webpage information includes an identifier of a preset open summary information, Verifying whether the rendering result of rendering the open summary information is successful; and a second verification module for verifying the format of the open summary information according to a predefined rule And/or verify the content of the web page of the open summary information.
  • a computer program comprising computer readable code, when the computer readable code is run on a computer, performs the aforementioned method of verifying web page open summary information.
  • a computer readable medium wherein the aforementioned computer program is stored.
  • a method for a search engine to provide webpage open summary information including: receiving a search request; finding a webpage content matching the search request in an open summary database; and The matching web page returns the rendering result of rendering the open summary information as the search result of the search request.
  • an apparatus for providing webpage open summary information by a search engine including: a receiving module, configured to receive a search request; a searching module, configured to search and describe in an open summary database Searching for a webpage content that matches the request; and providing a module for returning a rendering result for rendering the open summary information as a search result of the search request for a webpage that matches the search request.
  • a computer program comprising computer readable code, when the computer readable code is run on a computer, performs the aforementioned method of providing web page open summary information by a search engine.
  • a computer readable medium storing the aforementioned computer program is provided.
  • a method for a search engine to provide an open summary of a webpage comprising: upon receiving a search request, returning an open summary of a plurality of webpages including keywords matching the search request a rendering result of the information as a search result of the search request; and sorting the search results in response to a request to sort based on a particular element in the open summary information.
  • an apparatus for providing an open summary of a webpage by a search engine including: a providing module, configured to return, when receiving a search request, a keyword including a keyword matching the search request a rendering result of the open summary information of the plurality of web pages as a search result of the search request; and a sorting module for responding to the request based on sorting by a specific element in the open summary information The results are sorted.
  • a computer program comprising computer readable code, when the computer readable code is run on a computer, performs the method of the aforementioned engine providing a web page open digest.
  • a computer readable medium wherein the aforementioned computer program is stored.
  • the method and apparatus for crawling webpage open summary information provided by the search engine provided by the present invention when crawling webpage information, when detecting that the webpage information includes an identifier, crawling the webpage information to describe the structure of the open summary information Protocol headers and structures described in the open summary information
  • the content of the mapped webpage is convenient for adjusting the content of the open summary information of the webpage by the search engine, which greatly enriches the form of the webpage summary information display.
  • the open summary information includes: related information designed to allow the user to generally understand the content on the webpage, and a search query with the user. What is the associated information.
  • search engine In addition to ratings, comments, you can also add information such as "picture of product”, “price of product”, “is stock”, etc. to help users determine search relevance. If the search engine understands the content on the page, it can display the above search results in the search results based on the content. This kind of search results can help search users to intuitively understand whether the website is relevant and matched to the user's original intention, so as to obtain a higher click-through rate.
  • the efficiency of rendering the webpage is improved, and on the other hand, the form of the webpage summary information display is greatly enriched.
  • the method and apparatus for providing webpage open summary information by the search engine provided by the above-mentioned invention, and returning the rendering result of rendering the open summary information to the webpage matching the search request, as the search result of the search request It is convenient to adjust the content of the open summary information, so it can greatly enrich the form of the summary information display.
  • the method and apparatus for providing a web page open digest by the search engine provided by the above-described invention can sort the search results in response to a request for sorting based on a specific element in the open summary information, for example, according to "price of the product", Comments such as ", whether there is inventory” and other information to sort the search results, greatly enriched the form of the summary information display.
  • FIG. 1 shows a flow diagram of a method 100 of a search engine crawling web page open summary information in accordance with one embodiment of the present invention
  • FIG. 2 shows a flow chart of a method 200 of verifying web page open summary information in accordance with one embodiment of the present invention.
  • FIG. 3 shows a flow diagram of a method 300 for a search engine to provide web page open summary information in accordance with one embodiment of the present invention
  • FIG. 4 is a flow chart showing a method 400 of a search engine providing web page open summary information in accordance with another embodiment of the present invention.
  • FIG. 5 is a block diagram showing the structure of an apparatus 500 for a search engine to crawl webpage open summary information according to an embodiment of the present invention
  • FIG. 6 illustrates an apparatus 600 for verifying web page open summary information in accordance with one embodiment of the present invention.
  • FIG. 7 is a block diagram showing the structure of an apparatus 700 for providing a web page open summary information by a search engine according to an embodiment of the present invention
  • FIG. 8 is a block diagram showing the structure of an apparatus 800 for a webpage open summary information provided by a search engine according to another embodiment of the present invention.
  • Fig. 9 shows schematically a block diagram of a server for carrying out the method according to the invention.
  • Fig. 10 schematically shows a storage unit for holding or carrying a program code implementing the method according to the invention. .
  • the search engine may capture the open summary information of the webpage, and then the search engine displays the one or more webpage open summary information obtained as the search result.
  • the webpage open summary information may be verified, and after the verification is passed, the search engine displays the webpage open summary information as a search result.
  • the search engine refers to a system that collects information from the Internet according to a certain policy, uses a specific computer program to collect information from the Internet, and provides a search service for the user to display the related information to the user after the information is organized and processed.
  • the above-mentioned open summary information can be provided by the website together with the keyword of the webpage, and is displayed after being passed through the verification system of the search engine.
  • the open summary information includes: The purpose of the user is to provide a general understanding of the content on the webpage. Information, and information related to the user's search query. For example: In addition to ratings, comments, you can also add information such as "picture of the product", “price of the product”, “whether there is inventory”, etc. to help users determine the relevance of the search. It will of course be understood that the expression of the open summary information is not limited in the embodiment of the present invention.
  • the following describes the method for the search engine to crawl the open summary information of the webpage, which specifically includes: when crawling the webpage information, detecting whether the preset open summary information is included; when detecting the webpage information, the identifier is included And crawling a web page information describing a structure of the open summary information and a web page content mapped to the structure described therein.
  • a flowchart of a method 100 for crawling webpage open summary information by a search engine in an embodiment of the present invention begins at step S110.
  • step S110 when the web page information is captured, an identifier of whether the preset open summary information is included is detected.
  • each webpage may include one or more open summary information, and each open summary information is associated with a keyword of the corresponding webpage.
  • the search engine can return and display the open summary information associated with the keyword of the web page.
  • the open summary information can be in the format of HTML (Hypertext Markup Language), HTML5, JavaScript, Flash, CSS (Cascading Style Sheet). It will of course be understood that the specific format of the open summary information is not limited in the embodiment of the present invention.
  • step S130 the protocol header describing the structure of the open summary information in the webpage information and the webpage content mapped with the structure described therein are captured.
  • the web content mapped to the structure described in the open summary information comprises at least one of the following: text, pictures, links, video and audio.
  • step si50 is entered.
  • step si50 verify the rendering result of the open summary information, and/or verify the format of the open summary information, and / verify the web content of the open summary information.
  • step S150 the step of verifying the format of the open summary information comprises: verifying whether the size of the webpage area occupied by the open summary information exceeds a predefined threshold.
  • the predefined threshold value is 400 ⁇ ⁇ 170 ⁇ , if the size of the webpage area occupied by the open summary information exceeds 400 ⁇ ⁇ ⁇ , the verification will not pass. It is to be understood that the specific range of the threshold is not limited in the embodiment of the invention.
  • step S150 the step of verifying the content of the open summary information includes: verifying whether the content of the open summary information includes a specific element.
  • the specific element includes at least one of a price and a discount rate.
  • the open summary information includes a specific price and/or discount rate for a product or a service, the verification fails. Therefore, the open summary information provided by the search engine of the embodiment of the present invention can provide only one abstract content without providing other possible meanings or behaviors, such as price competition. It is of course to be understood that the specific content of the specific elements is not limited in the embodiments of the present invention.
  • step S150 in the case where the verification is passed in step S150, it is possible to proceed to step S170.
  • step S170 when the verification is passed, when the search request matching the keyword of the webpage is received, the rendering result of rendering the open summary information according to the protocol header and the webpage content is returned as the search request.
  • search results For example: Using the existing rendering method, the open summary information is rendered according to the protocol header and the content of the webpage, and will not be described here.
  • step S150 if the verification fails in step S150, the process may proceed to step S190.
  • step S190 upon receiving the search request matching the keyword of the webpage, the default summary information of the webpage is returned as the search result of the search request.
  • the default summary information may refer to the webpage summary information captured by the Sitemap protocol, or the search engine automatically identifies the portion of the webpage that can be optimized for display. It will be understood that the manner in which the default summary information is fetched is not limited in the embodiment of the present invention.
  • the webpage information when the webpage information is captured, when the identifier is included in the webpage information, the protocol header of the structure describing the open summary information in the webpage information and the structure described in the open summary information are captured.
  • the content of the mapped webpage is convenient for adjusting the content of the open summary information of the webpage by the search engine, which greatly enriches the form of the webpage summary information display.
  • the open summary information includes: related information designed to allow the user to generally understand the content on the webpage, and the search query with the user What is the associated information. For example: In addition to “rating” and “comment”, you can also add information such as "picture of product”, “price of product”, “is stock”, etc. to help users determine the relevance of search. If the search engine understands the content on the page, it can display the above search results in the search results based on the content. This kind of search results can help search users to intuitively understand whether the website is relevant and matched to the user's original search intention, thus achieving a higher click-through rate.
  • FIG. 1 is not limited to the sequence of the steps shown, and the sequence of steps may be adjusted as needed.
  • the steps are not limited to the above step, and the steps may be performed. Further splitting into more steps can also be combined into fewer steps.
  • the open summary information can be verified.
  • the following describes a method for verifying the webpage search engine to verify the open summary information of the webpage, which specifically includes: when detecting that the webpage information includes the identifier of the preset open summary information, verifying whether the rendering result of rendering the open summary information is Success; if the rendering result is successful, validate the format of the open summary information and/or verify the web content of the open summary information according to pre-defined rules.
  • FIG. 2 is a schematic diagram of a method 200 for verifying webpage open summary information in an embodiment of the present invention
  • the method 200 begins in step S210.
  • step S210 if it is detected that the webpage information includes the identifier of the preset open digest information, it is verified whether the rendering result of rendering the open digest information is successful.
  • the default summary information is not limited to the preset open summary in the embodiment of the present invention, by using the identifier of the preset open summary information to determine whether the captured webpage information includes the open summary information.
  • the specific form of the identification of the information is not limited to the preset open summary in the embodiment of the present invention, by using the identifier of the preset open summary information to determine whether the captured webpage information includes the open summary information. The specific form of the identification of the information.
  • the open summary information may be in the format of HTML, HTML5, JavaScript, Flash or CSS. It is of course to be understood that the specific format of the open summary information is not limited in the embodiment of the present invention.
  • the JavaScript scripting language may be used to verify whether the rendering result of rendering the open summary information is successful. It is of course understood that the verification is not limited in the embodiment of the present invention. Whether the rendering result of the rendering information is successful or not Body way.
  • step S230 the format of the open summary information and/or the content of the web page of the open summary information are verified according to a predefined rule.
  • the predefined rule may be: verifying whether the size of the webpage area occupied by the open summary information exceeds a predefined threshold.
  • the predefined threshold is 400 ⁇ ⁇ 170 ⁇ . If the size of the webpage area occupied by the open summary information exceeds 400 ⁇ ⁇ ⁇ , the verification fails. It will of course be understood that the specific scope of the invention is not limited in the embodiments of the invention.
  • the predefined rule may also be: Verify whether the content of the open summary information includes a specific element.
  • a specific element includes at least one of a specific price or discount rate for a product or a service. If the content of the open summary information includes price and / or discount rate, the verification does not pass. Therefore, the open summary information provided by the search engine of the embodiment of the present invention can provide only one abstract content without providing other possible meanings or behaviors, such as price competition. It is of course to be understood that the specific content of the specific elements is not limited in the embodiments of the present invention.
  • the predefined rules are not limited in the embodiments of the present invention.
  • the webpage content includes at least one of the following: text, picture, link, video, and audio. It will of course be understood that the specific type of web page content is not limited in embodiments of the invention.
  • step S230 if the rendering result, the format of the open summary information, or the verification of the webpage content is passed, the process proceeds to step S250.
  • step S250 upon receiving the search request matching the keyword of the web page, the rendering result of the open summary information of the web page is returned as the search result of the search request.
  • the search result may adopt a format of HTML, SHTML, HTML5, XML (Extensible Markup Language), and of course, it can be understood that the implementation of the present invention
  • the specific format of the search results is not limited in the example.
  • step S230 if the rendering result, the format of the open summary information, or the verification of the webpage content fails, the process proceeds to step S270.
  • step S270 upon receiving the search request matching the keyword of the web page, the default summary information of the web page is returned as the search result of the search request.
  • the above default summary information can be obtained from one or more web pages by means of an existing sitemap protocol or the like.
  • the method shown in FIG. 2 is not limited to the sequence of the steps shown, and the order of the steps may be adjusted as needed.
  • the steps are not limited to the above step, and the steps may be performed. Further splitting into more steps can also be combined into fewer steps.
  • the search engine can use the webpage open summary information as the search result and display the open summary information.
  • the method for the search engine to provide the webpage open summary information specifically includes: receiving a search request; searching for a webpage matching the search request in the open digest database; and for the webpage matching the search request, Returns the rendered result of rendering the open summary information as a search result for the search request.
  • a schematic diagram of a method 300 for providing webpage open summary information by a search engine in an embodiment of the present invention begins in step S310, in which a search request is received.
  • the user inputs a search keyword in the search bar; then the client sends a URL (Uniform Resource Locator) composed of the search keyword to the search engine on the network side.
  • a URL Uniform Resource Locator
  • step S330 the open summary information matching the search request is looked up in the open summary database.
  • one or more open summary information is pre-stored in the open summary database.
  • the content of the webpage includes at least one of the following: text, a picture, a link, a video, and an audio. It is of course understood that the content of the webpage is not limited in the embodiment of the present invention. Specific type.
  • step S350 for the open summary information matching the search request, the rendering result of rendering the open summary information is returned as the search result of the search request.
  • the search results include open summary information where the search results are ranked first.
  • step S350 if the webpage includes multiple open summary information, determining the open summary information that most closely matches the search request, and returning the most matching
  • the open summary information is used to render the rendered result as a search result for the search request.
  • an existing search engine algorithm may be used to calculate a plurality of matching open summary information according to the search request, and then the most matching open summary information is determined from the plurality of open summary information.
  • the search result is in the format of HTML, SHTML, HTML5, or XML. It is of course understood that the specific format of the search result is not limited in the embodiment of the present invention.
  • the open summary information is rendered according to a protocol header of the structure of the open summary information in the webpage information and a webpage content mapped with the structure described therein. .
  • the content of the webpage includes at least one of the following: text, a picture, a link, a video, and an audio. It is of course understood that the content of the webpage is not limited in the embodiment of the present invention. Specific type.
  • the open summary information is rendered according to a protocol header and a webpage content in a format of HTML, HTML5, JavaScript, Flash, or CSS.
  • the search result is in the format of HTML, SHTML, HTML5, or XML. It is of course understood that the format of the search result is not limited in the embodiment of the present invention.
  • the search request in the step of receiving the search request (S310), the search request is received from the client, and in the case that the webpage includes the open summary information, the rendering of the open summary information is returned.
  • the rendering result returns the rendering result to the client in the step of searching for the search result (S330) to be displayed as a search result on the client.
  • the method shown in FIG. 3 is not limited to the sequence of the steps shown, and the sequence of steps may be adjusted as needed.
  • the steps are not limited to the above step, and the steps may be performed. Further splitting into more steps can also be combined into fewer steps.
  • the following describes another method for implementing the search engine to provide open summary information of the webpage, which specifically includes: when crawling the webpage information, detecting whether the protocol header containing the structure of the open summary information is included; when the protocol header is detected And, crawling the protocol header and the webpage content mapped to the structure described therein, and rendering the open summary information according to the protocol header and the webpage content; detecting whether the open summary information includes a specific element, if included, Retrieving a specific element corresponding to the webpage information; upon receiving the search request matching the keyword of the webpage, returning a rendering result of the open summary information of the plurality of webpages including the keyword matching the search request, Search results are searched as search results; and search results are sorted in response to requests sorted based on particular elements in the open summary information.
  • a schematic diagram of a method 400 for displaying a webpage open summary information by a search engine in an embodiment of the present invention begins with step S410.
  • step S410 upon receiving the search request, the rendering result of the open summary information of the plurality of web pages containing the key words matching the search request is returned as the search result of the search request.
  • the search server on the network side after receiving the search request sent by the terminal device, performs matching according to keywords in the search request, and obtains rendering of open summary information of multiple web pages including keywords matching the search request. As a result, and returned to the terminal device as a search result of the search request.
  • step S430 the search results are sorted in response to a request to sort based on a specific element in the open summary information.
  • the search server on the network side receives the sorting request of the specific element in the open summary information of the terminal device, and sorts the search results according to the method from high to low or low to high.
  • the specific strategy of ordering is not limited in the embodiments of the present invention.
  • the method 400 before the step S410, further includes: when crawling the webpage content, detecting whether the identifier of the preset open summary information is included; and then detecting the webpage content When the identifier is included, it is detected whether or not the specific element is included in the open summary information, and when the specific element is included, the specific element is stored in association with the keyword of the web page and the open summary information.
  • the webpage content includes at least one of the following: text, a picture, a link, a video, and an audio. It will of course be understood that the specific format of the web page content is not limited in the embodiment of the invention.
  • the keyword and the open type of the specific element and the webpage are In the step of storing the summary information correspondingly, the specific element is stored as a specific item in the database of the search engine corresponding to the keyword of the webpage and the open summary information.
  • step S430 the search result including the open summary information is ranked in the front position.
  • the search results are sorted according to the specific elements in ascending or descending order.
  • the specific element includes at least one of a price, a discount rate, a favorable rate, a credit rating, and a sales volume.
  • the open summary information is in the format of HTML, HTML5, JavaScript, Flash, or CSS. It is of course understood that the open summary information is not limited in the embodiment of the present invention. Specific format.
  • the search result is in the format of HTML, SHTML, HTML5 or XML. It is of course understood that the specific format of the search result is not limited in the embodiment of the present invention.
  • the method shown in FIG. 4 is not limited to the sequence of the steps shown, and the sequence of the steps may be adjusted as needed.
  • the steps are not limited to the above step, and the steps may be performed. Further splitting into more steps can also be combined into fewer steps.
  • FIG. 9 is a schematic structural diagram of an apparatus 500 for a search engine to crawl webpage open summary information according to an embodiment of the present invention.
  • the apparatus 500 includes: a detection module 510 and a capture module 530, wherein the detection module 510 is configured to detect, when the webpage information is captured, whether the identifier of the preset open summary information is included therein;
  • the fetching module 530 is configured to: when detecting that the webpage information includes the identifier, crawl the protocol header of the webpage information describing the structure of the open digest information and the webpage content mapped with the structure described in the open digest information.
  • each web page includes one or more open summary information, and each open summary information is associated with a keyword of a corresponding webpage keyword webpage.
  • the web content mapped to the structure described in the open summary information comprises at least one of the following: text, pictures, links, video and audio.
  • the apparatus 500 further includes: a verification module, configured to verify a rendering result of the open summary information, and/or verify the format of the open summary information, and/or verify the open summary information.
  • the webpage content in the case of the verification pass, when receiving the search request matching the keyword of the webpage, returning the rendering result of rendering the open summary information according to the protocol header and the webpage content, as the search request search result.
  • the verification module is further configured to: when the verification fails, the default summary information of the webpage is returned as a search when receiving the search request matching the keyword of the webpage Requested search results.
  • the verification module is further configured to verify whether the size of the webpage area occupied by the open summary information exceeds a predefined threshold; or the verification module is further configured to verify the content of the open summary information. Whether to include a specific element.
  • FIG. 6 is a schematic structural diagram of an apparatus 600 for verifying webpage open summary information in an embodiment of the present invention.
  • the apparatus 600 includes: a first verification module 610 and a second verification module 620, where the first verification module 610 is configured to include the identifier of the preset open summary information in the detected webpage information. In the case, it is verified whether the rendering result of rendering the open summary information is successful; the second verification module 620 is configured to verify the format of the open summary information and/or the content of the webpage according to a predefined rule.
  • the apparatus 600 further includes: a result returning module 630, configured to receive the keyword with the webpage in the case that the rendering result, and the verification of the format and/or the webpage content are passed When a matching search request is matched, the rendered result of the open summary information of the web page is returned as a search result of the search request.
  • a result returning module 630 configured to receive the keyword with the webpage in the case that the rendering result, and the verification of the format and/or the webpage content are passed
  • the rendered result of the open summary information of the web page is returned as a search result of the search request.
  • the result returning module 630 is further configured to: when the rendering result, or the format, or the verification of the content fails, when receiving the search request that matches the keyword of the webpage Returns the default summary information for the page as a search result for the search request.
  • the second verification module 620 is further configured to verify whether the size of the webpage area occupied by the open digest information exceeds a predefined threshold.
  • the second verification module 620 is further configured to verify whether a specific element is included in the content of the open summary information.
  • FIG. 7 a schematic structural diagram of an apparatus 700 for providing webpage open summary information by a search engine according to an embodiment of the present invention is shown.
  • the apparatus 700 includes: a receiving module 710, a searching module 720, and a providing module 730, wherein the receiving module 710 is configured to receive a search request; the searching module 720 is configured to search and search for a request in an open digest database. Matching webpage content; and providing module 730 for returning the rendering result of rendering the open digest information as a search result of the search request for the webpage matching the search request.
  • the providing module 730 is further configured to: when the webpage includes multiple open summary information, determine the open summary information that best matches the search request, and return the best match
  • the open summary information is used to render the rendered result as a search result for the search request.
  • the providing module 730 is further configured to perform the open summary information according to a protocol header in the webpage information describing a structure of the open summary information and a webpage content mapped to the structure described therein. Rendering.
  • the receiving module 710 is configured to receive a search request from the client, and the providing module returns a rendering result to the client to be displayed as a search result on the client.
  • the search engine of the embodiment of the present invention provides an open summary of the webpage.
  • the apparatus 800 includes a providing module 810 and a sorting module 830, wherein the providing module 810 is configured to, when receiving the search request, return a rendering result of the open summary information of the plurality of web pages including the keyword matching the search request, as Searching for the requested search results; the ranking module 830 is for ranking the search results in response to a request to sort based on a particular element in the open summary information.
  • the apparatus 800 further includes: a first detecting module 850, configured to detect, when the webpage information is captured, an identifier of whether the preset open summary information is included; the second detecting module 870, configured to detect whether a specific element is included in the open summary information when the identifier is included in the detected webpage information, and store the specific element corresponding to the keyword of the webpage and the open summary information in the case of inclusion .
  • a first detecting module 850 configured to detect, when the webpage information is captured, an identifier of whether the preset open summary information is included
  • the second detecting module 870 configured to detect whether a specific element is included in the open summary information when the identifier is included in the detected webpage information, and store the specific element corresponding to the keyword of the webpage and the open summary information in the case of inclusion .
  • the second detecting module 870 is further configured to store the specific element as a specific item in a database of the search engine corresponding to the keyword of the webpage and the open summary information.
  • the ranking module 830 is further configured to rank the search results containing the open summary information in a front position.
  • the sorting module 830 is further configured to sort the search results according to the specific elements in ascending or descending order.
  • the various component embodiments of the present invention may be implemented in hardware, or in software modules running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components in accordance with embodiments of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the present invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • Figure 9 illustrates a server, such as a search engine server, that can implement the above method in accordance with the present invention.
  • the server conventionally includes a processor 910 and a computer program product or computer readable medium in the form of a memory 930.
  • the memory 930 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
  • Memory 930 has a memory space 950 for program code 951 for performing any of the method steps described above.
  • storage space 950 for program code may include various program code 951 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • Computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such a computer program product is typically a portable or fixed storage unit as described with reference to FIG.
  • the storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 930 in the server of FIG.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit Computer readable code 951 is included, i.e., code readable by a processor, such as 910, that when executed by a server causes the server to perform various steps in the methods described above.
  • an embodiment or “an embodiment,” or “one or more embodiments” as used herein means that the particular features, structures, or characteristics described in connection with the embodiments are included in at least one embodiment of the invention.
  • the examples of the words “in one embodiment” are not necessarily all referring to the same embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种引擎抓取、验证和提供网页开放式摘要信息的方法及装置,其中,搜索引擎抓取网页开放式摘要信息的方法,包括:在抓取网页信息时,检测其中是否包含预设的开放式摘要信息的标识;以及在检测到网页信息中包含所述标识的情况下,抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的所述结构相映射的网页内容。本发明能够调整搜索引擎抓取的开放式摘要信息的内容,极大地丰富了网页摘要信息展示的形式。

Description

引擎抓取、 验证和提供网页开放式摘要的方法及装置 技术领域
本发明涉及互联网技术领域, 尤其涉及一种引擎抓取、 验证和提供网页 开放式摘要信息的方法及装置。
背景技术
用户在使用搜索引擎进行搜索时, 搜索引擎会根据用户输入的搜索关键 词返回多个搜索结果并展示给用户查看, 然而不同的用户有时候会有不同的 偏好的站点。 目前主流的搜索引擎, 在抓取网站内容时仅是根据简单的 robots 协议(也称为爬虫协议、 爬虫规则、 机器人协议等)进行提取, 在用户搜索 时根据匹配度提供简单的信息展示, 由此使得网站信息与用户搜索需求匹配 度不高, 展示效果差, 搜索结果转化率低, 内容无法验证等多个技术问题。
发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少部分 地解决或者减緩上述问题的一种引擎抓取、 验证和提供网页开放式摘要信息 的方法及装置。
根据本发明的一个方面, 提供了一种搜索引擎抓取网页开放式摘要信息 的方法, 包括: 在抓取网页信息时, 检测其中是否包含预设的开放式摘要信 息的标识; 以及在检测到网页信息中包含标识的情况下, 抓取网页信息中描 述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构相映 射的网页内容。
根据本发明的另一个方面, 提供了一种搜索引擎抓取网页开放式摘要信 息的装置, 包括: 检测模块, 用于在抓取网页信息时, 检测其中是否包含预 设的开放式摘要信息的标识; 以及抓取模块, 用于在检测到网页信息中包含 所述标识的情况下, 抓取网页信息中描述开放式摘要信息的结构的协议头以 及与开放式摘要信息中描述的所述结构相映射的网页内容。
根据本发明的又一个方面, 提供了一种计算机程序, 包括计算机可读代 码, 当所述计算机可读代码在计算机上运行时, 将执行前述的搜索引擎抓取 网页开放式摘要信息的方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储了前 述的计算机程序。
根据本发明的一个方面, 提供了一种验证网页开放式摘要信息的方法, 包括: 在检测到网页信息中包含预设的开放式摘要信息的标识的情况下, 验 证对开放式摘要信息进行渲染的渲染结果是否成功; 以及根据预先定义的规 则, 验证所述开放式摘要信息的格式和 /或验证开放式摘要信息的网页内容。
根据本发明的另一个方面, 提供了一种验证网页开放式摘要信息的装置, 包括: 第一验证模块, 用于在检测到网页信息中包含预设的开放式摘要信息 的标识的情况下, 验证对开放式摘要信息进行渲染的渲染结果是否成功; 以 及第二验证模块, 用于根据预先定义的规则, 验证所述开放式摘要信息的格 式和 /或验证开放式摘要信息的网页内容。
根据本发明的又一个方面, 提供了一种计算机程序, 包括计算机可读代 码, 当所述计算机可读代码在计算机上运行时, 将执行前述的验证网页开放 式摘要信息的方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储了前 述的计算机程序。
根据本发明的一个方面, 提供了一种搜索引擎提供网页开放式摘要信息 的方法, 包括: 接收搜索请求; 在开放式摘要数据库中查找与搜索请求相匹 配的网页内容; 以及对于与搜索请求相匹配的网页, 返回对开放式摘要信息 进行渲染的渲染结果, 以作为搜索请求的搜索结果。
根据本发明的另一个方面, 提供了一种搜索引擎提供网页开放式摘要信 息的装置, 其包括: 接收模块, 用于接收搜索请求; 查找模块, 用于在开放 式摘要数据库中查找与所述搜索请求相匹配的网页内容; 以及提供模块, 用 于对于与所述搜索请求相匹配的网页, 返回对开放式摘要信息进行渲染的渲 染结果, 以作为所述搜索请求的搜索结果。
根据本发明的又一个方面, 提供了一种计算机程序, 包括计算机可读代 码, 当所述计算机可读代码在计算机上运行时, 将执行前述的搜索引擎提供 网页开放式摘要信息的方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储前述 的计算机程序。
根据本发明的一个方面, 提供了一种搜索引擎提供网页开放式摘要的方 法, 包括: 在接收到搜索请求时, 返回包含与所述搜索请求相匹配的关键词 的多个网页的开放式摘要信息的渲染结果, 以作为所述搜索请求的搜索结果; 以及响应于基于所述开放式摘要信息中的特定元素进行排序的请求, 对所述 搜索结果进行排序。
根据本发明的另一个方面, 提供了一种搜索引擎提供网页开放式摘要的 装置, 其包括: 提供模块, 用于在接收到搜索请求时, 返回包含与所述搜索 请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果, 以作为所述 搜索请求的搜索结果; 以及排序模块, 用于响应于基于所述开放式摘要信息 中的特定元素进行排序的请求, 对所述搜索结果进行排序。
根据本发明的又一个方面, 提供了一种计算机程序, 包括计算机可读代 码, 当所述计算机可读代码在计算机上运行时, 将执行前述的引擎提供网页 开放式摘要的方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储了前 述的计算机程序。
本发明的有益效果为:
根据本发明上述提供的搜索引擎抓取网页开放式摘要信息的方法及装 置, 其在抓取网页信息时, 当检测到网页信息中包含标识时, 抓取网页信息 中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述的结构 相映射的网页内容, 从而便于调整搜索引擎抓取网页开放式摘要信息的内容, 极大地丰富了网页摘要信息展示的形式。 例如: 以与开放式摘要信息中描述 的结构相映射的网页内容为文字内容为例, 该开放式摘要信息包括: 旨在让 用户大体了解网页上的内容的相关信息, 以及与用户的搜索查询有何关联的 信息。 举例: 评级、 评论之外, 还可以添加诸如 "产品的图片" 、 "产品的 价格" 、 "是否有库存" 等等帮助用户确定搜索相关度的信息。 如果搜索引 擎了解网页上的内容, 就可以根据内容在搜索结果中展示上面这种搜索结果。 这种搜索结果可以帮助搜索用户直观的了解网站与用户的搜索初衷是否相关 和匹配, 从而获得更高的点击率。
根据本发明上述提供的验证网页开放式摘要信息的方法及装置, 通过对 开放式摘要信息进行验证, 一方面提高网页渲染的效率, 另一方面极大地丰 富了网页摘要信息展示的形式。
根据本发明上述提供的搜索引擎提供网页开放式摘要信息的方法及装 置, 对于与搜索请求相匹配的网页, 返回对开放式摘要信息进行渲染的渲染 结果, 以作为搜索请求的搜索结果, 由于能够很方便地调整开放式摘要信息 的内容, 因此能够极大地丰富网页摘要信息展示的形式。
根据本发明上述提供的搜索引擎提供网页开放式摘要的方法及装置, 能 够响应于基于开放式摘要信息中的特定元素进行排序的请求, 对搜索结果进 行排序, 例如按照 "产品的价格" 、 "评论" 、 "是否有库存" 等信息对搜 索结果进行排序处理, 极大地丰富了网页摘要信息展示的形式。
上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技 术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它 目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的参考符号表示 相同的部件。 在附图中:
图 1示出了根据本发明一个实施例的搜索引擎抓取网页开放式摘要信息 的方法 100的流程图;
图 2示出了根据本发明一个实施例的验证网页开放式摘要信息的方法 200 的流程图
图 3示出了根据本发明一个实施例的搜索引擎提供网页开放式摘要信息 的方法 300的流程图;
图 4示出了根据本发明另一个实施例的搜索引擎提供网页开放式摘要信 息的方法 400的流程图;
图 5示出了根据本发明一个实施例的搜索引擎抓取网页开放式摘要信息 的装置 500的结构框图;
图 6示出了根据本发明一个实施例的验证网页开放式摘要信息的装置 600 的结构框图;
图 7示出了根据本发明一个实施例的搜索引擎提供网页开放式摘要信息 的装置 700的结构框图; 以及
图 8示出了根据本发明另一个实施例的搜索引擎提供网页开放式摘要信 息的装置 800的结构框图;
图 9示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及 图 10示意性地示出了用于保持或者携带实现根据本发明的方法的程序代 码的存储单元。 。
具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
下面将参照附图更详细地描述本公开的示例性实施例。 虽然附图中显示 了本公开的示例性实施例, 然而应当理解, 可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。 相反, 提供这些实施例是为了能够更透彻地 理解本公开, 并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的实施例中, 为了增强搜索结果展示的效果, 搜索引擎可以抓 取网页开放式摘要信息, 然后搜索引擎将抓取得到的一个或多个网页开放式 摘要信息作为搜索结果进行展示。 可选地, 在抓取到网页开放式摘要信息后, 可对网页开放式摘要信息进行验证, 在验证通过后, 搜索引擎将网页开放式 摘要信息作为搜索结果进行展示。
其中, 上述搜索引擎是指根据一定的策略、 运用特定的计算机程序从互 联网上搜集信息, 在对信息进行组织和处理后, 为用户提供检索服务, 将用 户检索相关的信息展示给用户的系统。
上述开放式摘要信息可以由网站结合网页关键词一并提供, 并需通过搜 索引擎的验证系统通过后, 才予以展示, 该开放式摘要信息包括: 旨在让用 户大体了解网页上的内容的相关信息, 以及与用户的搜索查询有何关联的信 息。 举例: 评级、 评论之外, 还可以添加诸如 "产品的图片" 、 "产品的价 格" 、 "是否有库存" 等等帮助用户确定搜索相关度的信息。 当然可以理解 的是, 在本发明的实施例中并不限定开放式摘要信息的表现形式。
实施例一
下面首先介绍搜索引擎抓取网页开放式摘要信息的方法, 具体包括: 在 抓取网页信息时, 检测其中是否包含预设的开放式摘要信息的标识; 在检测 到网页信息中包含标识的情况下, 抓取网页信息中描述开放式摘要信息的结 构的协议头以及与其中描述的结构相映射的网页内容。
如图 1 所示, 为本发明的实施例中的搜索引擎抓取网页开放式摘要信息 的方法 100的流程图, 该方法 100始于步骤 S110。 在步骤 S110中, 在抓取网 页信息时, 检测其中是否包含预设的开放式摘要信息的标识。
其中, 通过预设的开放式摘要信息的标识来判断抓取的网页信息中是否 包含开放式摘要信息, 在本发明的实施例中并不限定上述预设的开放式摘要 信息的标识的具体形式。 可选地, 在本发明的实施例中, 每个网页可以包括一个或多个开放式摘 要信息, 每个开放式摘要信息与相应的网页的关键词相关联。 当用户输入的 搜索关键词能够与网页的关键词相匹配时, 搜索引擎可返回并展示与该网页 的关键词相关联的开放式摘要信息。
其中, 开放式摘要信息可以采用 HTML ( Hypertext Markup Language, 超 文本标记语言)、 HTML5、 JavaScript, Flash, CSS ( Cascading Style Sheet, 级联样式表) 的格式。 当然可以理解的是, 在本发明的实施例中并不限定开 放式摘要信息的具体格式。
在检测到网页信息中包含标识的情况下, 进入步骤 S130, 在步骤 S130 中, 抓取网页信息中描述开放式摘要信息的结构的协议头以及与其中描述的 结构相映射的网页内容。
可选地, 在本发明的实施例中, 与开放式摘要信息中描述的结构相映射 的网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频。 当然可 、 可选地, 在步骤 s o 后: 可进 步骤 si50。 在 ^骤 si50中, 验证开 放式摘要信息的渲染结果、 和 /或验证开放式摘要信息的格式、 和 /验证开放式 摘要信息的网页内容。
可选地, 在本发明的实施例中, 步骤 S150中, 验证开放式摘要信息的格 式的步骤包括: 验证开放式摘要信息所占网页区域的大小是否超出预先定义 的阔值。
例如: 预先定义的阔值为 400ρχ χ 170ρχ, 如果开放式摘要信息所占网页 区域的大小超出 400ρχ χ ΠΟρχ时, 则验证不通过。 当然可以理解的是, 在本 发明的实施例中并不限定阔值的具体范围。
可选地, 在本发明的实施例中, 步骤 S150中, 验证开放式摘要信息的内 容的步骤包括: 验证开放式摘要信息的内容中是否包含特定元素。 可选地, 特定元素包括价格和折扣率中的至少一个。
例如: 如果开放式摘要信息的内容包括某款产品或某项服务的具体价格 和 /或折扣率时, 则验证不通过。 因此, 通过本发明的实施例搜索引擎提供的 开放式摘要信息可以仅提供一个抽象内容, 而不提供其他可能的含义或行为, 例如价格竟争等。 当然可以理解的是, 在本发明的实施例中并不限定特定元 素的具体内容。
可选地, 在本发明的实施例中, 在步骤 S150验证通过的情况下, 可以进 入步骤 S170。
在步骤 S170中, 在验证通过的情况下, 在接收到与网页的关键词相匹配 的搜索请求时, 返回根据协议头以及网页内容对开放式摘要信息进行渲染的 渲染结果, 以作为搜索请求的搜索结果。 例如: 采用现有的渲染方式, 根据 协议头和网页内容对开放式摘要信息进行渲染, 在此不再敷述。
可选地, 在本发明的实施例中, 在步骤 S150验证未通过的情况下, 可进 入步骤 S190。 在步骤 S190中, 在接收到与网页的关键词相匹配的搜索请求时, 返回网 页的默认摘要信息, 以作为搜索请求的搜索结果。
其中, 上述默认摘要信息可以是指采用 Sitemap (站点地图)协议抓取的 网页摘要信息, 或者由搜索引擎自动识别网页页面中可优化展示的部分。 当 然可以理解的是, 在本发明的实施例中并不限定默认摘要信息的抓取方式。
在本发明的实施例中, 在抓取网页信息时, 当检测到网页信息中包含标 识时, 抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘 要信息中描述的结构相映射的网页内容, 从而便于调整搜索引擎抓取网页开 放式摘要信息的内容, 极大地丰富了网页摘要信息展示的形式。
例如: 以与开放式摘要信息中描述的结构相映射的网页内容为文字为例, 该开放式摘要信息包括: 旨在让用户大体了解网页上的内容的相关信息, 以 及与用户的搜索查询有何关联的信息。 举例: "评级" 、 "评论" 之外, 还 可以添加诸如 "产品的图片" 、 "产品的价格" 、 "是否有库存" 等等帮助 用户确定搜索相关度的信息。 如果搜索引擎了解网页上的内容, 就可以根据 内容在搜索结果中展示上面这种搜索结果。 这种搜索结果可以帮助搜索用户 直观的了解网站与用户的搜索初衷是否相关和匹配, 从而获得更高的点击率。
需要说明的是, 图 1 所示的方法并不限定按所示的各步骤的顺序进行, 可以根据需要调整各步骤的先后顺序, 另外, 所述步骤也不限定于上述步骤 划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例二
在搜索 I擎抓取网页开放式摘要信息之后, 可以对开放式摘要信息进行 验证。 下面介绍验证网页搜索引擎验证网页开放式摘要信息的方法, 具体包 括: 在检测到网页信息中包含预设的开放式摘要信息的标识的情况下, 验证 对开放式摘要信息进行渲染的渲染结果是否成功; 如果渲染结果成功, 根据 预先定义的规则, 验证开放式摘要信息的格式和 /验证开放式摘要信息的网页 内容。
如图 2 所示, 为本发明的实施例中验证网页开放式摘要信息的方法 200 的示意图, 该方法 200始于步骤 S210。
在步骤 S210中, 在检测到网页信息中包含预设的开放式摘要信息的标识 的情况下, 验证对开放式摘要信息进行渲染的渲染结果是否成功。
其中, 通过预设的开放式摘要信息的标识来判断抓取的网页信息中是否 包含开放式摘要信息, 当然可以理解的是, 在本发明的实施例中并不限定上 述预设的开放式摘要信息的标识的具体形式。
可选地,在本发明的实施例中,开放式摘要信息可以采用 HTML、 HTML5、 JavaScript, Flash或 CSS的格式。 当然可以理解的是, 在本发明的实施例中并 不限定开放式摘要信息的具体格式。
可选地, 在本发明的实施例中, 可以采用 JavaScript脚本语言验证对开放 式摘要信息进行渲染的渲染结果是否成功, 当然可以理解的是, 在本发明的 实施例中并不限定验证对开放式摘要信息进行渲染的渲染结果是否成功的具 体方式。
随后, 如果渲染结果成功, 在步骤 S230中, 根据预先定义的规则, 验证 开放式摘要信息的格式和 /验证开放式摘要信息的网页内容。
可选地, 在本发明的实施例中, 预定义的规则可以是: 验证开放式摘要 信息所占网页区域的大小是否超出预先定义的阔值。 例如: 预先定义的阔值 为 400ρχ χ 170ρχ, 如果开放式摘要信息所占网页区域的大小超出 400ρχ χ ΠΟρχ, 则验证不通过。 当然可以理解的是, 在本发明的实施例中并不限定阔 值的具体范围。
或者, 在本发明的实施例中, 预定义的规则也可以是: 验证开放式摘要 信息的内容中是否包含特定元素。 例如: 特定元素包括某款产品或某项服务 的具体价格和折扣率中的至少一个。 如果开放式摘要信息的内容包括价格和 / 或折扣率, 则验证不通过。 因此, 通过本发明的实施例搜索引擎提供的开放 式摘要信息可以仅提供一个抽象内容, 而不提供其他可能的含义或行为, 例 如价格竟争等。 当然可以理解的是, 在本发明的实施例中并不限定特定元素 的具体内容。
同样, 可以理解的是, 在本发明的实施例中并不限定预先定义的规则。 可选地, 在本发明的实施例中, 该网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频。 当然可以理解的是, 在本发明的实施例中并不限 定网页内容的具体类型。
可选地, 在本发明的实施例中, 在步骤 S230之后, 在渲染结果、 开放式 摘要信息的格式或网页内容的验证通过的情况下, 进入步骤 S250。
在步骤 S250中, 在接收到与网页的关键词相匹配的搜索请求时, 返回网 页的开放式摘要信息的渲染结果, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 搜索结果可以采用 HTML、 SHTML, HTML5、 l XML ( Extensible Markup Language, 可扩展标 i己语言) 的格式, 当然可以理解的是, 在本发明的实施例中并不限定搜索结果的具体格式。
可选地, 在步骤 S230之后, 在渲染结果、 开放式摘要信息的格式或网页 内容的验证未通过的情况下, 进入步骤 S270。
在步骤 S270中, 在接收到与网页的关键词相匹配的搜索请求时, 返回网 页的默认摘要信息, 以作为搜索请求的搜索结果。
上述默认摘要信息可以采用现有的 sitemap协议等方式从一个或多个网页 中抓取得到。
需要说明的是, 图 2 所示的方法并不限定按所示的各步骤的顺序进行, 可以根据需要调整各步骤的先后顺序, 另外, 所述步骤也不限定于上述步骤 划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例三
在搜索引擎抓取到一个或多个网页开放式摘要信息, 或者在开放式摘要 信息验证通过后, 搜索引擎可以将网页开放式摘要信息作为搜索结果, 并展 示开放式摘要信息。 下面介绍搜索弓 I擎提供网页开放式摘要信息的方法。 在本发明的实施例中, 搜索引擎提供网页开放式摘要信息的方法, 具体 包括: 接收搜索请求; 在开放式摘要数据库中查找与搜索请求相匹配的网页; 对于与搜索请求相匹配的网页, 返回对开放式摘要信息进行渲染的渲染结果, 以作为搜索请求的搜索结果。
如图 3 所示, 为本发明的实施例中搜索引擎提供网页开放式摘要信息的 方法 300的示意图, 该方法始于步骤 S310, 在步骤 S310中, 接收搜索请求。
例如: 用户在搜索栏中输入搜索关键词; 然后客户端将搜索关键词构成 的 URL ( Uniform Resource Locator, 统一资源定位符)发送给网络侧的搜索 引擎。
随后, 在步骤 S330中, 在开放式摘要数据库中查找与搜索请求相匹配的 开放式摘要信息。 其中, 开放式摘要数据库中预先存储有一个或多个开放式 摘要信息。
可选地, 在本发明的实施例中, 网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频, 当然可以理解的是, 在本发明的实施例中并不限 定网页内容的具体类型。
随后, 在步骤 S350中, 对于与搜索请求相匹配的开放式摘要信息, 返回 对开放式摘要信息进行渲染的渲染结果, 以作为搜索请求的搜索结果。 可选 地, 在搜索结果中, 包含搜索结果排在靠前的位置的开放式摘要信息。
可选地, 在本发明的实施例中, 在步骤 S350中, 在网页包括多个开放式 摘要信息的情况下, 确定与搜索请求最相匹配的开放式摘要信息, 并且返回 对最相匹配的开放式摘要信息进行渲染的渲染结果, 以作为搜索请求的搜索 结果。
在本发明的实施例中, 可采用现有的搜索引擎算法根据搜索请求计算得 到多个匹配的开放式摘要信息, 然后从多个开放式摘要信息中确定出最相匹 配的开放式摘要信息。
可选地,在本发明的实施例中,搜索结果采用 HTML、 SHTML, HTML5、 或 XML的格式, 当然可以理解的是, 在本发明的实施例中并不限定搜索结果 的具体格式。
可选地, 在本发明的实施例中, 在步骤 S350中, 根据网页信息中描述开 放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内容, 对 开放式摘要信息进行渲染。
可选地, 在本发明的实施例中, 网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频, 当然可以理解的是, 在本发明的实施例中并不限 定网页内容的具体类型。
可选地, 在本发明的实施例中, 采用 HTML、 HTML5、 JavaScript, Flash, 或 CSS的格式, 根据协议头以及网页内容, 对开放式摘要信息进行渲染。
可选地,在本发明的实施例中,搜索结果采用 HTML、 SHTML, HTML5、 或 XML的格式, 当然可以理解的是, 在本发明的实施例中并不限定搜索结果 的格式。 可选地, 在本发明的实施例中, 在接收搜索请求的步骤( S310 ) 中, 从 客户端接收搜索请求, 并且在网页包括开放式摘要信息的情况下, 返回对开 放式摘要信息进行渲染的渲染结果以作为搜索请求的搜索结果的步骤( S330 ) 中, 向客户端返回渲染结果, 以在客户端上作为搜索结果进行展示。
需要说明的是, 图 3 所示的方法并不限定按所示的各步骤的顺序进行, 可以根据需要调整各步骤的先后顺序, 另外, 所述步骤也不限定于上述步骤 划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例四
下面介绍另一种实现搜索 )擎提供网页开放式摘要信息的方法, 具体包 括: 在抓取网页信息时, 检测其中是否包含描述开放式摘要信息的结构的协 议头; 在检测到协议头的情况下, 抓取协议头以及与其中描述的结构相映射 的网页内容, 并且根据协议头以及网页内容对开放式摘要信息进行渲染; 检 测开放式摘要信息中是否包含特定元素, 在包含的情况下, 将特定元素与网 页信息相对应地抓取; 在接收到与网页的关键词相匹配的搜索请求时, 返回 包含与搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果, 以作为搜索请求的搜索结果; 以及响应于基于开放式摘要信息中的特定元素 进行排序的请求, 对搜索结果进行排序。
如图 4所示, 为本发明的实施例中搜索引擎显示展示网页开放式摘要信 息的方法 400的示意图, 该方法 400始于步骤 S410。
在步骤 S410中, 在接收到搜索请求时, 返回包含与搜索请求相匹配的关 键词的多个网页的开放式摘要信息的渲染结果, 以作为搜索请求的搜索结果。
可选地, 网络侧的搜索服务器接收到终端设备发送的搜索请求后, 根据 搜索请求中的关键词进行匹配, 得到包含与搜索请求相匹配的关键词的多个 网页的开放式摘要信息的渲染结果, 并作为搜索请求的搜索结果返回至终端 设备。
随后, 在步骤 S430中, 响应于基于开放式摘要信息中的特定元素进行排 序的请求, 对搜索结果进行排序。
可选地, 网络侧的搜索服务器接收到终端设备的基于开放式摘要信息中 的特定元素的排序请求, 按照从高到底或者从低到高等方式对搜索结果进行 排序, 当然可以理解的是, 在本发明的实施例中并不限定排序的具体策略。
可选地,在本发明的实施例中,在步骤 S410之前,上述方法 400还包括: 在抓取网页内容时, 检测其中是否包含预设的开放式摘要信息的标识; 然后 在检测到网页内容中包含标识的情况下, 检测开放式摘要信息中是否包含特 定元素, 在包含特定元素的情况下, 将特定元素与网页的关键词、 开放式摘 要信息相对应地存储。
可选地, 在本发明的实施例中, 网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频。 当然可以理解的是, 在本发明的实施例中并不限 定网页内容的具体格式。
可选地, 在本发明的实施例中, 在将特定元素与网页的关键词、 开放式 摘要信息相对应地存储的步骤中, 将特定元素作为特定条目, 与网页的关键 词、 开放式摘要信息相对应地存储在搜索引擎的数据库中。
可选地, 在本发明的实施例中, 在步骤 S430中, 将包含开放式摘要信息 的搜索结果排在靠前的位置。
可选地, 在本发明的实施例中, 在步骤 S430中, 按照特定元素升序或者 降序, 对搜索结果进行排序。 可选地, 特定元素包括价格、 折扣率、 好评率、 信用等级和销量中的至少一个。
可选地, 在本发明的实施例中, 开放式摘要信息采用 HTML、 HTML5、 JavaScript, Flash或 CSS的格式, 当然可以理解的是, 在本发明的实施例中并 不限定开放式摘要信息的具体格式。
可选地, 在本发明的实施例中, 搜索结果采用 HTML、 SHTML, HTML5 或 XML的格式, 当然可以理解的是, 在本发明的实施例中并不限定搜索结果 的具体格式。
需要说明的是, 图 4所示的方法并不限定按所示的各步骤的顺序进行, 可以根据需要调整各步骤的先后顺序, 另外, 所述步骤也不限定于上述步骤 划分, 上述步骤可以进一步拆分成更多步骤也可以合并成更少步骤。
实施例五
如图 9 所示, 为本发明的实施例中搜索引擎抓取网页开放式摘要信息的 装置 500的结构示意图。
在本发明的实施例中, 该装置 500包括: 检测模块 510和抓取模块 530, 其中检测模块 510用于在抓取网页信息时, 检测其中是否包含预设的开放式 摘要信息的标识; 抓取模块 530用于在检测到网页信息中包含标识的情况下, 抓取网页信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息 中描述的结构相映射的网页内容。
可选地, 在本发明的实施例中, 每个网页包括一个或者多个开放式摘要 信息, 每个开放式摘要信息与相应的网页关键词网页的关键词相关联。
可选地, 在本发明的实施例中, 与开放式摘要信息中描述的结构相映射 的网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音频。
可选地, 在本发明的实施例中, 装置 500还包括: 验证模块, 用于验证 开放式摘要信息的渲染结果、 和 /或验证开放式摘要信息的格式、 和 /或验证开 放式摘要信息的网页内容; 在验证通过的情况下, 在接收到与网页的关键词 相匹配的搜索请求时, 返回根据协议头以及网页内容对开放式摘要信息进行 渲染的渲染结果, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 验证模块还用于在验证未通过的情况下, 在接收到与网页的关键词相匹配的搜索请求时, 返回网页的默认摘要信息, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 验证模块进一步用于验证开放式摘要信 息所占网页区域的大小是否超出预先定义的阔值; 或者验证模块进一步用于 验证开放式摘要信息的内容中是否包含特定元素。 实施例六
如图 6所示,为本发明的实施例中的验证网页开放式摘要信息的装置 600 的结构示意图。
在本发明的实施例中, 该装置 600包括: 第一验证模块 610和第二验证 模块 620,其中第一验证模块 610用于在检测到网页信息中包含预设的开放式 摘要信息的标识的情况下, 验证对开放式摘要信息进行渲染的渲染结果是否 成功; 第二验证模块 620用于根据预先定义的规则, 验证开放式摘要信息的 格式和 /或网页内容。
可选地, 在本发明的实施例中, 装置 600还包括: 结果返回模块 630, 用 于在渲染结果、 以及格式和 /或网页内容的验证通过的情况下, 在接收到与网 页的关键词相匹配的搜索请求时, 返回网页的开放式摘要信息的渲染结果, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 结果返回模块 630还用于在渲染结果、 或格式、 或内容的验证未通过的情况下, 在接收到与网页的关键词相匹配的 搜索请求时, 返回网页的默认摘要信息, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 第二验证模块 620进一步用于验证开放 式摘要信息所占网页区域的大小是否超出预先定义的阔值。
可选地, 在本发明的实施例中, 第二验证模块 620进一步用于验证开放 式摘要信息的内容中是否包含特定元素。
实施例七
如图 7 所示, 为本发明的实施例中搜索引擎提供网页开放式摘要信息的 装置 700的结构示意图。
在本发明的实施例中, 该装置 700包括: 接收模块 710、 查找模块 720和 提供模块 730, 其中接收模块 710用于接收搜索请求; 查找模块 720用于在开 放式摘要数据库中查找与搜索请求相匹配的网页内容; 以及提供模块 730用 于对于与搜索请求相匹配的网页, 返回对开放式摘要信息进行渲染的渲染结 果, 以作为搜索请求的搜索结果。
可选地, 在本发明的实施例中, 提供模块 730进一步用于在网页包括多 个开放式摘要信息的情况下, 确定与搜索请求最相匹配的开放式摘要信息, 并且返回对最相匹配的开放式摘要信息进行渲染的渲染结果, 以作为搜索请 求的搜索结果。
可选地, 在本发明的实施例中, 提供模块 730还用于根据网页信息中描 述开放式摘要信息的结构的协议头以及与其中描述的结构相映射的网页内 容, 对开放式摘要信息进行渲染。
可选地, 在本发明的实施例中, 接收模块 710用于从客户端接收搜索请 求, 并且提供模块向客户端返回渲染结果, 以在客户端上作为搜索结果进行 展示。
实施例八
如图 8 所示, 为本发明的实施例中的搜索引擎提供网页开放式摘要的装 置 800的结构示意图。
该装置 800包括提供模块 810和排序模块 830,其中提供模块 810用于在 接收到搜索请求时, 返回包含与搜索请求相匹配的关键词的多个网页的开放 式摘要信息的渲染结果, 以作为搜索请求的搜索结果; 排序模块 830用于响 应于基于开放式摘要信息中的特定元素进行排序的请求, 对搜索结果进行排 序。
可选地, 在本发明的实施例中, 装置 800还包括: 第一检测模块 850, 用 于在抓取网页信息时, 检测其中是否包含预设的开放式摘要信息的标识; 第 二检测模块 870, 用于在检测到网页信息中包含标识的情况下,检测开放式摘 要信息中是否包含特定元素, 在包含的情况下, 将特定元素与网页的关键词、 开放式摘要信息相对应地存储。
可选地, 在本发明的实施例中, 第二检测模块 870进一步用于将特定元 素作为特定条目, 与网页的关键词、 开放式摘要信息相对应地存储在搜索引 擎的数据库中。
可选地, 在本发明的实施例中, 排序模块 830进一步用于将包含开放式 摘要信息的搜索结果排在靠前的位置。
可选地, 在本发明的实施例中, 排序模块 830进一步用于按照特定元素 升序或者降序, 对搜索结果进行排序。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个处理 器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术人员应当 理解, 可以在实践中使用微处理器或者数字信号处理器(DSP )来实现根据本 发明实施例的装置中的一些或者全部部件的一些或者全部功能。 本发明还可 以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序产品) 。 这样的实现本发明的程序可以存 储在计算机可读介质上, 或者可以具有一个或者多个信号的形式。 这样的信 号可以从因特网网站上下载得到, 或者在载体信号上提供, 或者以任何其他 形式提供。
例如, 图 9 示出了可以实现根据本发明上述方法的服务器, 例如搜索引 擎服务器。 该服务器传统上包括处理器 910和以存储器 930形式的计算机程 序产品或者计算机可读介质。 存储器 930可以是诸如闪存、 EEPROM (电可 擦除可编程只读存储器) 、 EPROM、 硬盘或者 ROM之类的电子存储器。 存 储器 930具有用于执行上述方法中的任何方法步骤的程序代码 951的存储空 间 950。 例如, 用于程序代码的存储空间 950可以包括分别用于实现上面的方 法中的各种步骤的各个程序代码 951。这些程序代码可以从一个或者多个计算 机程序产品中读出或者写入到这一个或者多个计算机程序产品中。 这些计算 机程序产品包括诸如硬盘, 紧致盘(CD ) 、 存储卡或者软盘之类的程序代码 载体。 这样的计算机程序产品通常为如参考图 10所述的便携式或者固定存储 单元。 该存储单元可以具有与图 9的服务器中的存储器 930类似布置的存储 段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元 包括计算机可读代码 951,,即可以由例如诸如 910之类的处理器读取的代码, 这些代码当由服务器运行时, 导致该服务器执行上面所描述的方法中的各个 步骤。
本文中所称的 "一个实施例" 、 "实施例" 或者 "一个或者多个实施例" 意味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少一 个实施例中。 此外, 请注意, 这里 "在一个实施例中" 的词语例子不一定全 指同一个实施例。
在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 本 发明的实施例可以在没有这些具体细节的情况下被实践。 在一些实例中, 并 未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。 在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要 求的限制。 单词 "包含" 不排除存在未列在权利要求中的元件或步骤。 位于 元件之前的单词 "一" 或 "一个" 不排除存在多个这样的元件。 本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。 在 列举了若干装置的单元权利要求中, 这些装置中的若干个可以是通过同一个 硬件项来具体体现。 单词第一、 第二、 以及第三等的使用不表示任何顺序。 可将这些单词解释为名称。
此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教导的 目的而选择的, 而不是为了解释或者限定本发明的主题而选择的。 因此, 在 不偏离所附权利要求书的范围和精神的情况下, 对于本技术领域的普通技术 人员来说许多修改和变更都是显而易见的。 对于本发明的范围, 对本发明所 做的公开是说明性的, 而非限制性的, 本发明的范围由所附权利要求书限定。

Claims

WO 2015/043322 利 要 求 书 PCT/CN2014/084206
1、 一种搜索引擎抓取网页开放式摘要信息的方法, 包括:
在抓取网页信息时, 检测其中是否包含预设的开放式摘要信息的标识; 以及
在检测到网页信息中包含所述标识的情况下,抓取网页信息中描述开放 式摘要信息的结构的协议头以及与开放式摘要信息中描述的所述结构相映 射的网页内容。
2、 如权利要求 1 所述的方法, 其中, 每个网页包括一个或者多个开放 式摘要信息, 每个开放式摘要信息与相应的网页的关键词相关联。
3、 如权利要求 1 所述的方法, 其中, 与所述开放式摘要信息中描述的 结构相映射的网页内容包括以下的至少一种: 文字、 图片、 链接、 视频和音 频。
4、 如权利要求 1至 3中的任一项所述的方法, 所述方法还包括: 验证开放式摘要信息的渲染结果、和 /或验证开放式摘要信息的格式、和 /验证开放式摘要信息的网页内容;
在验证通过的情况下, 在接收到与网页的关键词相匹配的搜索请求时, 返回根据所述协议头以及所述内容对开放式摘要信息进行渲染的渲染结果, 以作为所述搜索请求的搜索结果。
5、 如权利要求 4所述的方法, 所述方法还包括:
在验证未通过的情况下, 在接收到与网页的关键词相匹配的搜索请求 时, 返回网页的默认摘要信息, 以作为所述搜索请求的搜索结果。
6、 如权利要求 4所述的方法, 其中, 所述验证开放式摘要信息的格式 的步骤包括:
验证开放式摘要信息所占网页区域的大小是否超出预先定义的阔值; 所述验证开放式摘要信息的内容的步骤包括:
验证开放式摘要信息的内容中是否包含特定元素。
7、 如权利要求 6 中所述的方法, 其中, 所述特定元素包括价格和折扣 信息中的至少一个。
8、 如权利要求 1至 3中的任一项所述的方法, 其中, 所述开放式摘要 信息采用 HTML、 HTML5、 JavaScript, Flash或 CSS的格式。
9、 一种搜索引擎抓取网页开放式摘要信息的装置, 包括:
检测模块, 用于在抓取网页信息时, 检测其中是否包含预设的开放式摘 要信息的标识; 以及
抓取模块, 用于在检测到网页信息中包含所述标识的情况下, 抓取网页 信息中描述开放式摘要信息的结构的协议头以及与开放式摘要信息中描述 的所述结构相映射的网页内容。
10、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代码在 计算机上运行时,将执行根据权利要求 1至 8中的任一项所述的搜索引擎抓 取网页开放式摘要信息的方法。
11、 一种计算机可读介质, 其中存储了如权利要求 10所述的计算机程 序。
12、 一种验证网页开放式摘要信息的方法, 包括:
在检测到网页信息中包含预设的开放式摘要信息的标识的情况下,验证 对开放式摘要信息进行渲染的渲染结果是否成功; 以及
根据预先定义的规则,验证所述开放式摘要信息的格式和 /或验证开放式 摘要信息的网页内容。
13、 如权利要求 12所述的方法, 所述方法还包括:
在所述渲染结果、以及所述开放式摘要信息的格式和 /或开放式摘要信息 的网页内容的验证通过的情况下,在接收到与网页的关键词相匹配的搜索请 求时, 返回所述网页的开放式摘要信息的渲染结果, 以作为所述搜索请求的 搜索结果。
14、 如权利要求 12所述的方法, 所述方法还包括:
在所述渲染结果、 或所述开放式摘要信息的格式、 或所述开放式摘要信 息的网页内容的验证未通过的情况下,在接收到与网页的关键词相匹配的搜 索请求时, 返回网页的默认摘要信息, 以作为所述搜索请求的搜索结果。
15、 如权利要求 12至 14中的任一项所述的方法, 其中在所述根据预先 定义的规则验证所述开放式摘要信息的格式的步骤中,验证开放式摘要信息 所占网页区域的大小是否超出预先定义的阔值。
16、 如权利要求 12至 14中的任一项所述的方法, 其中在所述根据预先 定义的规则验证所述开放式摘要信息的内容的步骤中,验证开放式摘要信息 的网页内容中是否包含特定元素。
17、 如权利要求 16所述的方法, 其中所述特定元素包括价格和折扣率 中的至少一个。
18、 如权利要求 12至 14中的任一项所述的方法, 其中所述网页内容包 括以下的至少一种: 文字、 图片、 链接、 视频和音频。
19、 如权利要求 12至 14中的任一项所述的方法, 其中所述开放式摘要 信息采用 HTML、 HTML5、 JavaScript, Flash或 CSS的格式。
20、 如权利要求 12至 14中的任一项所述的方法, 其中所述搜索结果采 用 HTML、 SHTML, HTML5或 XML的格式。
21、 一种验证网页开放式摘要信息的装置, 包括:
第一验证模块,用于在检测到网页信息中包含预设的开放式摘要信息的 标识的情况下, 验证对开放式摘要信息进行渲染的渲染结果是否成功; 以及 第二验证模块, 用于根据预先定义的规则, 验证所述开放式摘要信息的 格式和 /或验证开放式摘要信息的网页内容。
22、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代码在 计算机上运行时,将执行根据权利要求 12至 20中的任一项所述的验证网页 开放式摘要信息的方法。
23、 一种计算机可读介质, 其中存储了如权利要求 22所述的计算机程 序。
24、 一种搜索引擎提供网页开放式摘要信息的方法, 包括:
接收搜索请求;
在开放式摘要数据库中查找与所述搜索请求相匹配的网页内容; 以及 对于与所述搜索请求相匹配的网页,返回对开放式摘要信息进行渲染的 渲染结果, 以作为所述搜索请求的搜索结果。
25、 如权利要求 24所述的方法, 其中在所述网页包括多个开放式摘要 信息的情况下, 确定与所述搜索请求最相匹配的开放式摘要信息, 并且返回 对所述最相匹配的开放式摘要信息进行渲染的渲染结果, 以作为所述搜索请 求的搜索结果。
26、 如权利要求 24所述的方法, 其中根据网页信息中描述开放式摘要 信息的结构的协议头以及与其中描述的所述结构相映射的网页内容,对开放 式摘要信息进行渲染。
27、如权利要求 26所述的方法, 其中采用 HTML、 HTML5、 JavaScript, Flash, 或 CSS 的格式, 根据所述协议头以及所述网页内容, 对所述开放式 摘要信息进行渲染。
28、 如权利要求 24至 27中的任一项所述的方法, 其中所述网页内容包 括以下的至少一种: 文字、 图片、 链接、 视频和音频。
29、 如权利要求 24至 27中的任一项所述的方法, 其中所述搜索结果采 用 HTML、 SHTML, HTML5、 或 XML的格式。
30、 如权利要求 24至 27中的任一项所述的方法, 其中在所述接收搜索 请求的步骤中, 从客户端接收所述搜索请求, 并且
在所述网页包括开放式摘要信息的情况下、返回对开放式摘要信息进行 渲染的渲染结果以作为所述搜索请求的搜索结果的步骤中, 向所述客户端返 回渲染结果, 以在所述客户端上作为搜索结果进行展示。
31、 如权利要求 24至 27中的任一项所述的方法, 其中在所述搜索结果 中, 包含开放式摘要信息的搜索结果排在靠前的位置。
32、 一种搜索引擎提供网页开放式摘要信息的装置, 其包括:
接收模块, 用于接收搜索请求;
查找模块, 用于在开放式摘要数据库中查找与所述搜索请求相匹配的网 页内容; 以及
提供模块, 用于对于与所述搜索请求相匹配的网页, 返回对开放式摘要 信息进行渲染的渲染结果, 以作为所述搜索请求的搜索结果。
33、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代码在 计算机上运行时,将执行根据权利要求 24至 31中的任一项所述的搜索引擎 提供网页开放式摘要信息的方法。
34、 一种计算机可读介质, 其中存储了如权利要求 33所述的计算机程 序。
35、 一种引擎提供网页开放式摘要的方法, 包括: 在接收到搜索请求时, 返回包含与所述搜索请求相匹配的关键词的多个 网页的开放式摘要信息的渲染结果, 以作为所述搜索请求的搜索结果; 以及 响应于基于所述开放式摘要信息中的特定元素进行排序的请求,对所述 搜索结果进行排序。
36、 如权利要求 35所述的方法, 在所述在接收到搜索请求时返回包含 与所述搜索请求相匹配的关键词的多个网页的开放式摘要信息的渲染结果 以作为所述搜索请求的搜索结果的步骤(S410 )之前, 还包括步骤:
在抓取网页信息时, 检测其中是否包含预设的开放式摘要信息的标识; 以及
在检测到网页信息中包含所述标识的情况下,检测开放式摘要信息中是 否包含特定元素, 在包含的情况下, 将所述特定元素与网页的关键词、 开放 式摘要信息相对应地存储。
37、 如权利要求 36所述的方法, 其中在所述将所述特定元素与网页的 关键词、 开放式摘要信息相对应地存储的步骤中, 将所述特定元素作为特定 条目, 与网页的关键词、 开放式摘要信息相对应地存储在搜索引擎的数据库 中。
38、 如权利要求 35至 37中的任一项所述的方法, 其中在所述响应于基 于所述开放式摘要信息中的特定元素进行排序的请求、对所述搜索结果进行 排序的步骤中, 将包含开放式摘要信息的搜索结果排在靠前的位置。
39、 如权利要求 35至 37中的任一项所述的方法, 其中在所述响应于基 于所述开放式摘要信息中的特定元素进行排序的请求、对所述搜索结果进行 排序的步骤中, 按照所述特定元素升序或者降序, 对所述搜索结果进行排序 的步骤。
40、 如权利要求 35至 37中的任一项所述的方法, 其中所述特定元素包 括价格、 折扣率、 好评率、 信用等级、 销量中的至少一个。
41、 如权利要求 35至 37中的任一项所述的方法, 其中所述网页内容包 括以下的至少一种: 文字、 图片、 链接、 视频、 音频。
42、 如权利要求 35至 37中的任一项所述的方法, 其中所述开放式摘要 信息采用 HTML、 HTML5、 JavaScript, Flash, 或 CSS的格式。
43、 如权利要求 35至 37中的任一项所述的方法, 其中所述搜索结果采 用 HTML、 SHTML, HTML5、 或 XML的格式。
44、 一种搜索引擎提供网页开放式摘要的装置, 其包括:
提供模块, 用于在接收到搜索请求时, 返回包含与所述搜索请求相匹配 的关键词的多个网页的开放式摘要信息的渲染结果, 以作为所述搜索请求的 搜索结果; 以及
排序模块, 用于响应于基于所述开放式摘要信息中的特定元素进行排序 的请求, 对所述搜索结果进行排序。
45、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代码在 计算机上运行时,将执行根据权利要求 35至 43中的任一项所述的引擎提供 网页开放式摘要的方法。
46, 一种计算机可读介质, 其中存储了如权利要求 45所述的计算机程 序。
PCT/CN2014/084206 2013-09-26 2014-08-12 引擎抓取、验证和提供网页开放式摘要的方法及装置 WO2015043322A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/025,236 US20160232237A1 (en) 2013-09-26 2014-08-12 Method and device for an engine to crawl, validate, and provide open-type abstract information of a webpage

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
CN201310445238.0 2013-09-26
CN201310445194.1A CN103514278B (zh) 2013-09-26 2013-09-26 一种验证网页开放式摘要信息的方法及装置
CN201310445194.1 2013-09-26
CN201310445329.4 2013-09-26
CN201310445150.9 2013-09-26
CN201310445238.0A CN103473358B (zh) 2013-09-26 2013-09-26 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN201310445329.4A CN103473359B (zh) 2013-09-26 2013-09-26 一种引擎提供网页开放式摘要的方法及装置
CN201310445150.9A CN103473357B (zh) 2013-09-26 2013-09-26 一种搜索引擎提供网页开放式摘要信息的方法及装置

Publications (1)

Publication Number Publication Date
WO2015043322A1 true WO2015043322A1 (zh) 2015-04-02

Family

ID=52742005

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/084206 WO2015043322A1 (zh) 2013-09-26 2014-08-12 引擎抓取、验证和提供网页开放式摘要的方法及装置

Country Status (2)

Country Link
US (1) US20160232237A1 (zh)
WO (1) WO2015043322A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038387A (zh) * 2017-01-04 2017-08-11 阿里巴巴集团控股有限公司 一种数据展示方法、装置及客户端
JP7322194B2 (ja) 2020-04-29 2023-08-07 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド データ更新方法、装置、検索サーバ、端末及び記憶媒体
CN111767442B (zh) * 2020-04-29 2023-12-26 百度在线网络技术(北京)有限公司 数据更新方法、装置、搜索服务器、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959545A (zh) * 2010-06-29 2013-03-06 微软公司 导航到流行的搜索结果
CN103077217A (zh) * 2012-12-28 2013-05-01 北京百度网讯科技有限公司 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备
CN103246678A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种网页内容预览方法和装置
CN103473358A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103473359A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种引擎提供网页开放式摘要的方法及装置
CN103473357A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎提供网页开放式摘要信息的方法及装置
CN103514278A (zh) * 2013-09-26 2014-01-15 北京奇虎科技有限公司 一种验证网页开放式摘要信息的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959545A (zh) * 2010-06-29 2013-03-06 微软公司 导航到流行的搜索结果
CN103246678A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种网页内容预览方法和装置
CN103077217A (zh) * 2012-12-28 2013-05-01 北京百度网讯科技有限公司 用于提供与查询序列相匹配的结果附加信息的方法、装置与设备
CN103473358A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103473359A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种引擎提供网页开放式摘要的方法及装置
CN103473357A (zh) * 2013-09-26 2013-12-25 北京奇虎科技有限公司 一种搜索引擎提供网页开放式摘要信息的方法及装置
CN103514278A (zh) * 2013-09-26 2014-01-15 北京奇虎科技有限公司 一种验证网页开放式摘要信息的方法及装置

Also Published As

Publication number Publication date
US20160232237A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
TWI420331B (zh) 於搜尋結果頁上結合互動元件之系統及方法
US9489401B1 (en) Methods and systems for object recognition
KR101527259B1 (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
US8612416B2 (en) Domain-aware snippets for search results
US8341150B1 (en) Filtering search results using annotations
US8601120B2 (en) Update notification method and system
US8290927B2 (en) Method and apparatus for rating user generated content in search results
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
US20140325401A1 (en) Identifying viral videos
US8880536B1 (en) Providing book information in response to queries
KR20110085995A (ko) 검색 결과들의 제공
US8706655B1 (en) Machine learned classifiers for rating the content quality in videos using panels of human viewers
JP2006018843A (ja) ページカテゴリ情報の使用による検索エンジン結果の分散
CN108763244B (zh) 在图像内搜索和注释
WO2015081792A1 (zh) 联动性和个性化扩展搜索方法及装置、系统
US9916384B2 (en) Related entities
WO2015003663A1 (zh) 一种视频处理方法、装置、服务器和客户端设备
WO2021068681A1 (zh) 标签分析方法、装置及计算机可读存储介质
US8572073B1 (en) Spam detection for user-generated multimedia items based on appearance in popular queries
CN103473358A (zh) 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN107851114B (zh) 用于自动信息检索的方法、系统和介质
WO2015043322A1 (zh) 引擎抓取、验证和提供网页开放式摘要的方法及装置
US20140297613A1 (en) Method for customizing search queries to optimized search results
US9208157B1 (en) Spam detection for user-generated multimedia items based on concept clustering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14849439

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15025236

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14849439

Country of ref document: EP

Kind code of ref document: A1