WO2015149550A1 - 确定网站内链接等级的方法及装置 - Google Patents

确定网站内链接等级的方法及装置 Download PDF

Info

Publication number
WO2015149550A1
WO2015149550A1 PCT/CN2014/094632 CN2014094632W WO2015149550A1 WO 2015149550 A1 WO2015149550 A1 WO 2015149550A1 CN 2014094632 W CN2014094632 W CN 2014094632W WO 2015149550 A1 WO2015149550 A1 WO 2015149550A1
Authority
WO
WIPO (PCT)
Prior art keywords
link
class
website
links
preset
Prior art date
Application number
PCT/CN2014/094632
Other languages
English (en)
French (fr)
Inventor
魏少俊
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Publication of WO2015149550A1 publication Critical patent/WO2015149550A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the invention relates to a computer information processing technology, in particular to a method and a device for determining a link level in a website.
  • a web crawler (also known as a web spider) is a program or script that automatically obtains web information in accordance with certain rules.
  • Search engines use web crawlers to download all web pages from hundreds of millions of sites on the Internet for analyzing web page data and indexing.
  • the Internet is constantly generating new web pages and updating old web pages, so web crawlers also need to keep working to ensure that search engines have the latest Internet web image.
  • crawlers always want to include web pages faster.
  • the crawler's crawling of the web page will take up the server resources of the website. If the crawling frequency exceeds the tolerance of the website, it will affect the normal access of the website users, which will seriously lead to the embarrassment of the website server. Therefore, the search engine must capture the website within the acceptable range of the site, and the search engine will use a certain method to estimate the value of the crawl.
  • the search engine is mainly based on a chain pattern to determine whether it is a different link. That is to say, a Uniform/Universal Resource Locator (URL, also referred to as a web address) is compared with another URL, where only one character is different or one more character or one less character.
  • URL Uniform/Universal Resource Locator
  • the two URLs are different URLs.
  • the performance of URL flooding mainly has the following aspects:
  • the content pointed to by the URL does not provide useful information to the user, it may be some empty content, or even cheating or harmful content.
  • the content pointed to by the URL is completely duplicated by the content pointed to by other forms of URL.
  • the URL will become invalid and become inaccessible.
  • the present invention has been made in order to provide a method and apparatus, computer program and computer readable medium for determining a link level within a website that overcomes the above problems or at least partially solves the above problems, in order to accurately identify valuables within the website. link.
  • a method of determining a link level within a website including:
  • the rank of the link is determined based on the class quality level and the link value of the link.
  • the foregoing method for determining a link level in a website wherein the determining, according to a link address of a link in the website, a class to which the link belongs includes:
  • an apparatus for determining a link level in a website is provided.
  • the apparatus for determining a link level in a website is disposed on a server side, and the means for determining a link level in a website includes:
  • a first determining module configured to determine a class to which the link belongs according to a link address of a link in the website
  • a first obtaining module configured to acquire a class quality level corresponding to the class to which the link belongs
  • An extraction module configured to extract a link value of the link
  • a second determining module configured to determine a level of the link according to the quality level of the class and a link value of the link.
  • a computer program comprising computer readable code that, when executed by an electronic device, causes said method of determining a level of link within a website to be performed.
  • a computer readable medium storing a computer program as described above is provided.
  • the technical solution provided by the embodiment of the present invention has at least the following advantages:
  • the technical solution provided by the present invention determines the class quality level of the class to which the link belongs and the class to which it belongs, and then determines the level of the link according to the class quality level and the extracted link value of the link, thereby accurately identifying the link.
  • the valuable links in the website provide a guided crawling reference for search engines, so that the search engine can reasonably distribute the crawling traffic among the many links in the site to ensure the inclusion of high-value links.
  • FIG. 1 is a schematic flowchart diagram of a method for determining a link level in a website according to Embodiment 1 of the present invention
  • step 101 is a schematic flowchart of a specific implementation of step 101 in a method for determining a link level in a website according to Embodiment 1 of the present invention
  • FIG. 3 is a schematic flowchart of a specific implementation of step 103 in a method for determining a link level in a website according to Embodiment 1 of the present invention
  • step 102 is a schematic flowchart of a specific implementation of step 102 in a method for determining a link level in a website according to Embodiment 1 of the present invention
  • FIG. 5 is a schematic structural diagram of an implementation of an apparatus for determining a link level in a website according to Embodiment 2 of the present invention.
  • FIG. 6 is a schematic structural diagram of the first determining module in an apparatus for determining a link level in a website according to Embodiment 2 of the present invention.
  • FIG. 7 is a schematic structural diagram of another implementation of an apparatus for determining a link level in a website according to Embodiment 2 of the present invention.
  • Figure 8 shows a block diagram of an electronic device for performing the method of the present invention
  • Figure 9 shows a schematic diagram of a memory unit for holding or carrying program code implementing a method in accordance with the present invention.
  • FIG. 1 a schematic flowchart of a method for determining a link level in a website according to Embodiment 1 of the present invention is shown.
  • the execution body of the method provided by this embodiment may be a device that is set on the server side to determine the link level in the website.
  • the method for determining a link level in a website includes:
  • Step 101 Determine a class to which the link belongs according to a link address of a link in the website.
  • the link address may be a URL of the link.
  • the URL of the link is specifically represented as follows:
  • the URLs of two links in the Sina News website are specifically characterized as follows:
  • the URLs of the links can clearly distinguish the classes to which the links belong, that is, the links that start with blog.sina.com.cn/s/blog_ belong to the blog post page. Classes, links that start with news.sina.com.cn/c/ belong to the news page class and so on.
  • the blog.sina.com.cn/s/blog_ or news.sina.com.cn/c/ can be used as a kind of linked pattern (manual representation rules based on character representation). By extracting the Pattern of the link address, you can determine the class to which the link belongs.
  • this step can be implemented by the steps shown in FIG. 2, including:
  • Step 1011 Extract feature information of the link from a link address linked in the website according to a preset feature extraction rule.
  • the preset feature extraction rule may be composed of multiple extraction rule conditions, such as: extracting site information of the link address, extracting the primary domain information of the link address, extracting the path information of the link address, and extracting the CGI of the link address (Common Gateway) Interface, general gateway interface) information and so on. That is, according to the feature extraction rule, the extracted feature information of the link includes: site information, primary domain information, path information, CGI information, and the like. It should be noted here that the designer can manually set the feature extraction rule according to the characteristics of the actual link address and the actual classification requirements.
  • the URL of the link in the two Sina blog websites may extract the following feature information according to the preset feature extraction rule:
  • the URLs of the links in the two Sina news websites may extract the following feature information:
  • Step 1012 Acquire a class corresponding to the feature information of the link according to a preset feature information and a correspondence relationship of the class, where the class is a class to which the link belongs.
  • the correspondence between the feature information and the class may be stored in advance in a set storage area. That is, the relationship information of the feature information and the class is stored in the set storage area.
  • the class corresponding to the feature information is obtained by querying the relationship list, and the acquired class is a class to which the link belongs.
  • the feature information and the relationship list of the classes can be schematically characterized as the following Table 1:
  • Step 102 Acquire a class quality level corresponding to the class to which the link belongs.
  • the class quality level corresponding to the class to which the link belongs may be a value that is previously assigned and stored, that is, each class is given a corresponding quality level value in advance.
  • the specific quality level values assigned to each class can be calculated based on empirical values or according to a preset class quality level calculation rule.
  • Step 103 Extract a link value of the link.
  • the link value of the link may be a pre-calculated and stored value, that is, the corresponding link value is pre-calculated for each link.
  • the link value of the link may be calculated according to the statistical information of the link and using a preset link value calculation rule. Specifically, the calculation and storage of the link value of each link can be implemented by the method shown in FIG. 3, including:
  • Step 1031 Obtain an evaluation parameter related to the link.
  • the evaluation parameter includes: one or more of the importance level indicator Pagerank of the link, the depth of the link in the website, the click amount of the link, and the content value of the webpage content corresponding to the link. Combination of one.
  • Pagerank page rank, also known as page level
  • Pagerank is a technique that is calculated by search engines based on hyperlinks between web pages.
  • Pagerank is a technology used by existing network companies to determine the level of a page through the hyperlink relationship of the network.
  • the content value of the webpage content corresponding to the link may be determined according to a preset content value identification rule. For example, determining, by the content value identification rule, whether the webpage content is complete, and whether the keyword includes a preset number of times of retrieval. (ie important keywords) and so on. Obviously, the more complete the content of the webpage, the more webpage content that contains more important keywords, the higher the content value.
  • Step 1032 Calculate a link value of the link according to the evaluation parameter.
  • the link value of the link may be calculated according to the evaluation parameter by using a preset link value calculation rule.
  • the link value calculation rule can be set by experience. Of course, it can also be implemented by the method used in the prior art for evaluating the value of each link.
  • the calculated link value of the link can be normalized to a value between (0, 1).
  • Step 1033 Store the link value of the link.
  • Step 104 Determine a level of the link according to the class quality level and a link value of the link.
  • the technical solution provided by the embodiment determines the class quality level of the class to which the link belongs and the class to which it belongs, and then determines the level of the link according to the class quality level and the extracted link value of the link, thereby accurately identifying
  • the valuable links in the website provide a guiding reference for the search engine, so that the search engine can reasonably distribute the crawling traffic among the many links in the site, ensure the inclusion of high-value links, and improve the user search experience.
  • the method further includes: calculating a class quality level corresponding to each class according to a preset class quality level calculation rule, and storing the calculated quality levels corresponding to the corresponding class.
  • the process specifically includes the following steps:
  • Step 1021 Acquire first statistical information related to all links belonging to the class in the website.
  • the first statistical information may include: a combination of one or any of a first index amount, a first presentation amount, a first click amount, and a first collection amount.
  • the first index quantity is an quantity in which all links belonging to the class in the website are indexed.
  • the first amount of presentation is the number of all links in the website that belong to the class appearing in the search results within a preset first time period (eg, 24 hours).
  • the first click amount is the number of times that all links belonging to the class in the website appear in the search result and are clicked by the user within a preset second time period (eg, 24 hours).
  • the first listing amount is the number of all linked corresponding webpages in the website belonging to the class that are included in the index by the search engine.
  • Step 1022 Obtain second statistical information related to the website.
  • the second statistical information may include: a combination of one or any of a second index amount, a second presentation amount, a second click amount, and a second recording amount.
  • the second index quantity is the number of all links that are indexed in the website.
  • the second presentation amount is the number of all the links indexed in the website appearing in the index result within a preset first time period (eg, 24 hours).
  • the second click quantity is the number of times all the links indexed in the website are in the search result appearing in the preset second time period (such as 24 hours) and are clicked by the user.
  • the second inclusion amount is the number of webpages corresponding to all links belonging to the website indexed by the search engine into the index.
  • Step 1023 Calculate the quality level of the class according to the first statistical information and the second statistical information.
  • the step may be specifically: calculating, according to the first statistical information and the second statistical information, the quality level of the class by using the following first calculation formula:
  • v is the quality level of the class
  • i is the first index amount
  • e is the first presentation amount
  • c is the first click amount
  • l is the first recording amount
  • I is the a second index amount
  • E is the second presentation amount
  • C is the second click amount
  • L is the second recording amount
  • a is a preset first coefficient
  • is a preset second coefficient
  • is The third coefficient is preset.
  • a is a preset first coefficient
  • is a preset second coefficient
  • is a preset third coefficient, which is a normalization coefficient
  • the quality level calculated by the above method is a relative quality level of the intra-site class, and different sites also have different site webpage values.
  • the webpage value of a large network site such as Sina and Sohu is higher than The pages of other small sites are worth a lot.
  • the content of the webpage corresponding to two or more links of the same type of link sometimes overlaps, and it is obvious that the uniqueness of the content also affects the quality level of the class. Therefore, it is necessary to introduce the two dimensions of the total value of the website site and the uniqueness of the content, further assisting the correction, and finally obtaining a more accurate class quality level, that is, after the above step 1023, as shown in FIG. 4, the method further includes:
  • Step 1024 Extract the link value of all links in the website.
  • the link value of the link may be a pre-calculated and stored value, that is, the corresponding link value is pre-calculated for each link.
  • the link value of the link may be calculated according to the statistical information of the link and using a preset link value calculation rule. For the method of calculating and storing the link value of each link, refer to the description of the corresponding content above, and details are not described herein again.
  • Step 1025 Obtain a proportion of all links belonging to the class to all links in the website.
  • Step 1026 Correct the quality level of the class according to the link value of the links in the website and the proportion.
  • the step is specifically: according to the link value of the links in the website and the proportion, the quality level of the class is corrected by using the following second calculation formula:
  • V is the corrected quality level of the class
  • v is the quality level of the class before the correction
  • u/U is the ratio.
  • ⁇ 1 is a preset first correction coefficient
  • ⁇ 2 is a preset second correction coefficient
  • ⁇ 3 is a preset third correction coefficient.
  • ⁇ 1 is a preset first correction coefficient
  • ⁇ 2 is a preset second correction coefficient
  • ⁇ 3 is a preset third correction coefficient which is a normalization coefficient
  • determining the level of the link according to the quality level of the class and the link value of the link may be specifically implemented by using the following method, that is,
  • the level of the link is determined by using a third calculation formula as follows:
  • V link ⁇ 1 ⁇ V+ ⁇ 2 ⁇ q link
  • V link is the level of the link
  • V is the quality level of the class
  • q link is the link value of the link
  • ⁇ 1 is the preset fourth coefficient
  • ⁇ 2 is the preset fifth coefficient.
  • ⁇ 1 described in the above embodiment is a preset fourth coefficient
  • ⁇ 2 is a preset fifth coefficient which is a normalization coefficient
  • the search engine can reasonably allocate the crawl traffic among the many links in the site, thereby ensuring that the high-quality link can be preferentially captured. Based on the basis, to ensure the inclusion of high-quality links, improve the user search experience.
  • the foregoing program may be stored in a computer readable storage medium, and the program is executed when executed.
  • the foregoing steps include the steps of the foregoing method embodiments; and the foregoing storage medium includes: a medium that can store program codes, such as a ROM, a RAM, a magnetic disk, or an optical disk.
  • FIG. 5 is a schematic structural diagram of an apparatus for determining a link level in a website according to Embodiment 2 of the present invention.
  • the device for determining the link level in the website may be set on the server side.
  • the device for determining the link level in the website according to the second embodiment includes: a first determining module 1, a first obtaining module 2, and an extracting Module 3 and second determination module 4.
  • the first determining module 1 is configured to determine a class to which the link belongs according to a link address of a link in the website.
  • the first obtaining module 2 is configured to acquire the The class quality level corresponding to the class to which the link belongs.
  • the extraction module 3 is configured to extract the link value of the link.
  • the second determining module 4 is configured to determine a level of the link according to the quality level of the class and the link value of the link.
  • the apparatus for determining a link level in a website may implement the method for determining a link level in a website provided by the foregoing Embodiment 1.
  • the apparatus provided in this embodiment determines the class quality level of the class to which the link belongs and the class to which it belongs, and then determines the level of the link according to the class quality level and the extracted link value of the link, thereby being accurate. Identify valuable links in the website and provide a guided crawling reference for search engines, so that search engines can reasonably distribute crawling traffic among many links within the site, ensure the inclusion of high-value links, and improve the user search experience. .
  • the first determining module described in the foregoing embodiment may be implemented by using the structure shown in FIG. 6.
  • the first determining module 1 includes an extracting unit 11 and an obtaining unit 12.
  • the extracting unit 11 is configured to extract feature information of the link from a link address linked in the website according to a preset feature extraction rule.
  • the obtaining unit 12 is configured to acquire a class corresponding to the feature information of the link according to a preset feature information and a correspondence relationship of the class, where the class is a class to which the link belongs.
  • the apparatus for determining the link level in the website provided by the foregoing embodiment, based on the structure shown in FIG. 5, as shown in FIG. 7, further includes: a second obtaining module 5, a third obtaining module 6, and a A calculation module 7.
  • the second obtaining module 5 is configured to obtain first statistics information related to all links belonging to the class in the website.
  • the third obtaining module 6 is configured to acquire second statistical information related to the website.
  • the first calculating module 7 is configured to calculate the quality level of the class according to the first statistical information and the second statistical information.
  • the apparatus for determining the link level in the website described in the above embodiment further includes: a fourth obtaining module 8 and the correction module 9.
  • the extraction module 3 described in the foregoing embodiment is further configured to extract a link value of all links in the website.
  • the fourth obtaining module 8 is configured to obtain a proportion of all links belonging to the class to all links in the website.
  • the correction module 9 is configured to correct the quality level of the class according to the link value of the links in the website and the ratio.
  • the first statistical information described in the foregoing embodiment is a combination of one or any of a first index quantity, a first presentation quantity, a first click quantity, and a first collection quantity.
  • the first index quantity is a quantity in which all links belonging to the class are indexed, and the first presentation quantity is that all links belonging to the class are in a preset first time period (eg, 24 hours).
  • the number of occurrences in the search results; the first click amount is the number of times all links belonging to the class appear in the search result and are clicked by the user within a preset second time period (eg, 24 hours).
  • the first recorded amount is the number of all linked web pages belonging to the class that are included in the index by the search engine.
  • the second statistical information is a second index A combination of one or any of a quantity, a second amount of presentation, a second amount of clicks, and a second amount of inclusion.
  • the second index quantity is the number of all the links indexed in the website, and the second display quantity is that all the links indexed in the website are in the preset first time period.
  • the number of occurrences in the index result (such as 24 hours);
  • the second click amount is a search that occurs in all the links indexed in the website within a preset second time period (eg, 24 hours)
  • the number of times in the result and clicked by the user, the second amount of entries is the number of pages corresponding to all links belonging to the website indexed by the search engine into the index.
  • the calculation module described in the foregoing embodiment is specifically configured to calculate, according to the first statistical information and the second statistical information, a class quality level of the class to which the link belongs according to the first calculation formula:
  • v is the quality level of the class
  • i is the first index amount
  • e is the first presentation amount
  • c is the first click amount
  • l is the first recording amount
  • I is the a second index amount
  • E is the second presentation amount
  • C is the second click amount
  • L is the second recording amount
  • a is a preset first coefficient
  • is a preset second coefficient
  • is The third coefficient is preset.
  • correction module described in the foregoing embodiment is specifically configured to modify the quality level of the class according to the link value of the links in the website and the ratio, and adopt the following second calculation formula:
  • V is the corrected quality level of the class
  • v is the quality level of the class before the correction
  • u/U is the ratio.
  • ⁇ 1 is a preset first correction coefficient
  • ⁇ 2 is a preset second correction coefficient
  • ⁇ 3 is a preset third correction coefficient.
  • the apparatus for determining the link level in the website described in the foregoing embodiment may further include: a fifth obtaining module 10, a second calculating module 20, and a storage module 30.
  • the fifth obtaining module 10 is configured to acquire the evaluation parameter related to the link, where the evaluation parameter includes: an importance level indicator of the link, Pagerank, a depth of the link in the website where the link is located, and the link A combination of one or more of the content amount of the webpage content corresponding to the click volume and the link.
  • the second calculation module 20 is configured to calculate a link value of the link according to the evaluation parameter.
  • the storage module 30 is configured to store a link value of the link.
  • the second calculating module is specifically configured to determine, according to the quality level of the class and the link value of the link, a level of the link by using a third calculation formula:
  • V link ⁇ 1 ⁇ V+ ⁇ 2 ⁇ q link
  • V link is the level of the link
  • V is the quality level of the class
  • q link is the link value of the link
  • ⁇ 1 is the preset fourth coefficient
  • ⁇ 2 is the preset fifth coefficient.
  • modules in the devices of the embodiments can be adaptively changed and placed in one or more devices different from the embodiment.
  • the modules or units or components of the embodiments may be combined into one module or unit or component, and further they may be divided into a plurality of sub-modules or sub-units or sub-components.
  • any combination of the features disclosed in the specification, including the accompanying claims, the abstract and the drawings, and any methods so disclosed, or All processes or units of the device are combined. Unless otherwise stated, this specification (including accompanying claims, Each feature disclosed in the abstract and the drawings may be replaced by alternative features that provide the same, equivalent or similar purpose.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the means for determining a level of link within a website in accordance with an embodiment of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • Such a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • FIG. 8 illustrates an electronic device in which the method of determining a link level within a website of the present invention can be implemented.
  • the electronic device conventionally includes a processor 810 and a computer program product or computer readable medium in the form of a memory 820.
  • the memory 820 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
  • Memory 820 has a memory space 830 for program code 831 for performing any of the method steps described above.
  • storage space 830 for program code may include various program code 831 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • Such computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such a computer program product is typically a portable or fixed storage unit as described with reference to FIG.
  • the storage unit may have a storage section or a storage space or the like arranged similarly to the storage 820 in the electronic device of FIG.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit comprises a program 831' for performing the steps of the method according to the invention, ie a code readable by a processor, such as 810, which, when executed by the electronic device, causes the electronic device to perform the above Each step in the described method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种确定网站内链接等级的方法及装置。其中,所述方法包括:根据网站内链接的链接地址,确定所述链接所属的类;获取所述链接所属类对应的类质量等级;提取所述链接的链接价值;根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。本发明提供的技术方案能准确的识别出网站内有价值的链接,为搜索引擎提供具有指导作用的抓取参照,使得搜索引擎能合理地在站点内众多链接之间分配抓取流量,保证高价值链接的收录。

Description

确定网站内链接等级的方法及装置 技术领域
本发明涉及一种计算机信息处理技术,特别是涉及一种确定网站内链接等级的方法及装置。
背景技术
网络爬虫(又称为网页蜘蛛)是一种按照一定的规则,自动获取万维网信息的程序或者脚本。搜索引擎即通过网络爬虫从互联网数以亿计的站点下载全部的网页,以供分析网页数据和建立索引。互联网总是不停的在产生新网页和更新旧网页,因此网络爬虫也需要不停的工作以保证搜索引擎能拥有最新的互联网网页镜像。出于搜索效果的考虑,爬虫总是希望能更快地将网页收录。但是,爬虫对网页的抓取会占用网站的服务器资源。如果抓取频率超过了网站的承受范围,就会影响到网站用户的正常访问,严重的会导致网站服务器的瘫痪。因此,搜索引擎对网站的抓取量必须在站点可接受的范围内,搜索引擎会采用一定的方法估算抓取量的数值。
搜索引擎主要基于链接模式(chain pattern)来判断是否是不同链接。也就是说,一个统一资源定位符(Uniform/Universal Resource Locator,简称URL,也可称为网页地址)与另一个URL相比,其中只要有一个字符不相同或多一个字符或少一个字符,这两个URL就是不同的URL。自动建站、动态网页等工具和技术的广泛应用,使得新URL的产生变得非常容易,也导致链接泛滥成为互联网的普遍现象。
URL泛滥的表现主要有以下几个方面:
第一个方面,URL所指向的内容并不能提供对用户有用的信息,可能是一些空内容,甚至作弊或者有害的内容。
第二个方面,URL所指向的内容与其他形式的URL所指向的内容完全重复。
第三个方面,随着时间的推移,URL会失效变成死链,无法正常访问。
这些垃圾、重复、无效的链接与有效链接混合在一起,如果搜索引擎不加区分的将它们收录,一方面,原本紧张的站点抓取配额将被大量占用,另一方面从用户的角度来看,搜索引擎抓取到的网页大多都不具有参考价值。
由此可知,如何区分网站内有价值的链接,以便于将有限的抓取配额分配给高质量的链接是本发明所要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定网站内链接等级的方法及装置、计算机程序以及计算机可读介质,以准确识别出网站内有价值的链接。
依据本发明一个方面,提供了一种确定网站内链接等级的方法,包括:
根据网站内链接的链接地址,确定所述链接所属的类;
获取所述链接所属类对应的类质量等级;
提取所述链接的链接价值;
根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
可选的,前述的确定网站内链接等级的方法,其中,所述根据网站内链接的链接地址,确定所述链接所属的类,包括:
根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征信息;
根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述类即为所述链接所属的类。
根据本发明的另一个方面,提供了一种确定网站内链接等级的装置,所述确定网站内链接等级的装置设置在服务器侧,所述确定网站内链接等级的装置,包括:
第一确定模块,用于根据网站内链接的链接地址,确定所述链接所属的类;
第一获取模块,用于获取所述链接所属类对应的类质量等级;
提取模块,用于提取所述链接的链接价值;
第二确定模块,用于根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
根据本发明的另一个方面,提供了一种计算机程序,其包括计算机可读代码,当电子设备运行所述计算机可读代码时,导致所述的确定网站内链接等级的方法被执行。
根据本发明的再一个方面,提供了一种计算机可读介质,其中存储了如上所述的计算机程序。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供的技术方案通过确定链接所属类以及所属类的类质量等级,然后根据所述类质量等级及提取到的所述链接的链接价值确定出所述链接的等级,进而能准确的识别出网站内有价值的链接,为搜索引擎提供具有指导作用的抓取参照,使得搜索引擎能合理地在站点内众多链接之间分配抓取流量,保证高价值链接的收录。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的确定网站内链接等级的方法的流程示意图;
图2示出了本发明实施例一提供的确定网站内链接等级的方法中步骤101的具体实现的流程示意图;
图3示出了本发明实施例一提供的确定网站内链接等级的方法中步骤103的具体实现的流程示意图;
图4示出了本发明实施例一提供的确定网站内链接等级的方法中步骤102的具体实现的流程示意图;
图5示出了本发明实施例二提供的确定网站内链接等级的装置的一种实现的结构示意图;
图6示出了本发明实施例二提供的确定网站内链接等级的装置中所述第一确定模块的结构示意图;
图7示出了本发明实施例二提供的确定网站内链接等级的装置的另一种实现的结构示意图;
图8示出了用于执行本发明的方法的电子设备的框图;以及
图9示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例一提供的确定网站内链接等级的方法的流程示意图。本实施例提供的所述方法的执行主体可以是设置在服务器侧的确定网站内链接等级的装置。如图1所示,所述的确定网站内链接等级的方法包括:
步骤101、根据网站内链接的链接地址,确定所述链接所属的类。
其中,所述链接地址可以是该链接的URL。以新浪博客网站内的某两个链接为例,其链接的URL具体表征为如下形式:
http://blog.sina.com.cn/s/blog_487f6ff00102eh6a.html
http://blog.sina.com.cn/s/blog_4a324aeb0101eq83.html
又例如新浪新闻网站内的某两个链接的URL具体表征为如下形式:
http://news.sina.com.cn/c/2014-03-17/233529729220.shtml
http://news.sina.com.cn/c/2014-03-18/000229729252.shtml
从上面各链接的URL可以看出,通过各链接的URL就可清楚的区分出各链接所属的类,即凡是以blog.sina.com.cn/s/blog_开头的链接都属于博客文章页类,凡是以news.sina.com.cn/c/开头的链接都属于新闻页类等等。其中,所述blog.sina.com.cn/s/blog_或news.sina.com.cn/c/可作为一类链接的Pattern(基于字符表示的通配规则)。通过提取链接地址的Pattern即可确定出该链接所属的类。
由此,本步骤可采用如图2所示的步骤实现,包括:
步骤1011、根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征信息。
其中,所述预设的特征提取规则可由多个提取规则条件构成,例如:提取链接地址的站点信息,提取链接地址的主域信息、提取链接地址的路径信息、提取链接地址的CGI(Common Gateway Interface,通用网关接口)信息等等。即根据上述特征提取规则,提取出的所述链接的特征信息包括:站点信息,主域信息、路径信息及CGI信息等等。这里需要说明的是:设计人员可根据实际的链接地址的特点及实际分类的需求,人为设定所述特征提取规则。
例如,上述两个新浪博客网站内的链接的URL根据所述预设的特征提取规则,可提取出如下特征信息:
blog.sina.com.cn/s/blog_
上述两个新浪新闻网站内的链接的URL根据所述预设的特征提取规则,可提取出如下特征信息:
news.sina.com.cn/c/
步骤1012、根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述类即为所述链接所属的类。
其中,所述特征信息及类的对应关系可预先存储在设定的存储区内。即该设定的存储区内存储有所述特征信息及类的关系列表。通过查询该关系列表,以获取所述特征信息对应的类,该获取到的类即为所述链接所属的类。具体的, 所述特征信息及类的关系列表可示意表征为下表1:
表1特征信息及类的关系列表
特征信息
blog.sina.com.cn/s/blog_ 博客文章页类
...... ......
news.sina.com.cn/c/ 新闻页类
步骤102、获取所述链接所属类对应的类质量等级。
其中,所述链接所属类对应的类质量等级可为预先赋予并存储的值,即对应每一个类都预先赋予其对应的质量等级值。具体的赋予各类对应的类质量等级值可基于经验值设定或根据预设的类质量等级计算规则计算得出。
步骤103、提取所述链接的链接价值。
其中,所述链接的链接价值可以为预先计算并存储的值,即对应每一个链接均预先计算出其对应的链接价值。其中,所述链接的链接价值可根据对该链接的统计信息,采用预设的链接价值计算规则计算得出。具体的,各链接的链接价值的计算及存储可采用如图3所示的方法实现,包括:
步骤1031、获取与所述链接有关的评测参数。
其中,所述评测参数包括:所述链接的重要程度指标Pagerank、所述链接在所在网站的站内深度、所述链接的点击量及所述链接对应的网页内容的内容价值中的一个或任意多个的组合。
这里需要说明的是:Pagerank(网页排名,又称为网页级别),是一种由搜索引擎根据网页之间相互的超链接计算的技术。Pagerank是现有网络公司用于通过网络的超链接关系来确定一个页面的等级的技术。所述链接对应的网页内容的内容价值可根据预设的内容价值识别规则确定,例如,通过所述内容价值识别规则判断所述网页内容是否完整,是否包含有大于预设被检索次数的关键词(即重要关键词)等等。显然,网页内容越完整,包含重要关键词越多的网页内容,其内容价值也就越高。
步骤1032、根据所述评测参数,计算所述链接的链接价值。
具体的,可根据所述评测参数,采用预设的链接价值计算规则计算所述链接的链接价值。其中,所述链接价值计算规则可通过经验人为设定。当然,也可采用现有技术中用于评测各链接价值的方法来实现。计算得出的所述链接的链接价值可归一化到一个在(0,1]之间的值。
步骤1033、存储所述链接的链接价值。
步骤104、根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
本实施例提供的技术方案通过确定链接所属类以及所属类的类质量等级,然后根据所述类质量等级及提取到的所述链接的链接价值确定出所述链接的等级,进而能准确的识别出网站内有价值的链接,为搜索引擎提供具有指导作用的抓取参照,使得搜索引擎能合理地在站点内众多链接之间分配抓取流量,保证高价值链接的收录,提高用户搜索体验。
进一步的,若上述实施例中步骤102中所述的类质量等级不是根据经验值预赋的,而是通过计算得出的,则上述实施例中所述的步骤102、所述获取所述链接所属类对应的类质量等级之前,还包括:根据预设的类质量等级计算规则计算得出个类对应的类质量等级,并将计算得出的各类质量等级与相应类对应存储的过程。具体的,如图4所示,该过程具体包括如下步骤:
步骤1021、获取所述网站内与属于所述类的所有链接相关的第一统计信息。
其中,所述第一统计信息可以包括:第一索引量、第一展现量、第一点击量及第一收录量中的一种或任意多个的组合。具体的,所述第一索引量为所述网站内属于所述类的所有链接被建入索引的数量。所述第一展现量为所述网站内属于所述类的所有链接在预设的第一时间段(如24小时)内出现在搜索结果中的数量。所述第一点击量为所述网站内属于所述类的所有链接在预设的第二时间段(如24小时)内出现在搜索结果中且被用户点击的次数。所述第一收录量为被搜索引擎收录到索引中的属于所述类的所述网站内的所有链接对应网页的数量。
步骤1022、获取与所述网站相关的第二统计信息。
其中,所述第二统计信息可以包括:第二索引量、第二展现量、第二点击量及第二收录量中的一种或任意多个的组合。具体的,所述第二索引量为所述网站内被建入索引的所有链接的数量。所述第二展现量为所述网站内所有被建入索引的所有链接在预设的第一时间段(如24小时)内出现在索引结果中的数量。所述第二点击量为所述网站内所有被建入索引的所有链接在预设的第二时间段(如24小时)内出现的搜索结果中且被用户点击的次数。所述第二收录量为被搜索引擎收录到索引中的属于所述网站的所有链接对应的网页数量。
步骤1023、根据所述第一统计信息和第二统计信息,计算所述类质量等级。
其中,本步骤可具体为:根据所述第一统计信息和第二统计信息,采用如下第一计算公式计算所述类质量等级:
Figure PCTCN2014094632-appb-000001
其中,v为所述类质量等级,i为所述第一索引量,e为所述第一展现量,c为所述第一点击量,l为所述第一收录量,I为所述第二索引量,E为所述第二展现量,C为所述第二点击量,L为所述第二收录量,a为预设第一系数,β为预设第二系数;γ为预设第三系数。
这里需要说明的是:a为预设第一系数,β为预设第二系数及γ为预设第三系数都为归一化系数。
进一步的,采用上述方法计算得出的所述类质量等级为站点内类的相对质量等级,而不同站点也存在不同的站点网页价值,例如,新浪、搜狐等大型网络站点的网页价值就要比其他小型网站的网页价值要高。另外,同类链接的不同两个或多个链接对应的网页内容有时会出现重复,显然内容唯一度也会影响类质量等级。因此,需要将网站站点的总价值和内容唯一度两个维度引入,进一步辅助进行修正,最终得到更为准确的类质量等级,即上述步骤1023之后,如图4所示,还包括:
步骤1024、提取所述网站内所有链接的链接价值。
其中,所述链接的链接价值可以为预先计算并存储的值,即对应每一个链接均预先计算出其对应的链接价值。其中,所述链接的链接价值可根据对该链接的统计信息,采用预设的链接价值计算规则计算得出。具体的各链接的链接价值的计算及存储所采用的方法可参见上述相应内容的描述,此处不再赘述。
步骤1025、获取属于所述类的所有链接占所述网站内的所有链接的比例。
这里需要说明的是:为了考虑内容唯一度对类质量等级的影响,上述属于所述类的所有链接占所述网站内的所有链接的比例应具体为:
属于所述类的所有链接在经过网页内容去重后剩余的所有链接占所述网站内的所有链接的比例。
步骤1026、根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正。
其中,本步骤具体为:根据所述网站内所有链接的链接价值及所述比例,采用如下第二计算公式对所述类质量等级进行修正:
Figure PCTCN2014094632-appb-000002
其中,V为修正后的所述类质量等级,v为修正前的所述类质量等级,u/U 为所述比例,
Figure PCTCN2014094632-appb-000003
为所述网站内属于所述类的所有链接的链接价值之和,
Figure PCTCN2014094632-appb-000004
为所述网站内的所有链接的链接价值之和,ε1为预设第一修正系数,ε2为预设第二修正系数,ε3为预设第三修正系数。
这里需要说明的是:上述ε1为预设第一修正系数,ε2为预设第二修正系数,ε3为预设第三修正系数都是归一化系数。
更进一步的,上述实施例中所述的步骤104、根据所述类质量等级及所述链接的链接价值,确定所述链接的等级,可具体采用如下方法实现,即
根据所述类质量等级及所述链接的链接价值,采用如下第三计算公式确定所述链接的等级:
Vlink=δ1·V+δ2·qlink
其中,Vlink为所述链接的等级,V为所述类质量等级,qlink为所述链接的链接价值,δ1为预设第四系数,δ2为预设第五系数。
这里需要说明的是:上述实施例中所述的δ1为预设第四系数,δ2为预设第五系数均为归一化系数。
需要说明的是,上述各个公式并不是实现本发明的唯一公式,仅作为实施例的一种实现方式。技术人员可以根据业务需要对公式做适当变形,例如增加常量或变量或系数等方式,依然落在本发明的保护范围之内。
通过本实施例提供的所述方法确定出网站内各链接等级后,就可以为搜索引擎如何合理的在站点内众多链接之间分配抓取流量,从而保证高质量的链接能够被优先抓取提供依据,进而保证高质量链接的收录,提高用户搜索体验。
需要说明的是:对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图5所示,本发明实施例二提供的确定网站内链接等级的装置的结构示意图。所述确定网站内链接等级的装置可设置在服务器侧,如图5所示,本实施例二所述的确定网站内链接等级的装置包括:第一确定模块1、第一获取模块2、提取模块3和第二确定模块4。其中,所述第一确定模块1用于根据网站内链接的链接地址,确定所述链接所属的类。所述第一获取模块2用于获取所述 链接所属类对应的类质量等级。所述提取模块3用于提取所述链接的链接价值。所述第二确定模块4用于根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
具体的,本实施例所述的确定网站内链接等级的装置可实现上述实施例一提供的所述确定网站内链接等级的方法。
本实施例提供的所述装置通过确定链接所属类以及所属类的类质量等级,然后根据所述类质量等级及提取到的所述链接的链接价值确定出所述链接的等级,进而能准确的识别出网站内有价值的链接,为搜索引擎提供具有指导作用的抓取参照,使得搜索引擎能合理地在站点内众多链接之间分配抓取流量,保证高价值链接的收录,提高用户搜索体验。
进一步的,上述实施例中所述的第一确定模块可采用图6所示的结构实现。具体的,如图6所示,所述第一确定模块1包括提取单元11和获取单元12。其中,所述提取单元11用于根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征信息。所述获取单元12用于根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述类即为所述链接所属的类。
进一步的,上述实施例提供的所述确定网站内链接等级的装置,在图5所示结构的基础上,如图7所示,还包括:第二获取模块5、第三获取模块6和第一计算模块7。其中,所述第二获取模块5用于获取所述网站内与属于所述类的所有链接相关的第一统计信息。所述第三获取模块6用于获取与所述网站相关的第二统计信息。所述第一计算模块7用于根据所述第一统计信息和第二统计信息,计算所述类质量等级。
再进一步的,为了进一步的提高类质量等级计算的准确度,如图7所示,上述实施例所述的确定网站内链接等级的装置还包括:第四获取模块8和所述修正模块9。其中,上述实施例中所述的提取模块3还用于提取所述网站内所有链接的链接价值。所述第四获取模块8用于获取属于所述类的所有链接占所述网站内的所有链接的比例。所述修正模块9用于根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正。
具体的,上述实施例中所述的第一统计信息为第一索引量、第一展现量、第一点击量及第一收录量中的一种或任意多个的组合。其中,所述第一索引量为属于所述类的所有链接被建入索引的数量,所述第一展现量为属于所述类的所有链接在预设的第一时间段(如24小时)内出现在搜索结果中的数量;所述第一点击量为属于所述类的所有链接在预设的第二时间段(如24小时)内出现在搜索结果中且被用户点击的次数,所述第一收录量为被搜索引擎收录到索引中的属于所述类的所有链接对应网页的数量。所述第二统计信息为第二索引 量、第二展现量、第二点击量及第二收录量中的一种或任意多个的组合。其中,所述第二索引量为所述网站内被建入索引的所有链接的数量,所述第二展现量为所述网站内所有被建入索引的所有链接在预设的第一时间段(如24小时)内出现在索引结果中的数量;所述第二点击量为所述网站内所有被建入索引的所有链接在预设的第二时间段(如24小时)内出现的搜索结果中且被用户点击的次数,所述第二收录量为被搜索引擎收录到索引中的属于所述网站的所有链接对应的网页数量。
相应的,上述实施例中所述的计算模块具体用于根据所述第一统计信息和第二统计信息,采用如下第一计算公式计算所述链接所属类的类质量等级:
Figure PCTCN2014094632-appb-000005
其中,v为所述类质量等级,i为所述第一索引量,e为所述第一展现量,c为所述第一点击量,l为所述第一收录量,I为所述第二索引量,E为所述第二展现量,C为所述第二点击量,L为所述第二收录量,a为预设第一系数,β为预设第二系数;γ为预设第三系数。
更具体的,上述实施例中所述的修正模块具体用于根据所述网站内所有链接的链接价值及所述比例,采用如下第二计算公式对所述类质量等级进行修正:
Figure PCTCN2014094632-appb-000006
其中,V为修正后的所述类质量等级,v为修正前的所述类质量等级,u/U为所述比例,
Figure PCTCN2014094632-appb-000007
为所述网站内属于所述类的所有链接的链接价值之和,
Figure PCTCN2014094632-appb-000008
为所述网站内的所有链接的链接价值之和,ε1为预设第一修正系数,ε2为预设第二修正系数,ε3为预设第三修正系数。
再进一步的,如图7所示,上述实施例所述的确定网站内链接等级的装置还可以包括:第五获取模块10、第二计算模块20和存储模块30。其中,所述第五获取模块10用于获取与所述链接有关的评测参数,所述评测参数包括:所述链接的重要程度指标Pagerank、所述链接在所在网站的站内深度、所述链接的点击量及所述链接对应的网页内容的内容价值中的一个或任意多个的组合。第二计算模块20用于根据所述评测参数,计算所述链接的链接价值。所述存储模块30用于存储所述链接的链接价值。
具体的,所述第二计算模块具体用于根据所述类质量等级及所述链接的链接价值,采用如下第三计算公式确定所述链接的等级:
Vlink=δ1·V+δ2·qlink
其中,Vlink为所述链接的等级,V为所述类质量等级,qlink为所述链接的链接价值,δ1为预设第四系数,δ2为预设第五系数。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、 摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定网站内链接等级的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图8示出了可以实现本发明的确定网站内链接等级的方法的电子设备。该电子设备传统上包括处理器810和以存储器820形式的计算机程序产品或者计算机可读介质。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有用于执行上述方法中的任何方法步骤的程序代码831的存储空间830。例如,用于程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个程序代码831。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图9所述的便携式或者固定存储单元。该存储单元可以具有与图8的电子设备中的存储器820类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的方法步骤的程序831’,即可以由例如诸如810之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (19)

  1. 一种确定网站内链接等级的方法,其特征在于,包括:
    根据网站内链接的链接地址,确定所述链接所属的类;
    获取所述链接所属类对应的类质量等级;
    提取所述链接的链接价值;
    根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
  2. 根据权利要求1所述的方法,其特征在于,所述根据网站内链接的链接地址,确定所述链接所属的类,包括:
    根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征信息;
    根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述类即为所述链接所属的类。
  3. 根据权利要求1-2任一项所述的方法,其特征在于,所述获取所述链接所属类对应的类质量等级之前,还包括:
    获取所述网站内与属于所述类的所有链接相关的第一统计信息;
    获取与所述网站相关的第二统计信息;
    根据所述第一统计信息和第二统计信息,计算所述类质量等级。
  4. 根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一统计信息和第二统计信息,计算所述类质量等级之后,还包括:
    提取所述网站内所有链接的链接价值;
    获取属于所述类的所有链接占所述网站内的所有链接的比例;
    根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正。
  5. 根据权利要求1-4任一项所述的方法,其特征在于,所述第一统计信息包括:第一索引量、第一展现量、第一点击量及第一收录量中的一种或任意多个的组合,其中,
    所述第一索引量为所述网站内属于所述类的所有链接被建入索引的数量,所述第一展现量为所述网站内属于所述类的所有链接在预设的第一时间段内出现在搜索结果中的数量;所述第一点击量为所述网站内属于所述类的所有链接在预设的第二时间段内出现在搜索结果中且被用户点击的次数,所述第一收录量为被搜索引擎收录到索引中的属于所述类的所述网站内的所有链接对应网页的数量;
    所述第二统计信息包括:第二索引量、第二展现量、第二点击量及第二收录量中的一种或任意多个的组合,其中,
    所述第二索引量为所述网站内被建入索引的所有链接的数量,所述第二展现量为所述网站内所有被建入索引的所有链接在预设的第一时间段内出现在索引结果中的数量;所述第二点击量为所述网站内所有被建入索引的所有链接在预设的第二时间段内出现的搜索结果中且被用户点击的次数,所述第二收录量为被搜索引擎收录到索引中的属于所述网站的所有链接对应的网页数量。
  6. 根据权利要求5所述的方法,其特征在于,所述根据所述第一统计信息和第二统计信息,计算所述类质量等级,具体为:
    根据所述第一统计信息和第二统计信息,采用如下第一计算公式计算所述类质量等级:
    Figure PCTCN2014094632-appb-100001
    其中,v为所述类质量等级,i为所述第一索引量,e为所述第一展现量,c为所述第一点击量,l为所述第一收录量,I为所述第二索引量,E为所述第二展现量,C为所述第二点击量,L为所述第二收录量,a为预设第一系数,β为预设第二系数;γ为预设第三系数。
  7. 根据权利要求4所述的方法,其特征在于,所述根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正,具体为:
    根据所述网站内所有链接的链接价值及所述比例,采用如下第二计算公式对所述类质量等级进行修正:
    Figure PCTCN2014094632-appb-100002
    其中,V为修正后的所述类质量等级,v为修正前的所述类质量等级,u/U为所述比例,
    Figure PCTCN2014094632-appb-100003
    为所述网站内属于所述类的所有链接的链接价值之和,
    Figure PCTCN2014094632-appb-100004
    为所述网站内的所有链接的链接价值之和,ε1为预设第一修正系数,ε2为预设第二修正系数,ε3为预设第三修正系数。
  8. 根据权利要求1-5任一项所述的方法,其特征在于,所述提取所述链接的链接价值之前,还包括:
    获取与所述链接有关的评测参数,所述评测参数包括:所述链接的重要程度指标Pagerank、所述链接在所在网站的站内深度、所述链接的点击量及所述链接对应的网页内容的内容价值中的一个或任意多个的组合;
    根据所述评测参数,计算所述链接的链接价值;
    存储所述链接的链接价值。
  9. 根据权利要求1~4中任一所述的方法,其特征在于,所述根据所述类质 量等级及所述链接的链接价值,确定所述链接的等级,具体为:
    根据所述类质量等级及所述链接的链接价值,采用如下第三计算公式确定所述链接的等级:
    Vlink=δ1·V+δ2·qlink
    其中,Vlink为所述链接的等级,V为所述类质量等级,qlink为所述链接的链接价值,δ1为预设第四系数,δ2为预设第五系数。
  10. 一种确定网站内链接等级的装置,其特征在于,所述确定网站内链接等级的装置设置在服务器侧,所述确定网站内链接等级的装置,包括:
    第一确定模块,用于根据网站内链接的链接地址,确定所述链接所属的类;
    第一获取模块,用于获取所述链接所属类对应的类质量等级;
    提取模块,用于提取所述链接的链接价值;
    第二确定模块,用于根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
  11. 根据权利要求10所述的装置,其特征在于,所述第一确定模块,包括:
    提取单元,用于根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征信息;
    获取单元,用于根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述类即为所述链接所属的类。
  12. 根据权利要求10或11所述的装置,其特征在于,还包括:
    第二获取模块,用于获取所述网站内与属于所述类的所有链接相关的第一统计信息;
    第三获取模块,用于获取与所述网站相关的第二统计信息;
    第一计算模块,用于根据所述第一统计信息和第二统计信息,计算所述类质量等级。
  13. 根据权利要求10-12任一项所述的装置,其特征在于,还包括:
    所述提取模块,还用于提取所述网站内所有链接的链接价值;
    第四获取模块,用于获取属于所述类的所有链接占所述网站内的所有链接的比例;
    修正模块,用于根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正。
  14. 根据权利要求12或13所述的装置,其特征在于,所述第一统计信息为第一索引量、第一展现量、第一点击量及第一收录量中的一种或任意多个的组合,其中,
    所述第一索引量为属于所述类的所有链接被建入索引的数量,所述第一展 现量为属于所述类的所有链接在预设的第一时间段内出现在搜索结果中的数量;所述第一点击量为属于所述类的所有链接在预设的第二时间段内出现在搜索结果中且被用户点击的次数,所述第一收录量为被搜索引擎收录到索引中的属于所述类的所有链接对应网页的数量;
    所述第二统计信息为第二索引量、第二展现量、第二点击量及第二收录量中的一种或任意多个的组合,其中,
    所述第二索引量为所述网站内被建入索引的所有链接的数量,所述第二展现量为所述网站内所有被建入索引的所有链接在预设的第一时间段内出现在索引结果中的数量;所述第二点击量为所述网站内所有被建入索引的所有链接在预设的第二时间段内出现的搜索结果中且被用户点击的次数,所述第二收录量为被搜索引擎收录到索引中的属于所述网站的所有链接对应的网页数量;
    相应的,所述计算模块,具体用于根据所述第一统计信息和第二统计信息,采用如下第一计算公式计算所述链接所属类的类质量等级:
    Figure PCTCN2014094632-appb-100005
    其中,v为所述类质量等级,i为所述第一索引量,e为所述第一展现量,c为所述第一点击量,l为所述第一收录量,I为所述第二索引量,E为所述第二展现量,C为所述第二点击量,L为所述第二收录量,a为预设第一系数,β为预设第二系数;γ为预设第三系数。
  15. 根据权利要求10~13任一所述的装置,其特征在于,
    所述修正模块,具体用于根据所述网站内所有链接的链接价值及所述比例,采用如下第二计算公式对所述类质量等级进行修正:
    Figure PCTCN2014094632-appb-100006
    其中,V为修正后的所述类质量等级,v为修正前的所述类质量等级,u/U为所述比例,
    Figure PCTCN2014094632-appb-100007
    为所述网站内属于所述类的所有链接的链接价值之和,
    Figure PCTCN2014094632-appb-100008
    为所述网站内的所有链接的链接价值之和,ε1为预设第一修正系数,ε2为预设第二修正系数,ε3为预设第三修正系数。
  16. 根据权利要求10所述的方法,其特征在于,还包括:
    第五获取模块,用于获取与所述链接有关的评测参数,所述评测参数包括:所述链接的重要程度指标Pagerank、所述链接在所在网站的站内深度、所述链接的点击量及所述链接对应的网页内容的内容价值中的一个或任意多个的组合;
    第二计算模块,用于根据所述评测参数,计算所述链接的链接价值;
    存储模块,用于存储所述链接的链接价值。
  17. 根据权利要求10~13中任一所述的装置,其特征在于,
    所述第二确定模块,具体用于根据所述类质量等级及所述链接的链接价值,采用如下第三计算公式确定所述链接的等级:
    Vlink=δ1·V+δ2·qlink
    其中,Vlink为所述链接的等级,V为所述类质量等级,qlink为所述链接的链接价值,δ1为预设第四系数,δ2为预设第五系数。
  18. 一种计算机程序,包括计算机可读代码,当电子设备运行所述计算机可读代码运行时,导致权利要求1-9的任一项权利要求所述的确定网站内链接等级的方法被执行。
  19. 一种计算机可读介质,其中存储了如权利要求18所述的计算机程序。
PCT/CN2014/094632 2014-03-31 2014-12-23 确定网站内链接等级的方法及装置 WO2015149550A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410125897.0 2014-03-31
CN201410125897.0A CN104951476B (zh) 2014-03-31 2014-03-31 确定网站内链接等级的方法及装置

Publications (1)

Publication Number Publication Date
WO2015149550A1 true WO2015149550A1 (zh) 2015-10-08

Family

ID=54166139

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/094632 WO2015149550A1 (zh) 2014-03-31 2014-12-23 确定网站内链接等级的方法及装置

Country Status (2)

Country Link
CN (1) CN104951476B (zh)
WO (1) WO2015149550A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360798A (zh) * 2021-06-02 2021-09-07 北京百度网讯科技有限公司 泛滥数据识别方法、装置、设备和介质
CN113536086A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105634971B (zh) * 2015-12-31 2019-03-08 微梦创科网络科技(中国)有限公司 一种分配流量的方法及装置
CN110020347A (zh) * 2017-09-13 2019-07-16 北京国双科技有限公司 一种自动判断网页区域价值的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137904A1 (en) * 2009-12-03 2011-06-09 Rajaram Shyam Sundar Clickstreams and website classification
CN102541946A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 基于超链接的推荐属性确定超链推荐度的方法与设备
CN102541949A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 基于页面的预置链接关系确定页面权威值的方法与设备
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103064874A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 获取网页质量数据的方法和浏览器及服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256596B (zh) * 2008-03-28 2011-12-28 北京搜狗科技发展有限公司 一种站内导航的方法及系统
CN101770521A (zh) * 2010-03-11 2010-07-07 东华大学 一种用于垂直搜索引擎的聚焦相关度排序方法
CN102236655A (zh) * 2010-04-26 2011-11-09 北京大学 一种Web新网页推荐方法
CN103116638B (zh) * 2013-02-19 2017-02-08 人民搜索网络股份公司 网页筛选方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137904A1 (en) * 2009-12-03 2011-06-09 Rajaram Shyam Sundar Clickstreams and website classification
CN102541946A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 基于超链接的推荐属性确定超链推荐度的方法与设备
CN102541949A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 基于页面的预置链接关系确定页面权威值的方法与设备
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103064874A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 获取网页质量数据的方法和浏览器及服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360798A (zh) * 2021-06-02 2021-09-07 北京百度网讯科技有限公司 泛滥数据识别方法、装置、设备和介质
CN113360798B (zh) * 2021-06-02 2024-02-27 北京百度网讯科技有限公司 泛滥数据识别方法、装置、设备和介质
CN113536086A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品
CN113536086B (zh) * 2021-06-30 2023-07-14 北京百度网讯科技有限公司 模型训练方法、账号评分方法、装置、设备、介质和产品

Also Published As

Publication number Publication date
CN104951476A (zh) 2015-09-30
CN104951476B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
JP6211605B2 (ja) クリックスルー率に基づく検索結果の順位付け
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US8719308B2 (en) Method and system to process unstructured data
JP6517818B2 (ja) ウェブサイト・トラフィック最適化の改善
US20110119267A1 (en) Method and system for processing web activity data
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
WO2014107682A1 (en) Method and apparatus for generating webpage content
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
WO2018028099A1 (zh) 搜索质量评估方法及装置
US20160103861A1 (en) Method and system for establishing a performance index of websites
RU2680746C2 (ru) Способ и устройство для создания модели качества веб-страницы
KR20110085995A (ko) 검색 결과들의 제공
WO2018113468A1 (zh) 搜索词推荐方法、装置、程序及介质
US20120066359A1 (en) Method and system for evaluating link-hosting webpages
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
US20090259649A1 (en) System and method for detecting templates of a website using hyperlink analysis
WO2015149550A1 (zh) 确定网站内链接等级的方法及装置
EP2933734A1 (en) Method and system for the structural analysis of websites
CN104699837B (zh) 网页配图选取方法、装置及服务器
CN113849760A (zh) 敏感信息风险评估方法、系统和存储介质
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
CN106815277B (zh) 搜索引擎优化的评估方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14888054

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase
122 Ep: pct application non-entry in european phase

Ref document number: 14888054

Country of ref document: EP

Kind code of ref document: A1