WO2020248379A1 - 一种相似网络页面的搜索方法及设备 - Google Patents

一种相似网络页面的搜索方法及设备 Download PDF

Info

Publication number
WO2020248379A1
WO2020248379A1 PCT/CN2019/103068 CN2019103068W WO2020248379A1 WO 2020248379 A1 WO2020248379 A1 WO 2020248379A1 CN 2019103068 W CN2019103068 W CN 2019103068W WO 2020248379 A1 WO2020248379 A1 WO 2020248379A1
Authority
WO
WIPO (PCT)
Prior art keywords
page
candidate
content
target
tag
Prior art date
Application number
PCT/CN2019/103068
Other languages
English (en)
French (fr)
Inventor
杨祎
王炜
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020248379A1 publication Critical patent/WO2020248379A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the existing search technology for similar web pages is mainly through obtaining the fuzzy keywords corresponding to the required keywords, and searching web pages based on the keywords and fuzzy keywords.
  • keywords and fuzzy keywords can be extracted from the target web page to search for web pages to determine whether there is malicious plagiarism or copyright infringement on the website.
  • the keywords are commonly used phrases
  • the web pages searched by the above methods There are a large number of web pages, not all web pages containing keywords are pages similar in content to web pages, resulting in a large number of invalid pages being searched, requiring users to filter among a large number of pages, and reducing the efficiency of searching for target web pages.
  • the page corpus includes multiple page keywords
  • the candidate pages whose page relevance is greater than the relevance threshold are determined as similar pages of the target page.
  • this application performs multi-dimensional similarity screening based on the page types and content characteristics of the web pages, so that the searched similar pages not only contain the page keywords of the target page, but also The page type and content are similar to that of the target page, which improves the accuracy of page search and eliminates the need for users to screen invalid pages.
  • FIG. 1 is an implementation flowchart of a method for searching similar web pages provided by the first embodiment of the present application
  • FIG. 5 is a specific implementation flowchart of a method S103 for searching similar web pages provided by the fifth embodiment of the present application;
  • FIG. 6 is a structural block diagram of a search device for similar web pages provided by an embodiment of the present application.
  • the execution subject of the process is the terminal device.
  • the terminal equipment includes, but is not limited to: servers, computers, smart phones, and tablet computers that can perform search operations on similar web pages.
  • Fig. 1 shows the implementation flow chart of the method for searching similar web pages provided by the first embodiment of the present application, and the details are as follows:
  • the terminal device when the user needs to find whether a certain web page has similar pages on the network platform, he can send a similar page query request to the terminal device.
  • the similar page query request carries the page identifier of the network page, and the terminal device The web page corresponding to the page identifier will be identified as the target page, and subsequent search operations for similar web pages will be performed.
  • the page identifier can be the domain name, network address, or web page name of the network page and other information that can be used to indicate the identity of the network page.
  • the terminal device may jump to the target page according to the page identifier, and determine whether the jump operation is successful, so as to determine whether the target page is a valid web page.
  • the specific operation performed by the terminal device on keywords in multiple text areas may be: counting the number of occurrences of page keywords in different text areas, and determining the key of each page based on the number of occurrences
  • the word weight of a word specifically, the higher the number of occurrences, the larger the corresponding word weight value, which means that the page keyword has a higher frequency of appearance on the target page, so that the content characteristics of the target page are more representative.
  • the terminal device can associate each page keyword with the corresponding word weight value, thereby constructing and obtaining the page keyword of the web page.
  • a page keyword with a larger word weight value has a higher word ranking in the page corpus; conversely, if a page keyword with a smaller word weight value, the corresponding word ranking is lower.
  • each word can be determined The word number of the page keyword in the page corpus.
  • a traversal search is performed on all web pages, and it is determined that the web page containing the page keyword is a candidate page of the target page.
  • the terminal device performs preliminary screening on all web pages in the web platform, that is, web pages that contain page keywords of the target page are recognized as candidate pages of the target page. Since the same page keyword exists between the candidate page and the target page, it indicates that the page content between the two web pages has a certain similarity, so that similar recognition can be further performed.
  • each web page is pre-configured with a corresponding page label according to its page content.
  • the web page can be configured with "product (or specific product type, such as insurance product, investment product), cost" and other keywords that summarize and summarize the content of the web page, that is, the page tag mentioned above.
  • the method of generating page tags can be manually configured by the page administrator, and can also be determined according to the content of the web page.
  • the specific process can be: extracting page keywords from the page content of the candidate pages, according to each page key The area and number of occurrences of the word in the candidate page, and the feature coefficient of the keyword on the page is calculated.
  • page keywords in the title area have a higher weight value, followed by the text, and the lowest value for additional information. Weighted summation is performed according to each weight value and the number of occurrences. , Calculate the feature coefficient of the page keyword.
  • a page keyword with a feature coefficient greater than a preset feature threshold is selected as the page label of the candidate page.
  • the number of page tags can be one or more, depending on the content of the web page.
  • the terminal device in order to prioritize the relevance of each page label to the page content, the terminal device will identify the number of times each page label appears in the page content of the candidate page. If the number of appearances of a certain page label is greater , It means that the higher the relevance of the page label to the page content, the higher the corresponding label weight; conversely, the less the number of occurrences of a page label, the lower the relevance of the page label to the page content Therefore, the tag weight is also lower, so that each page tag can be sorted, the main content and secondary content of the web page can be determined, and the subsequent search operation of similar pages can be improved.
  • the content feature information of the candidate page is generated according to the page content contained in the candidate page.
  • the page tag is used to determine the page type of the candidate page, and in order to determine the page content characteristics of the candidate page, the terminal device also needs to extract content characteristic information.
  • the specific implementation process can be as follows: the terminal device parses the page content, determines the page keywords contained in the candidate page, and extracts the page keywords whose appearance times are greater than the preset appearance threshold according to the appearance times of each page keyword as candidates The feature keywords of the page, and the content feature information of the candidate page is generated according to each feature keyword.
  • the terminal device can calculate the first correlation factor between the preset label of the candidate page and the target page, and compare the content feature information with The preset standard content information of the target page is matched, the second correlation factor is calculated, and the page correlation degree between the candidate page and the target page is determined according to the weight value between the first correlation factor and the second correlation factor.
  • the calculation method of the first correlation factor may be that the terminal device recognizes whether the page label of the candidate page and the preset label of the target page have the same label, and according to the difference between the two same labels The weight difference determines the matching degree between two page tags, and the first correlation factor is determined according to the matching degree between the same page tags.
  • the calculation process of the second correlation factor may be: the terminal device recognizes the number of page keywords that are the same in the content characteristic information of the candidate page and the standard content information of the target page, and calculates the second correlation factor based on the number of keywords.
  • the terminal device will perform the operations of S103 and S105 on each candidate page respectively to calculate the page relevance corresponding to each candidate page.
  • the terminal device can create multiple similarity recognition processes and calculate the page correlation of each candidate page simultaneously. After calculating the relevance of the page, it is compared with the relevant threshold to identify similar pages from the candidate pages.
  • this application performs multi-dimensional similarity screening based on the page types and content characteristics of the web pages, so that the searched similar pages not only contain the page keywords of the target page, but also The page type and content are similar to that of the target page, which improves the accuracy of page search and eliminates the need for users to screen invalid pages.
  • FIG. 2 shows a specific implementation flow chart of a method S105 for searching similar web pages provided by the second embodiment of the present application.
  • the method S105 for searching similar web pages provided in this embodiment includes: S1051 to S1054, which are detailed as follows:
  • the calculating the page relevance of the candidate page and the target page according to the tag weight of each page tag of the candidate page and the content feature information includes:
  • the terminal device can determine the element number of the page keyword in the reference array according to the keyword number of each page keyword, that is, each element in the reference array corresponds to a page keyword. For example, if the keyword number of a certain page keyword is 5, the parameter value of the fifth element in the base array is related to the page keyword with keyword number 5.
  • the parameter value of the element in the benchmark element group may be related to the keyword weight of the page keyword in the target page, or the parameter value corresponding to each page keyword may be the same, for example, "1" is used for identification.
  • a first tag vector and a first content vector of the target page are generated according to the number of reference groups and the target tag and target content information of the target page.
  • the terminal device after the terminal device has created the reference array of the target page, it can vectorize the target label and target content information of the target page according to the reference array, thereby converting the character information into digitization that can be directly calculated.
  • the method for generating the first tag vector may be as follows: the terminal device queries the page keyword associated with the target tag in the page corpus, and adjusts the parameter value of the corresponding element of the page keyword in the reference array. After determining that each page tag is in After the parameter values of the reference array are determined, the adjusted reference array is recognized as the first label vector of the target page. Similarly, the first content vector can also be constructed in the above manner.
  • the benchmark array is [1,1,1,1 ,1,1,1].
  • the target label of the target page is ⁇ Life, Purchase ⁇ , and the corresponding first label vector is [1,0,0,0,0,0,1]. That is, if the target tag contains a certain page keyword in the page corpus, the parameter value of the element in the benchmark array that is consistent with the keyword number of the page keyword is maintained, and the parameter value of the element corresponding to the page keyword that is not included The value is reset to zero, so that all text information can be expressed in the same dimension based on the reference array, which facilitates the subsequent calculation of the correlation.
  • a second label vector and a second content vector of the target page are generated according to the number of reference groups and the page label and content feature information of the candidate page.
  • the terminal device can convert the page label and content feature information into a second label vector and a second content vector marked by a uniform dimension according to the reference array.
  • the relevant description of S1052 please refer to the relevant description of S1052, which will not be repeated here.
  • Matchpoint is the relevance of the page; Is the first label vector; Is the first content vector; Is the second content vector; [TapWeight] N is a weight array formed based on the tag weight; Is the second label vector; ⁇ and ⁇ are preset constants.
  • the terminal device can use the tag weight of each page tag , To weight each element in the second label vector. Specifically, the terminal device can also generate a tag array containing N elements according to the reference array and the tag weight of each page tag.
  • the method of generating the label array is the same as the method of generating the first label vector described above, and will not be repeated here. For example, if the label array is [0.8,0,0,0,0,0,2], and the second label vector is [1,0,0,0,0,0,1], then It is [0.8,0,0,0,0,0,2].
  • the generating content feature information of the candidate page according to the page content contained in the candidate page includes:
  • S1041 semantic analysis is performed on the page content of the candidate page, and candidate keywords contained in the candidate page are extracted.
  • the terminal device jumps to the page interface of the candidate page according to the page identifier of the candidate page, extracts the page content contained in the candidate page from the page interface, performs semantic analysis on the page content, and filters the page There are no actual characters in the content, such as conjunctions and auxiliary words, so that candidate keywords in the candidate page can be extracted.
  • the terminal device determines the candidate keywords contained in the candidate page, it can integrate the candidate keywords, that is, the same candidate keywords are recognized as the same keyword, and no longer repeat features for candidate keywords that appear multiple times The calculation of coefficients reduces the process of repeated calculations.
  • the terminal device searches the full text of the candidate keyword in the page content to determine the first occurrence of the candidate keyword in the page content. If the value of the first occurrence is larger, it means the candidate The more representative the keyword is for the content of the candidate page, the higher the corresponding feature coefficient.
  • the terminal device may directly use the first occurrence count as the term frequency parameter of the candidate keyword, or may perform normalization processing on the first occurrence count, for example, obtain the total number of phrases contained in the page content, based on the first occurrence count The ratio to the total number of phrases is used as the term frequency parameter of the candidate keyword.
  • the terminal device can also determine the difference of the candidate keyword, that is, whether the candidate keyword is a commonly used word or can be different from the one that characterizes the page content Sexual keywords. If a word appears frequently in all pages, it can be judged that the word is a common word, and cannot identify the page content of the candidate page; and a word only appears on the candidate page more often, but in other candidate pages If the occurrence frequency of is low, it means that the word has specificity and can be used to characterize the page content of the candidate page. Therefore, the specificity of the candidate keyword can be determined by counting the second occurrences of the candidate keyword on all candidate pages The degree of sexuality is the above-mentioned inverse text parameter.
  • the way of calculating the inverse text parameter may be: determining the number of occurrences of the candidate keyword in other candidate pages according to the difference between the second number of occurrences and the first number of occurrences, and using the difference as the candidate keyword The inverse text parameter.
  • the feature coefficient of the candidate keyword is determined, and the candidate keyword with the feature coefficient greater than a preset feature threshold is extracted as a content keyword.
  • the terminal device can calculate the feature coefficient of the candidate keyword according to the word frequency parameter and the inverse text parameter, where the larger the word frequency parameter, the larger the feature coefficient; and the smaller the inverse text parameter, the feature coefficient Bigger.
  • the terminal device compares the feature coefficient of each candidate keyword with the feature threshold, and recognizes candidate keywords with feature coefficients greater than the feature threshold as content keywords.
  • the content feature information of the candidate page is generated according to all the content keywords.
  • the terminal device collects various content keywords to generate content feature information of the candidate page.
  • the content feature information can also be associated with feature coefficients of the content keywords.
  • the second content vector can be used to determine the content according to the content weight. Related elements in the vector are weighted.
  • the candidate keywords contained in the page content are extracted, and the feature coefficients of the candidate keywords are calculated according to the word frequency parameters and the inverse text, and the feature coefficients of the candidate keywords are extracted.
  • Candidate keywords are used as content keywords to extract content feature information and improve the accuracy of content feature information.
  • FIG. 4 shows a specific implementation flowchart of a method for searching similar web pages provided by the fourth embodiment of the present application.
  • the method for searching similar web pages provided in this embodiment is that the candidate page whose page relevance is greater than the relevance threshold is determined as the target After the similar page of the page, it also includes: S401 ⁇ S403, the details are as follows:
  • the terminal device can sort the display order of each similar page, so that similar pages with a higher probability of plagiarism can be displayed first. Based on this, the terminal device will obtain the first publication time of the target page and the second publication time of the similar page.
  • the first publication time and the second publication time are imported into a preset priority calculation model to determine the display priority of the candidate page;
  • the priority calculation model is specifically:
  • the terminal device calculates the difference between the time at which the display sorting time is determined and the first publication time and the second publication time, so that the two publications can be determined based on the degree of difference between the two differences.
  • the publication time difference between times, and based on the publication time difference the higher the display priority of similar pages is determined, so that the smaller the publication time difference, the higher the display priority of similar pages. Since the publication time difference is smaller, the probability of plagiarism is greater , So it will be displayed first.
  • the terminal device sorts the similar webpages according to the display priority of each similar webpage, and generates a list of similar pages associated with the target page based on the display times of each similar webpage.
  • FIG. 5 shows a specific implementation flow chart of a method S102 for searching similar web pages provided by the fifth embodiment of the present application.
  • a method S103 for searching similar web pages provided in this embodiment includes: S1031 to S1032, which are detailed as follows:
  • the determining the tag weight of each page tag based on the number of occurrences of each page tag preset in the candidate page in the candidate page includes:
  • the terminal device after acquiring the page content of the candidate page, the terminal device will perform semantic analysis on the page content to determine the total number of words contained in the page content. It should be noted that in the process of counting the total number of words, the repeated words are not filtered. If a word appears N times, the contribution value to the total number of words is N.
  • the terminal device calculates the ratio between the number of occurrences of the page tag and the total number of words, so as to normalize the number of occurrences, and use the normalized ratio as the tag weight, thereby improving The uniformity of tag weights between different web pages is improved.
  • the total number of words in the candidate page is counted, and the number of occurrences is normalized, which improves the accuracy of the tag weight.
  • the search device for similar web pages includes:
  • the page corpus creation unit 61 is configured to obtain text information of a target page, and build a page corpus of the target page based on the text information; the page corpus includes multiple page keywords;
  • the candidate page search unit 62 is configured to perform a traversal search on all web pages, and determine that the web page containing the page keyword is a candidate page of the target page;
  • the content feature information generating unit 64 is configured to generate content feature information of the candidate page according to the page content contained in the candidate page;
  • the page relevance calculation unit 65 is configured to calculate the page relevance between the candidate page and the target page according to the tag weight of each page tag of the candidate page and the content feature information;
  • the similar page search unit 66 is configured to determine the candidate page whose page relevance is greater than a relevance threshold as a similar page of the target page.
  • the page relevance calculation unit 65 includes:
  • a benchmark array construction unit configured to construct a benchmark array about the target page based on the keyword numbers of the page keywords in the page corpus; the benchmark array includes N elements, where N is the page The number of keywords;
  • a target page vector generating unit configured to generate a first label vector and a first content vector of the target page according to the number of reference groups and the target label and target content information of the target page;
  • a candidate page vector generating unit configured to generate a second label vector and a second content vector of the target page according to the number of reference groups and the page label and content feature information of the candidate page;
  • the page relevance conversion unit is configured to import the first tag vector, the first content vector, the second content vector, the second tag vector and the tag weight of each of the page tags into a preset relevance calculation model,
  • the page correlation degree between the candidate page and the target page is determined;
  • the correlation degree calculation model is specifically:
  • Matchpoint is the relevance of the page; Is the first label vector; Is the first content vector; Is the second content vector; [TapWeight] N is a weight array formed based on the tag weight; Is the second label vector; ⁇ and ⁇ are preset constants.
  • the content feature information generating unit 64 includes:
  • a candidate keyword extraction unit configured to perform semantic analysis on the page content of the candidate page, and extract candidate keywords contained in the candidate page
  • a word frequency parameter calculation unit configured to count the first occurrence times of the candidate keyword in the page content, and determine the word frequency parameter of the candidate keyword based on the first occurrence times;
  • An inverse text parameter calculation unit configured to count the second occurrence times of the candidate keyword in all the candidate pages, and determine the inverse text parameter of the candidate keyword based on the second occurrence times;
  • the content keyword extraction unit is configured to determine the feature coefficient of the candidate keyword based on the word frequency parameter and the inverse text parameter, and select the candidate keyword with the feature coefficient greater than a preset feature threshold as the content keyword;
  • the content keyword packaging unit is used to generate content feature information of the candidate page according to all the content keywords.
  • the release time obtaining unit is configured to obtain the first release time of the target page and obtain the second release time of the similar page;
  • the display priority determining unit is configured to import the first publishing time and the second publishing time into a preset priority calculation model to determine the display priority of the candidate page;
  • the priority calculation model is specifically:
  • Pro(i) is the display priority
  • TargetTime is the first publishing time
  • SimTime(i) is the second publishing time of the i-th similar page
  • CurrentTime is the time to determine the display sort time ;
  • the similar page list generating unit is configured to generate a list of similar pages about the target page based on the display priority of each of the similar pages.
  • the label weight calculation unit 63 includes:
  • a total number of words counting unit configured to count the page content of the candidate page containing the total number of words
  • the tag weight determination unit is configured to calculate the ratio between the number of occurrences and the total number of words, and use the ratio as the tag weight of the page tag.
  • the search device for similar web pages provided in the embodiments of the present application can also perform multi-dimensional similarity screening based on the page types and content characteristics of the web pages, so that the searched similar pages not only contain the page keywords of the target page, It is also similar to the page type and content of the target page, which improves the accuracy of the page search and does not require users to screen invalid pages.
  • the computer-readable instruction 72 may be divided into one or more units, and the one or more units are stored in the memory 71 and executed by the processor 70 to complete the application .
  • the one or more units may be a series of computer-readable instruction instruction segments capable of completing specific functions, and the instruction segment is used to describe the execution process of the computer-readable instructions 72 in the terminal device 7.
  • the computer-readable instructions 72 can be divided into a page corpus creation unit, a candidate page search unit, a tag weight calculation unit, a content feature information generation unit, a page relevance calculation unit, and a similar page search unit. The specific functions of each unit are as described above. Said.
  • the terminal device 7 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the terminal device may include, but is not limited to, a processor 70 and a memory 71.
  • FIG. 7 is only an example of the terminal device 7 and does not constitute a limitation on the terminal device 7. It may include more or less components than shown in the figure, or a combination of certain components, or different components.
  • the terminal device may also include input and output devices, network access devices, buses, etc.
  • the so-called processor 70 may be a central processing unit (Central Processing Unit, CPU), other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), Ready-made programmable gate array (Field-Programmable Gate Array, FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor or the like.
  • the memory 71 may be an internal storage unit of the terminal device 7, such as a hard disk or a memory of the terminal device 7.
  • the memory 71 may also be an external storage device of the terminal device 7, such as a plug-in hard disk equipped on the terminal device 7, a smart memory card (Smart Media Card, SMC), and a Secure Digital (SD) Card, Flash Card, etc. Further, the memory 71 may also include both an internal storage unit of the terminal device 7 and an external storage device.
  • the memory 71 is used to store the computer-readable instructions and other programs and data required by the terminal device.
  • the memory 71 can also be used to temporarily store data that has been output or will be output.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • ROM read only memory
  • PROM programmable ROM
  • EPROM electrically programmable ROM
  • EEPROM electrically erasable programmable ROM
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种相似网络页面的搜索方法及设备,包括:获取目标页面的文本信息,并基于文本信息构建目标页面的页面语料库(S101);对所有网络页面进行遍历搜索,确定包含页面关键词的网络页面为目标页面的候选页面(S102);基于候选页面预设的各个页面标签在候选页面中的出现次数,确定各个页面标签的标签权重(S103);根据候选页面包含的页面内容,生成候选页面的内容特征信息(S104);根据候选页面的各个页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度(S105);将页面相关度大于相关阈值的候选页面确定为目标页面的相似页面(S106)。该方法通过网络页面的页面类型以及内容特征,进行多维度的相似度筛选,提高了页面搜索的准确性。

Description

一种相似网络页面的搜索方法及设备
本申请申明享有2019年06月11日递交的申请号为201910502242.3、名称为“一种相似网络页面的搜索方法及设备”中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请属于应用程序技术领域,尤其涉及一种相似网络页面的搜索方法及设备。
背景技术
随着互联网的发展,用户可以通过输入关键词进行网页搜索,随着网页数量的不断增加,通过匹配的搜索结果也随之增加,因此如何能够提高搜索的准确性,则直接影响用户查询目标网页的效率。
现有的相似网络页面的搜索技术,主要是通过获取所需的关键词对应的模糊关键词,并基于关键词以及模糊关键词进行网页搜索,当需要检测目标网页在网络平台上是否存在相似的网页,可以从目标网页中提取关键词以及模糊关键词进行网页搜索,从而确定出是否有网站恶意抄袭或侵犯著作权等非法情况,但当关键词是常用词组时,通过上述方式搜索出来的网络页面数量较多,并非各个包含关键词的网络页面均为与网络页面的内容相似的页面,导致了搜索得到大量无效页面,需要用户在大量的页面中进行筛选,降低了目标网络页面搜索的效率。
技术问题
有鉴于此,本申请实施例提供了一种相似网络页面的搜索编译方法及设备,以解决现有的相似网络页面的搜索技术,主要通过关键词以及模糊关键词进行网页搜索,容易导致搜索得到大量无效页面,需要用户在大量的页面中进行筛选,降低了目标网络页面搜索的效率的问题。
技术解决方案
本申请实施例的第一方面提供了一种相似网络页面的搜索方法,包括:
获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述 页面标签的标签权重;
根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
有益效果
本申请实施例通过从目标页面中提取页面关键词,并提取包含页面关键词的网络页面作为候选页面,并分别根据各个候选页面预设的页面标签的出现次数,确定各个页面标签的标签权重,由于页面标签具体用于对网络页面进行分类,因此可以通过页面标签确定候选页面的页面类型,从而判断与目标页面的页面类型是否相同,继而对候选页面的页面内容进行特征提取,生成内容特征信息,确定该候选页面的具体页面内容特征,继而根据页面标签、页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度,从而根据页面相关度确定相似页面,实现网络页面的精准搜索的目的。与现有的相似网络页面的搜索方法相比,本申请通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,从而搜索得到的相似页面不仅包含目标页面的页面关键词,还与目标页面的页面类型相似以及内容相似,提高了页面搜索的准确性,无需用户进行无效页面的筛选操作。
附图说明
图1是本申请第一实施例提供的一种相似网络页面的搜索方法的实现流程图;
图2是本申请第二实施例提供的一种相似网络页面的搜索方法S105具体实现流程图;
图3是本申请第三实施例提供的一种相似网络页面的搜索方法S104具体实现流程图;
图4是本申请第四实施例提供的一种相似网络页面的搜索方法具体实现流程图;
图5是本申请第五实施例提供的一种相似网络页面的搜索方法S103具体实现流程图;
图6是本申请一实施例提供的一种相似网络页面的搜索设备的结构框图;
图7是本申请另一实施例提供的一种终端设备的示意图。
本发明的实施方式
在本申请实施例中,流程的执行主体为终端设备。该终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等能够执行相似网络页面的搜索操作的设备。图1示出了本申请第一实施例提供的相似网络页面的搜索方法的实现流程图,详述如下:
在S101中,获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词。
在本实施例中,用户在需要查找某一网络页面在网络平台上是否存在相似页面时,可以向终端设备发送一个相似页面查询请求,该相似页面查询请求携带有网络页面的页面标识,终端设备会将该页面标识所对应的网络页面识别为目标页面,并执行后续的相似网络页面的搜索操作。其中,该页面标识可以为网络页面的域名、网络地址或网页名称等可以用于标示网络页面身份的信息。可选地,终端设备在响应该相似页面查询请求之前,可以根据页面标识跳转至目标页面,并判断本次跳转操作是否成功,从而可以判断该目标页面是否为有效的网络页面。
在本实施例中,终端设备在确定了目标页面后,可以跳转至该目标页面,并根据目标页面的显示界面上显示的文本数据,生成目标页面的文本信息。该文本信息可以根据目标页面的显示界面的分区情况,划分为多个不同文本区域,例如标题区域、正文区域、超链接区域等,并分别采集不同文本区域中包含的页面关键词,从而生成关于该文本区域的关键词库,终端设备将各个文本区域的关键词库进行整理,生成网络页面的页面语料库。
可选地,在本实施例中,终端设备在对多个文本区域的关键词进行整体的具体操作可以为:统计页面关键词在不同文本区域的出现次数,基于所述出现次数确定各个页面关键词的词语权重,具体地,出现次数越高,则对应的词语权重值越大,则表示该页面关键词在目标页面的出现频率较高,从而对于目标页面的内容特征的代表性越强。终端设备可以关联各个页面关键词与对应的词语权重值,从而构建得到网络页面的页面关键词。优选地,词语权重值越大的页面关键词在页面语料库中的词语排序越高;反之,若词语权重值越小的页面关键词,对应的词语排序越低,基于词语权重值,可以确定各个页面关键词在页面语料库中的词编号。
在S102中,对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面。
在本实施例中,终端设备对网络平台中的所有网络页面进行初步的筛选,即将包含有目标页面的页面关键词的网络页面均识别为目标页面的候选页面。由于候选页面与目标页面之间存在相同的页面关键词,则表示两个网络页面之间的页面内容存在一定的相似性,从而可以进一步执行相似识别。
可选地,在本实施例中,终端设备可以设置一关键词个数阈值,即网络页面中包含的页面关键词的个数要大于预设的关键词个数阈值,才识别该网络页面为目标页面的候选页面,从而可以减少大量无效的候选页面,减少后续的相似度计算次数,从而提高了相似页面的搜索效率。
在S103中,基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确 定各个所述页面标签的标签权重。
在本实施例中,每个网络页面会根据其页面内容预先配置有对应的页面标签,例如,若某一网络页面主要用于产品信息,包含产品列表以及各个产品的收费情况,则该网络页面可以配置有“产品(或具体的产品类型,例如保险产品、投资产品)、费用”等对网络页面的内容进行概括、总结的关键词,即上述的页面标签。其中,生成页面标签的方式除了可以由页面管理员手动配置外,还可以根据网络页面内的内容进行确定,具体的过程可以为:从候选页面的页面内容中提取页面关键词,根据各个页面关键词在候选页面中的出现区域以及出现次数,计算该页面关键词的特征系数。其中,不同出现区域对于特征系数的权重不同,例如在标题区域的页面关键词,其对应的权重值较高,正文次之,在附加信息则最低,根据各个权重值以及出现次数进行加权求和,计算得到页面关键词的特征系数。选取特征系数大于预设的特征阈值的页面关键词作为该候选页面的页面标签。页面标签的个数可以为一个,也可以为多个,具体根据网络页面的页面内容所决定。
在本实施例中,为了确定各个页面标签对于页面内容的关联度进行优先级排序,终端设备会识别各个页面标签在候选页面的页面内容中出现的次数,若某一页面标签的出现次数越大,则表示该页面标签对于页面内容的关联度越高,则对应的标签权重也越高;反之,若某一页面标签的出现次数越少,则表示该页面标签与页面内容的关联度较低,从而标签权重也越低,从而能够对各个页面标签进行排序,确定该网络页面的主体内容以及次要内容,提高后续的相似页面的搜索操作。
在S104中,根据候选页面包含的页面内容,生成所述候选页面的内容特征信息。
在本实施例中,页面标签用于确定候选页面的页面类型,而为了确定候选页面的页面内容特征,终端设备还需要提取内容特质信息。具体的实现过程可以为:终端设备对页面内容进行解析,确定该候选页面包含的页面关键词,并根据各个页面关键词的出现次数,提取出现次数大于预设的出现阈值的页面关键词作为候选页面的特征关键词,并根据各个特征关键词生成候选页面的内容特征信息。
在S105中,根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度。
在本实施例中,终端设备在确定了候选页面的页面标签以及各个页面标签的标签权重后,可以计算候选页面与目标页面的预设标签之间的第一相关因子,并将内容特征信息与目标页面预设的标准内容信息进行匹配,计算第二相关因子,并根据第一相关因子与第二相关因子之间的权重值,确定候选页面与目标页面之间的页面相关度。
可选地,在本实施例中,第一相关因子的计算方式可以为,终端设备识别候选页面的 页面标签与目标页面的预设标签是否存在相同的标签,并根据两个相同标签之间的权重差值,确定两个页面标签之间的匹配度,根据各个相同页面标签之间的匹配度确定第一相关因子。而第二相关因子的计算过程可以为:终端设备识别候选页面的内容特质信息与目标页面的标准内容信息中相同的页面关键词的个数,基于该关键词个数计算第二相关因子。
在S106中,将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
在本实施例中,终端设备会分别对各个候选页面执行S103与S105的操作,计算各个候选页面对应的页面相关度,终端设备可以创建多条相似度识别进程,同步计算各个候选页面的页面相关度,并在计算得到页面相关度后与相关阈值进行比对,从候选页面中识别出相似页面。
以上可以看出,本申请实施例提供的一种相似网络页面的搜索方法通过从目标页面中提取页面关键词,并提取包含页面关键词的网络页面作为候选页面,并分别根据各个候选页面预设的页面标签的出现次数,确定各个页面标签的标签权重,由于页面标签具体用于对网络页面进行分类,因此可以通过页面标签确定候选页面的页面类型,从而判断与目标页面的页面类型是否相同,继而对候选页面的页面内容进行特征提取,生成内容特征信息,确定该候选页面的具体页面内容特征,继而根据页面标签、页面标签的标签权重以及内容特征信息,计算候选页面与目标页面的页面相关度,从而根据页面相关度确定相似页面,实现网络页面的精准搜索的目的。与现有的相似网络页面的搜索方法相比,本申请通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,从而搜索得到的相似页面不仅包含目标页面的页面关键词,还与目标页面的页面类型相似以及内容相似,提高了页面搜索的准确性,无需用户进行无效页面的筛选操作。
图2示出了本申请第二实施例提供的一种相似网络页面的搜索方法S105的具体实现流程图。参见图2,相对于图1所述实施例,本实施例提供的一种相似网络页面的搜索方法S105包括:S1051~S1054,具体详述如下:
进一步地,所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度,包括:
在S1051中,基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数。
在本实施例中,终端设备在建立目标页面的页面语料库后,可以为页面语料库内的所有页面关键词进行编号,其中编号的大小可以根据页面关键词的出现次数的大小确定,例如出现次数越多,则对应的关键词编号越大,还可以根据各个页面关键词在目标页面内的 出现次序确定,例如页面关键词首次出现的位置越靠前,则对应的关键词编号越小。
在本实施例中,终端设备可以根据各个页面关键词的关键词编号,确定该页面关键词在基准数组的元素编号,即基准数组中每个元素对应一个页面关键词。例如,某一页面关键词的关键词编号为5,则基准数组中的第五个元素的参数值则与关键词编号为5的页面关键词相关。其中,基准素组中元素的参数值可以与页面关键词在目标页面中的关键词权重相关,也可以各个页面关键词对应的参数值一致,例如用“1”进行标识。
在1052中,根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量。
在本实施例中,终端设备在创建了目标页面的基准数组后,可以根据该基准数组将目标页面的目标标签以及目标内容信息进行向量化,从而将字符信息转换为可以直接计算的数字化。其中,生成第一标签向量的方式可以为:终端设备查询目标标签在页面语料库中关联的页面关键词,并调整该页面关键词在基准数组中对应元素的参数值,在确定了各个页面标签在基准数组的参数值后,则将调整后的基准数组识别为目标页面的第一标签向量。同样地,第一内容向量也可以通过上述方式进行构建。
举例性地,例如某一页面语料库具体为:[人寿、年龄、性别、姓名、金额、年限、购买],而每个页面关键词的权重一致,则基准数组为[1,1,1,1,1,1,1]。而目标页面的目标标签为{人寿,购买},则对应第一标签向量为[1,0,0,0,0,0,1]。即若目标标签中包含页面语料库中的某一页面关键词,则保持基准数组中与该页面关键词的关键词编号一致的元素的参数值,而对不包含的页面关键词对应的元素的参数值进行归零操作,从而能够基于基准数组将所有文字信息通过同一量纲进行表示,方便了后续相关度的计算。
在S1053中,根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量。
在本实施例中,与S1052相同,终端设备可以根据基准数组,将页面标签以及内容特征信息转换为统一量纲标示的第二标签向量以及第二内容向量。具体阐述可以参见S1052的相关描述,在此不再赘述。
在S1054中,将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
Figure PCTCN2019103068-appb-000001
其中,Matchpoint为所述页面相关度;
Figure PCTCN2019103068-appb-000002
为所述第一标签向量;
Figure PCTCN2019103068-appb-000003
为所述第一内容向量;
Figure PCTCN2019103068-appb-000004
为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
Figure PCTCN2019103068-appb-000005
为所述第二标签向量;α和β为预设的常数。
在本实施例中,由于第二标签向量中各个元素的参量值是与目标页面的页面关键词相关,为了提高第二标签向量与候选页面的关联性,终端设备可以根据各个页面标签的标签权重,对第二标签向量中的各个元素进行加权。具体地,终端设备同样可以根据基准数组以及各个页面标签的标签权重,生成一个包含N个元素的标签数组。生成标签数组的方式与上述生成第一标签向量的方式相同,在此不在赘述。举例性地,若标签数组为[0.8,0,0,0,0,0,2],而第二标签向量为[1,0,0,0,0,0,1],则
Figure PCTCN2019103068-appb-000006
为[0.8,0,0,0,0,0,2]。
在本实施例中,终端设备可以通过分别计算第一标签向量与第二标签向量之间的相似度,并计算第一内容向量与第二内容向量之间的相似度,基于上述两个相似度确定两个网络页面之间的页面相似度。
在本申请实施例中,通过建立基准数组,并将多个文字信息转换为向量形式进行标识,从而方便计算标签以及内容特征信息之间的相似度,从而能够生成两个页面标签之间的页面相似度,提高了页面相似度计算准确性。
图3示出了本申请第三实施例提供的一种相似网络页面的搜索方法S104的具体实现流程图。参见图3,相对于图1所述的实施例,本实施例提供的一种相似网络页面的搜索方法S104包括:S1041~S1045,具体详述如下:
进一步地,所述根据候选页面包含的页面内容,生成所述候选页面的内容特征信息,包括:
在S1041中,对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词。
在本实施例中,终端设备根据候选页面的页面标识,跳转到该候选页面的页面界面,从页面界面中提取该候选页面包含的页面内容,并对该页面内容进行语义分析,过滤该页面内容中不存在实际意义的字符,例如连接词以及助词,从而能够提取得到候选页面中的候选关键词。终端设备在确定了该候选页面中包含的候选关键词后,可以对候选关键词进行整合,即相同的候选关键词则识别为同一关键词,不再对出现多次的候选关键词重复进行特征系数的计算,减少重复计算的过程。
在S1042中,统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量。
在本实施例中,终端设备会对候选关键词在页面内容中进行全文查找,确定该候选关键词在页面内容中的第一出现次数,若该第一出现次数数值越大,则表示该候选关键词对于候选页面的内容代表性越大,则对应的特征系数越高。其中,终端设备可以将第一出现次数直接作为该候选关键词的词频参数,也可以对该第一出现次数进行归一化处理,例如获取该页面内容中包含的词组总数,基于第一出现次数与词组总数之间的比值,作为该候选关键词的词频参量。
在S1043中,统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量。
在本实施例中,终端设备在确定了候选关键词在本地的词频外,还可以确定该候选关键词的差异性,即该候选关键词是否为常用词语抑或是可以与表征页面内容的具有差异性的关键词。若某一词语在所有页面中均经常出现,则可以判断该词语为常用词,并不能标识该候选页面的页面内容;而某一词语只在候选页面的出现次数较多,而在其他候选页面的出现频率较低,则表示该词语具有特异性,可以用于表征该候选页面的页面内容,因此可以通过统计候选关键词在所有候选页面的第二出现次数,从而确定该候选关键词的特异性程度,即上述的逆文本参量。其中,逆文本参量计算的方式可以为:根据第二出现次数与第一出现次数之间的差值,确定该候选关键词在其他候选页面中的出现次数,并将该差值作为候选关键词的逆文本参量。
在S1044中,基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并提取所述特征系数大于预设特征阈值的候选关键词作为内容关键词。
在本实施例中,终端设备可以根据词频参量以及逆文本参量计算出候选关键词的特征系数,其中,若该词频参量越大,则特征系数越大;而逆文本参量越小,则特征系数越大。终端设备将各个候选关键词的特征系数与特征阈值进行比对,将特征系数大于特征阈值的候选关键词识别为内容关键词。
在S1045中,根据所有所述内容关键词生成所述候选页面的内容特征信息。
在本实施例中,终端设备将各个内容关键词进行集合,生成候选页面的内容特征信息。其中,该内容特征信息除了记录有内容关键词外,还可以关联有该内容关键词的特征系数,基于特征系数作为内容关键词的内容权重,在后续第二内容向量是可以根据内容权重对内容向量内相关的元素进行加权。
在本申请实施例中,通过对页面内容进行语义分析,提取该页面内容中包含的候选关 键词,并根据词频参数以及逆文本,计算出候选关键词的特征系数,提取出特征系数较大的候选关键词作为内容关键词,实现了内容特征信息的提取,提高了内容特征信息的准确性。
图4示出了本申请第四实施例提供的一种相似网络页面的搜索方法的具体实现流程图。参见图4,相对于图1至3所述实施例,本实施例提供的一种相似网络页面的搜索方法在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后,还包括:S401~S403,具体详述如下:
在S401中,获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间。
在本实施例中,终端设备在搜索了相似页面后,可以对各个相似页面的显示次序进行排序,从而能够将抄袭概率较大的相似页面优先显示。基于此,终端设备会获取目标页面的第一发布时间以及相似页面的第二发布时间。
在S402中,将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
Figure PCTCN2019103068-appb-000007
其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间。
在本实施例中,终端设备会计算确定显示排序时刻的时间与第一发布时间以及第二发布时间之间的差值,从而能够基于该两个差值之间的差异程度,确定两个发布时间之间的发布时间差,并基于发布时间差确定该相似页面的显示优先级越高,从而对于发布时间差越小相似页面的显示优先级越高,由于发布时间差越小,则抄袭的概率则越大,因此会优先进行显示。
在S403中,基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
在本实施例中,终端设备根据各个相似网页的显示优先级的大小,对各个相似网页进行排序,并基于各个相似网页的显示次数,生成目标页面关联的相似页面列表。
在本申请实施例中,通过获取目标页面以及相似页面的发布时间,从而确定两者之间的关联程度,将关联度较大的相似页面优先进行显示,从而方便用户快速确定存在抄袭情况的相似页面。
图5示出了本申请第五实施例提供的一种相似网络页面的搜索方法S102的具体实现流程图。参见图5,相对于图1至图3所述实施例,本实施例提供的一种相似网络页面的搜索方法S103包括:S1031~S1032,具体详述如下:
进一步地,所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重,包括:
在S1031中,统计所述候选页面的所述页面内容包含词语总数。
在本实施例中,终端设备会在获取了候选页面的页面内容后,会对该页面内容进行语义分析,确定该页面内容中包含的词语总数。需要说明的是,在统计词语总数的过程中,并不会过滤的重复出现的词语,则若一个词语出现N次,则对于词语总数的贡献值为N。
在S1032中,计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
在本实施例中,终端设备会计算该页面标签的出现次数与词语总数之间的比值,从而能够实现对出现次数进行归一化处理,并将归一化后的比值作为标签权重,从而提高了不同网络页面之间的标签权重的统一性。
在本申请实施例中,通过统计候选页面中的词语总数,对出现次数进行归一化处理,提高了标签权重的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图6示出了本申请一实施例提供的一种相似网络页面的搜索设备的结构框图,该相似网络页面的搜索设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。
参见图6,所述相似网络页面的搜索设备包括:
页面语料库创建单元61,用于获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
候选页面搜索单元62,用于对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
标签权重计算单元63,用于基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
内容特征信息生成单元64,用于根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
页面相关度计算单元65,用于根据所述候选页面的各个页面标签的标签权重以及所述 内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
相似页面搜索单元66,用于将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
可选地,所述页面相关度计算单元65,包括:
基准数组构建单元,用于基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
目标页面向量生成单元,用于根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
候选页面向量生成单元,用于根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
页面相关度转换单元,用于将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
Figure PCTCN2019103068-appb-000008
其中,Matchpoint为所述页面相关度;
Figure PCTCN2019103068-appb-000009
为所述第一标签向量;
Figure PCTCN2019103068-appb-000010
为所述第一内容向量;
Figure PCTCN2019103068-appb-000011
为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
Figure PCTCN2019103068-appb-000012
为所述第二标签向量;α和β为预设的常数。
可选地,所述内容特征信息生成单元64,包括:
候选关键词提取单元,用于对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
词频参数计算单元,用于统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
逆文本参量计算单元,用于统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
内容关键词提取单元,用于基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
内容关键词封装单元,用于根据所有所述内容关键词生成所述候选页面的内容特征信息。
可选地,所述相似网络页面的搜索设备,还包括:
发布时间获取单元,用于获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
显示优先级确定单元,用于将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
Figure PCTCN2019103068-appb-000013
其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
相似页面列表生成单元,用于基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
可选地,所述标签权重计算单元63包括:
词语总数统计单元,用于统计所述候选页面的所述页面内容包含词语总数;
标签权重确定单元,用于计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
因此,本申请实施例提供的相似网络页面的搜索设备同样可以通过网路页面的页面类型以及内容特征,进行多维度的相似度筛选,从而搜索得到的相似页面不仅包含目标页面的页面关键词,还与目标页面的页面类型相似以及内容相似,提高了页面搜索的准确性,无需用户进行无效页面的筛选操作。
图7是本申请另一实施例提供的一种终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72,例如相似网络页面的搜索程序。所述处理器70执行所述计算机可读指令72时实现上述各个相似网络页面的搜索方法实施例中的步骤,例如图1所示的S101至S105。或者,所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各单元的功能,例如图6所示模块61至66功能。
示例性的,所述计算机可读指令72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令指令段,该指令段用于描述所述计算机可读指令72在所述终端设备7中的执行过程。例如,所述计算机可读指令72可以被分割成页面语料库创建单元、候选页面搜索单元、标签权重计算单元、内容特征信息生 成单元、页面相关度计算单元以及相似页面搜索单元,各单元具体功能如上所述。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、 直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种相似网络页面的搜索方法,其特征在于,包括:
    获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
    对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
    基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
    根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
    根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
    将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
  2. 根据权利要求1所述的搜索方法,其特征在于,所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度,包括:
    基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
    根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
    根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
    将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
    Figure PCTCN2019103068-appb-100001
    其中,Matchpoint为所述页面相关度;
    Figure PCTCN2019103068-appb-100002
    为所述第一标签向量;
    Figure PCTCN2019103068-appb-100003
    为所述第一内容向量;
    Figure PCTCN2019103068-appb-100004
    为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
    Figure PCTCN2019103068-appb-100005
    为所述第二标签向量;α和β为预设的常数。
  3. 根据权利要求1所述的搜索方法,其特征在于,所述根据候选页面包含的页面内容,生成所述候选页面的内容特征信息,包括:
    对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
    统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
    统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
    基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
    根据所有所述内容关键词生成所述候选页面的内容特征信息。
  4. 根据权利要求1-3任一项所述的搜索方法,其特征在于,在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后,还包括:
    获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
    将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
    Figure PCTCN2019103068-appb-100006
    其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
    基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
  5. 根据权利要求1-3任一项所述的搜索方法,其特征在于,所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重,包括:
    统计所述候选页面的所述页面内容包含词语总数;
    计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
  6. 一种相似网络页面的搜索设备,其特征在于,包括:
    页面语料库创建单元,用于获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
    候选页面搜索单元,用于对所有网络页面进行遍历搜索,确定包含所述页面关键词的 所述网络页面为所述目标页面的候选页面;
    标签权重计算单元,用于基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
    内容特征信息生成单元,用于根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
    页面相关度计算单元,用于根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
    相似页面搜索单元,用于将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
  7. 根据权利要求6所述的搜索设备,其特征在于,所述页面相关度计算单元,包括:
    基准数组构建单元,用于基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
    目标页面向量生成单元,用于根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
    候选页面向量生成单元,用于根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
    页面相关度转换单元,用于将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
    Figure PCTCN2019103068-appb-100007
    其中,Matchpoint为所述页面相关度;
    Figure PCTCN2019103068-appb-100008
    为所述第一标签向量;
    Figure PCTCN2019103068-appb-100009
    为所述第一内容向量;
    Figure PCTCN2019103068-appb-100010
    为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
    Figure PCTCN2019103068-appb-100011
    为所述第二标签向量;α和β为预设的常数。
  8. 根据权利要求6所述的搜索设备,其特征在于,所述内容特征信息生成单元,包括:
    候选关键词提取单元,用于对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
    词频参数计算单元,用于统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
    逆文本参量计算单元,用于统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
    内容关键词提取单元,用于基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
    内容关键词封装单元,用于根据所有所述内容关键词生成所述候选页面的内容特征信息。
  9. 根据权利要求6-8任一项所述的搜索设备,其特征在于,所述相似网络页面的搜索设备,还包括:
    发布时间获取单元,用于获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
    显示优先级确定单元,用于将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
    Figure PCTCN2019103068-appb-100012
    其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
    相似页面列表生成单元,用于基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
  10. 根据权利要求6-8任一项所述的搜索设备,其特征在于,所述标签权重计算单元包括:
    词语总数统计单元,用于统计所述候选页面的所述页面内容包含词语总数;
    标签权重确定单元,用于计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
  11. 一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
    获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
    对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
    基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
    根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
    根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度;
    将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
  12. 根据权利要求11所述的终端设备,其特征在于,所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度,包括:
    基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
    根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
    根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
    将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
    Figure PCTCN2019103068-appb-100013
    其中,Matchpoint为所述页面相关度;
    Figure PCTCN2019103068-appb-100014
    为所述第一标签向量;
    Figure PCTCN2019103068-appb-100015
    为所述第一内容向量;
    Figure PCTCN2019103068-appb-100016
    为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
    Figure PCTCN2019103068-appb-100017
    为所述第二标签向量;α和β为预设的常数。
  13. 根据权利要求11所述的终端设备,其特征在于,所述根据候选页面包含的页面内容,生成所述候选页面的内容特征信息,包括:
    对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
    统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
    统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
    基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
    根据所有所述内容关键词生成所述候选页面的内容特征信息。
  14. 根据权利要求11-13任一项所述的终端设备,其特征在于,在所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后,所述处理器执行所述计算机可读指令时还实现如下步骤:
    获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
    将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
    Figure PCTCN2019103068-appb-100018
    其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
    基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
  15. 根据权利要求11-13任一项所述的终端设备,其特征在于,所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重,包括:
    统计所述候选页面的所述页面内容包含词语总数;
    计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
  16. 一种计算机非易失性可读存储介质,所述计算机非易失性可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如下步骤:
    获取目标页面的文本信息,并基于所述文本信息构建所述目标页面的页面语料库;所述页面语料库包含多个页面关键词;
    对所有网络页面进行遍历搜索,确定包含所述页面关键词的所述网络页面为所述目标页面的候选页面;
    基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重;
    根据候选页面包含的页面内容,生成所述候选页面的内容特征信息;
    根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选 页面与所述目标页面的页面相关度;
    将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面。
  17. 根据权利要求16所述的计算机非易失性可读存储介质,其特征在于,所述根据所述候选页面的各个页面标签的标签权重以及所述内容特征信息,计算所述候选页面与所述目标页面的页面相关度,包括:
    基于所述页面关键词在所述页面语料库内的关键词编号,构建关于所述目标页面的基准数组;所述基准数组包含N个元素,所述N为所述页面关键词的个数;
    根据所述基准组数以及所述目标页面的目标标签与目标内容信息,生成所述目标页面的第一标签向量以及第一内容向量;
    根据所述基准组数以及所述候选页面的页面标签与内容特征信息,生成所述目标页面的第二标签向量以及第二内容向量;
    将所述第一标签向量、第一内容向量、第二内容向量、第二标签向量以及各个所述页面标签的所述标签权重导入预设的相关度计算模型,确定所述候选页面与所述目标页面的所述页面相关度;所述相关度计算模型具体为:
    Figure PCTCN2019103068-appb-100019
    其中,Matchpoint为所述页面相关度;
    Figure PCTCN2019103068-appb-100020
    为所述第一标签向量;
    Figure PCTCN2019103068-appb-100021
    为所述第一内容向量;
    Figure PCTCN2019103068-appb-100022
    为所述第二内容向量;[TapWeight] N为基于所述标签权重构成的权重数组;
    Figure PCTCN2019103068-appb-100023
    为所述第二标签向量;α和β为预设的常数。
  18. 根据权利要求16所述的计算机非易失性可读存储介质,其特征在于,所述根据候选页面包含的页面内容,生成所述候选页面的内容特征信息,包括:
    对所述候选页面的所述页面内容进行语义分析,提取所述候选页面包含的候选关键词;
    统计所述候选关键词在所述页面内容的第一出现次数,并基于所述第一出现次数确定所述候选关键词的词频参量;
    统计所述候选关键词在所有所述候选页面内的第二出现次数,并基于所述第二出现次数确定所述候选关键词的逆文本参量;
    基于所述词频参量以及所述逆文本参量,确定所述候选关键词的特征系数,并选取所述特征系数大于预设特征阈值的候选关键词作为内容关键词;
    根据所有所述内容关键词生成所述候选页面的内容特征信息。
  19. 根据权利要求16-18任一项所述的计算机非易失性可读存储介质,其特征在于,在 所述将所述页面相关度大于相关阈值的所述候选页面确定为所述目标页面的相似页面之后,所述计算机可读指令被处理器执行时实现如下步骤:
    获取所述目标页面的第一发布时间,以及获取所述相似页面的第二发布时间;
    将所述第一发布时间以及所述第二发布时间导入预设的优先级计算模型,确定所述候选页面的显示优先级;所述优先级计算模型具体为:
    Figure PCTCN2019103068-appb-100024
    其中,Pro(i)为所述显示优先级;TargetTime为所述第一发布时间;SimTime(i)为第i个所述相似页面的所述第二发布时间;CurrentTime为确定显示排序时刻的时间;
    基于各个所述相似页面的所述显示优先级,生成关于目标页面的相似页面列表。
  20. 如权利要求16-18任一项所述的计算机非易失性可读存储介质,其特征在于,所述基于所述候选页面预设的各个页面标签在所述候选页面中的出现次数,确定各个所述页面标签的标签权重,包括:
    统计所述候选页面的所述页面内容包含词语总数;
    计算所述出现次数以及所述词语总数之间的比值,将所述比值作为所述页面标签的所述标签权重。
PCT/CN2019/103068 2019-06-11 2019-08-28 一种相似网络页面的搜索方法及设备 WO2020248379A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910502242.3 2019-06-11
CN201910502242.3A CN110390044B (zh) 2019-06-11 2019-06-11 一种相似网络页面的搜索方法及设备

Publications (1)

Publication Number Publication Date
WO2020248379A1 true WO2020248379A1 (zh) 2020-12-17

Family

ID=68285523

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103068 WO2020248379A1 (zh) 2019-06-11 2019-08-28 一种相似网络页面的搜索方法及设备

Country Status (2)

Country Link
CN (1) CN110390044B (zh)
WO (1) WO2020248379A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN116932964A (zh) * 2023-09-11 2023-10-24 中国人民解放军国防科技大学 基于页面状态相似性分析的Web应用API发掘方法及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851598B (zh) * 2019-10-30 2023-04-07 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN113127766B (zh) * 2019-12-31 2023-04-14 飞书数字科技(上海)有限公司 广告兴趣词的获取方法、装置、存储介质和处理器
CN112291273B (zh) * 2020-12-24 2021-03-26 远江盛邦(北京)网络安全科技股份有限公司 基于多维向量比较的页面模糊匹配实现方法
CN115687736B (zh) * 2022-12-30 2023-04-14 北京长亭未来科技有限公司 一种web应用的搜索方法、装置及电子设备
CN116680367B (zh) * 2023-08-04 2023-11-24 深圳市智慧城市科技发展集团有限公司 数据匹配方法、数据匹配装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078913A (en) * 1997-02-12 2000-06-20 Kokusai Denshin Denwa Co., Ltd. Document retrieval apparatus
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
CN103793523A (zh) * 2014-02-20 2014-05-14 刘峰 一种基于内容相似度计算的自动搜索引擎构建方法
CN104391955A (zh) * 2014-11-27 2015-03-04 北京国双科技有限公司 网页相关性检测方法及装置
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572650A (zh) * 2013-10-11 2015-04-29 中兴通讯股份有限公司 浏览器智能阅读实现方法、装置及其终端
CN104133870B (zh) * 2014-07-22 2017-06-09 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
US10432662B2 (en) * 2015-04-30 2019-10-01 Oath, Inc. Method and system for blocking malicious third party site tagging
CN109657208B (zh) * 2017-10-10 2023-07-04 株式会社理光 网页相似度计算方法、装置、设备、计算机可读存储介质
CN108304584A (zh) * 2018-03-06 2018-07-20 百度在线网络技术(北京)有限公司 非法页面检测方法、装置、入侵检测系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078913A (en) * 1997-02-12 2000-06-20 Kokusai Denshin Denwa Co., Ltd. Document retrieval apparatus
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
CN103793523A (zh) * 2014-02-20 2014-05-14 刘峰 一种基于内容相似度计算的自动搜索引擎构建方法
CN104391955A (zh) * 2014-11-27 2015-03-04 北京国双科技有限公司 网页相关性检测方法及装置
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN113793193B (zh) * 2021-08-13 2024-02-02 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN116932964A (zh) * 2023-09-11 2023-10-24 中国人民解放军国防科技大学 基于页面状态相似性分析的Web应用API发掘方法及系统
CN116932964B (zh) * 2023-09-11 2023-11-24 中国人民解放军国防科技大学 基于页面状态相似性分析的Web应用API发掘方法及系统

Also Published As

Publication number Publication date
CN110390044B (zh) 2024-03-19
CN110390044A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
WO2020248379A1 (zh) 一种相似网络页面的搜索方法及设备
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
WO2020207074A1 (zh) 一种信息推送的方法及设备
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US8832140B2 (en) System and method for measuring the quality of document sets
WO2018028443A1 (zh) 数据处理方法、设备及系统
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
Bing et al. Unsupervised extraction of popular product attributes from e-commerce web sites by considering customer reviews
US20110112995A1 (en) Systems and methods for organizing collective social intelligence information using an organic object data model
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
US8510312B1 (en) Automatic metadata identification
WO2020233360A1 (zh) 一种产品测评模型的生成方法及设备
WO2017091985A1 (zh) 停用词识别方法与装置
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
WO2017096777A1 (zh) 文献归一方法、文献搜索方法及对应装置、设备和存储介质
Alassi et al. Effectiveness of template detection on noise reduction and websites summarization
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN110019474B (zh) 异构数据库中的同义数据自动关联方法、装置及电子设备
WO2021027149A1 (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
Lee et al. Improved image retrieval and classification with combined invariant features and color descriptor
CN108388556B (zh) 同类实体的挖掘方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19932552

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19932552

Country of ref document: EP

Kind code of ref document: A1