WO2022116419A1 - 域名侵权的自动化判定方法、装置、电子设备和存储介质 - Google Patents

域名侵权的自动化判定方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
WO2022116419A1
WO2022116419A1 PCT/CN2021/082729 CN2021082729W WO2022116419A1 WO 2022116419 A1 WO2022116419 A1 WO 2022116419A1 CN 2021082729 W CN2021082729 W CN 2021082729W WO 2022116419 A1 WO2022116419 A1 WO 2022116419A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain name
length
string
character
similarity
Prior art date
Application number
PCT/CN2021/082729
Other languages
English (en)
French (fr)
Inventor
张师琲
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022116419A1 publication Critical patent/WO2022116419A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Definitions

  • the present application relates to the technical field of artificial intelligence, and in particular to a high-precision automatic determination method, device, electronic device and storage medium for domain name infringement.
  • Domain name disputes often refer to disputes arising from the registration or use of Internet domain names.
  • the inventor realizes that, at present, the information of the defending party and the information of the infringing party are usually checked one by one by manual checking, so as to determine the degree of dispute of the domain name.
  • this method is not only inefficient, but also has high requirements for the verification personnel, high labor costs, and the judgment results are also easily affected by the subjective opinions of individuals, which lacks impartiality.
  • the embodiments of the present application provide an automatic determination method, device, electronic device and storage medium for domain name infringement, which can quickly locate similar domain names for comparison and realize high-accuracy domain name infringement At the same time, it saves a lot of labor costs.
  • the embodiments of the present application provide an automated determination method for domain name infringement, including:
  • characteristic information of the domain name to be defended wherein the characteristic information includes: domain name information composed of English letters and Chinese text information;
  • the candidate domain name is judged for infringement.
  • the embodiments of the present application provide an automatic determination device for domain name infringement, including:
  • the feature extraction module is used to obtain feature information of the domain name to be defended, wherein the feature information includes: domain name information composed of English letters, and Chinese text information;
  • the candidate domain name determination module is used for screening the domain name matching the characteristic information in the preset domain name database as the candidate domain name for suspected infringement;
  • the comparison module is used to compare the domain name to be safeguarded and the candidate domain name, and obtain the similarity between the domain name to be safeguarded and the candidate domain name;
  • the judgment module is used to judge the infringement of the candidate domain name according to the similarity.
  • an embodiment of the present application provides an electronic device, including: a processor, the processor is connected to a memory, the memory is used for storing a computer program, and the processor is used for executing the computer program stored in the memory , so that the electronic device executes the automatic determination method of domain name infringement, and the automatic determination method of domain name infringement includes:
  • characteristic information of the domain name to be defended wherein the characteristic information includes: domain name information composed of English letters and Chinese text information;
  • the candidate domain name is judged for infringement.
  • embodiments of the present application provide a computer-readable storage medium, where a computer program is stored in the computer-readable storage medium, and the computer program enables a computer to execute an automated determination method for domain name infringement, and the automated determination method for domain name infringement include:
  • characteristic information of the domain name to be defended wherein the characteristic information includes: domain name information composed of English letters and Chinese text information;
  • the candidate domain name is judged for infringement.
  • embodiments of the present application provide a computer program product, the computer program product comprising a non-transitory computer-readable storage medium storing a computer program, the computer being operable to cause the computer to execute the method described in the first aspect Methods.
  • FIG. 1 is a schematic flowchart of an automatic determination method for domain name infringement provided by an embodiment of the present application
  • FIG. 2 is a schematic flowchart of a comparison process provided by an embodiment of the present application.
  • FIG. 3 is a schematic diagram representing a substring in a character string provided by an embodiment of the present application.
  • FIG. 4 is a schematic flowchart of a method for obtaining the length of the longest common substring provided by an embodiment of the present application
  • FIG. 5 is a schematic flowchart of a method for determining the similarity between a domain name to be safeguarded and a candidate domain name provided by an embodiment of the present application;
  • FIG. 6 is a schematic flowchart of a method for determining a weight provided by an embodiment of the present application.
  • FIG. 7 is a block diagram of functional modules of an automatic determination device for domain name infringement according to an embodiment of the present application.
  • an embodiment means that a particular feature, result, or characteristic described in connection with the embodiment can be included in at least one embodiment of the present application.
  • the appearances of the phrase in various places in the specification are not necessarily all referring to the same embodiment, nor a separate or alternative embodiment that is mutually exclusive with other embodiments. It is explicitly and implicitly understood by those skilled in the art that the embodiments described herein may be combined with other embodiments.
  • the technical solution of the present application relates to the technical field of artificial intelligence, and can be used in infringement judgment scenarios, such as domain name infringement judgment.
  • the data involved in this application such as feature information, similarity information and/or determination result information, may be stored in a database, or may be stored in a blockchain, which is not limited in this application.
  • FIG. 1 is a schematic flowchart of an automatic determination method for domain name infringement provided by an embodiment of the present application.
  • the automatic determination method for domain name infringement includes the following steps:
  • the domain name to be safeguarded refers to a domain name that is suspected to be infringing and awaits safeguarding.
  • the infringing domain name is obtained by expanding, deleting, replacing, and dividing the domain name to be defended. www.efabcdhi.com; through deletion, its infringing domain name may be www.abc.com; through segmentation, its infringing domain name may be www.asqbcd.com.
  • some relatively concealed infringing domain names use textual information related to the main characteristics of the domain name to be defended as the main body of the domain name.
  • the main feature of the domain name to be defended refers to the operation scope, website theme, etc. of the website corresponding to the domain name to be defended.
  • the main feature of rights protection domain name can be "second-hand transaction”.
  • the infringing domain name of the domain name to be defended may be www.ershou.com, www.2jiaoyi.com, www.zjiaoyi.com, etc.
  • the characteristic information may be domain name information composed of English letters of the domain name to be defended, and some Chinese text information that conforms to the characteristics of the domain name to be defended. Based on this, the suspected infringing candidate domain names related to the domain name to be defended can be captured more comprehensively.
  • the domain names stored in the domain name database can be screened by feature information, so as to obtain candidate domain names suspected of infringement.
  • the domain name database is a database for storing domain names existing in the Internet.
  • a search engine may be used to match the characteristic information of the domain names stored in the domain name database to preliminarily screen out the domain names matching the characteristic information from the massive domain names in the domain name database as candidate domain names for suspected infringement. If the number of characters in the characteristic information included in a domain name in the database exceeds the preset value, it is determined that the domain name matches the characteristic information and can be used as a candidate domain name for suspected infringement. Then, it is judged whether the candidate domain name is infringing through the comparison process. In addition, it is also possible to screen candidate domain names by means of neural network model recognition, etc., and this application does not limit the method of screening candidate domain names.
  • FIG. 2 is a schematic flowchart of a comparison process provided by an embodiment of the present application.
  • the alignment process includes the following steps:
  • the longest common substring represents a common substring with the longest length among all common substrings of the two strings, wherein the common substring represents a character composed of consecutive and identical elements in the two strings string.
  • FIG. 3 is a schematic diagram representing a substring in a character string according to an embodiment of the present application.
  • its substring example can be ⁇ c,d,e,f ⁇ i.e. string ⁇ a,b,c , d, e, f, g, h ⁇ in the string composed of consecutive elements c, d, e, f.
  • strings ⁇ a, b, c, d ⁇ , ⁇ g, h ⁇ , etc. composed of consecutive elements are also its substrings.
  • the common substring between the two strings can include ⁇ b ⁇ , ⁇ c ⁇ , ⁇ b, c ⁇ , ⁇ e ⁇ , ⁇ f ⁇ , ⁇ g ⁇ , ⁇ e, f ⁇ , ⁇ f, g ⁇ and ⁇ e, f, g ⁇ , and since the length of ⁇ e, f, g ⁇ is the most long, then ⁇ e, f, g ⁇ is the longest common substring between the two strings.
  • dynamic programming algorithms are used to solve problems with some optimal properties.
  • problems there may be many feasible solutions, each of which corresponds to a value, and the ultimate hope is to find the solution with the optimal value.
  • the algorithm of dynamic programming is similar to the divide-and-conquer method in ordinary computing.
  • the sub-problems obtained by decomposing are often not independent of each other for problems that are suitable for solving by dynamic programming. Therefore, if the divide-and-conquer method is used to solve such problems, the number of sub-problems obtained by the decomposition will be too large, resulting in some sub-problems being repeatedly calculated many times.
  • FIG. 4 is a schematic flowchart of a method for obtaining the length of the longest common substring provided by an embodiment of the present application.
  • the method adopts the idea of the above-mentioned dynamic programming algorithm, and can include the following steps:
  • first character and the second character are different, take the length of the longest common substring of the first feature string and the second feature string excluding the first character as the first length, and use the first feature string with the length of the longest common substring of the second feature string.
  • the length of the longest common substring of the second characteristic string excluding the second character is taken as the second length, and the length of the longest common substring is set as the maximum value of the first length and the second length.
  • the algorithm combined with dynamic programming can avoid the advantage of a large number of repeated calculations, so as to quickly obtain the length of the longest common substring, thereby improving the calculation efficiency of similarity, and finally improving the efficiency of infringement determination.
  • FIG. 5 is a schematic flowchart of a method for determining the similarity between a domain name to be defended and a candidate domain name provided by an embodiment of the present application. The method includes the following steps:
  • 504 Perform weighting processing on the length of the longest common substring according to the weight to obtain the similarity.
  • the domain name of one of the two parties is too long, and only a short string in the domain name is matched, while the domain name of the other party is too short.
  • the domain name of company A is www.abcdefghiskuhdusagsa .com
  • the case where the domain name of company B is www.bcd.com.
  • the domain name of company A is www.abcdefghiskuhdusagsa .com
  • the domain name of company B is www.bcd.com.
  • FIG. 6 is a schematic flowchart of a method for determining a weight provided by an embodiment of the present application. The method includes the following steps:
  • 601 Obtain the difference between the first length and the second length, and the sum of the first length and the second length.
  • the feature information may include the domain name information of the domain name to be defended, and some textual information aspects that conform to the characteristics of the domain name to be defended. Therefore, in this embodiment, the comparison processing may also include the first comparison processing in the English dimension and the second comparison processing in the Chinese dimension, so as to correspond to the aforementioned two types of feature information respectively.
  • the comparison processing is the first comparison processing of the English dimension
  • the first characteristic string may be the English string of the domain name to be defended, and the obtained similarity is called the English similarity.
  • the first characteristic string may be the pinyin string of the Chinese keyword of the domain name to be defended, and the obtained similarity is called the Chinese similarity.
  • the comparison processing may include the first comparison processing of the English dimension and the second comparison processing of the Chinese dimension
  • the processing result may also include the English similarity and the Chinese similarity. Therefore, in this implementation manner, the infringement determination of the candidate domain name can be carried out in the following ways:
  • the candidate domain name is determined to be infringing.
  • the automatic determination method of domain name infringement provided by this application can quickly locate similar domain names by adopting the method of feature extraction and comparison.
  • the comparison of English domain name information and Chinese keyword information is used to make the comparison results more accurate, and the whole process of calculating similarity is not subject to manual participation and is not affected by manual subjective judgment, so that the infringement judgment result can be used as basis for rights.
  • the accuracy of the comparison result is further improved.
  • the automatic processing of domain name infringement is realized, which saves a lot of labor costs.
  • feature information is extracted from the domain name to be protected, which specifically includes the domain name feature in English and the keyword feature in Chinese.
  • the domain name database is retrieved by means of feature information matching through a search engine, and candidate domain names are screened out from the domain name database for infringement comparison.
  • the infringement comparison can be divided into domain name comparison processing in the English dimension and keyword comparison processing in the Chinese dimension. The following will describe the two respectively:
  • the main feature extraction is performed on the domain names of both parties, and the invalid comparison elements are removed while acquiring the feature string including the main feature.
  • the domain name www.xsdjf.com public parts such as "www.” and ".com” that conform to most domain names cannot characterize the characteristics of the domain name, and it is meaningless to compare the similarity of these elements. Therefore, it is necessary to remove such elements first, and retain the feature body "xsdjf" as the feature string for comparison. In this way, invalid alignment elements are removed, thereby simplifying the subsequent alignment processing flow and improving alignment efficiency.
  • the main principle is that there must be multiple consecutive overlapping parts of multiple letters in the string, and the more overlapping parts, the higher the similarity score.
  • the length of the longest common substring of the first feature string of the domain name to be defended after feature extraction and the length of the longest common substring of the second feature string of the candidate domain name after feature extraction is obtained to determine the difference between the two. similarity.
  • ⁇ x1, x2...xi ⁇ represents the first feature string
  • i represents the length of the first feature string
  • ⁇ y1, y2...yj ⁇ represents the second feature string
  • j represents the length of the second feature string
  • C[i, j] represents the length of the longest common substring of the first feature string and the second feature string.
  • the length of the longest common substring of this application can be represented by formula 2:
  • i represents the length of the first feature string
  • j represents the length of the second feature string
  • G(i-j) represents a function that is inversely proportional to the distance difference of (i-j), that is, the smaller (i-j), G(i-j) ) is larger
  • is the symbol of absolute value.
  • the Chinese keywords can be converted into pinyin strings, and the comparison process with the above-mentioned domain names can be realized. Similar methods are used to obtain Chinese similarity, which will not be repeated here.
  • the English similarity and the Chinese similarity can be obtained simultaneously, and at the same time, as long as one of the two is greater than its corresponding threshold, the candidate domain name can be judged to be infringing, and the infringement judgment can be pushed.
  • FIG. 7 is a block diagram of functional modules of an automatic determination device for domain name infringement provided by an embodiment of the present application.
  • the automatic determination device for domain name infringement includes:
  • the feature extraction module 11 is configured to obtain feature information of the domain name to be defended, wherein the feature information includes: domain name information composed of English letters and Chinese text information.
  • the candidate domain name determination module 12 is used for screening the domain name matching the characteristic information in the preset domain name database as the suspected infringement candidate domain name.
  • the comparison module 13 is configured to perform comparison processing between the domain name to be safeguarded and the candidate domain name to obtain the similarity between the domain name to be safeguarded and the candidate domain name.
  • the determination module 14 is configured to perform infringement determination on the candidate domain name according to the similarity.
  • the comparison module 13 is specifically configured to: extract the first characteristic string of the domain name to be safeguarded, and extract the second characteristic string of the candidate domain name. Obtain the length of the longest common substring of the first characteristic string and the second characteristic string, and determine the similarity between the domain name to be defended and the candidate domain name according to the length of the longest common substring.
  • the comparison module 13 is specifically used for:
  • the tail character of the first feature string is obtained as the first character
  • the tail character of the second feature string is obtained as the first character.
  • the length of the longest common substring is the length of the longest common substring of the first feature string excluding the first character and the second feature string excluding the second character plus one;
  • the length of the longest common substring of the first feature string and the second feature string excluding the first character is taken as the first length
  • the length of the first feature string and the The length of the longest common substring of the second character string of two characters is used as the second length
  • the length of the longest common substring is set as the maximum value of the first length and the second length.
  • the comparison module 13 in terms of determining the similarity between the domain name to be defended and the candidate domain name according to the length of the longest common substring, the comparison module 13 is specifically used for:
  • the length of the longest common substring is weighted according to the weight to obtain the similarity.
  • the comparison module 13 is specifically used for:
  • the weight is obtained according to the first coefficient and the sum of the first length and the second length.
  • the comparison processing when the comparison processing is the first comparison processing in the English dimension, the first characteristic string is the domain name string of the domain name to be defended, and the similarity is the English similarity.
  • the comparison processing is the second comparison processing of the Chinese dimension, the first characteristic character string is the pinyin character string of the Chinese keyword of the domain name to be defended, and the similarity is the Chinese similarity.
  • the determination module 14 is specifically configured to determine the candidate domain name infringement if the English similarity is greater than the first threshold and/or the Chinese similarity is greater than the second threshold.
  • the automatic determination device for domain name infringement in this application may include smart phones (such as Android mobile phones, iOS mobile phones, Windows Phone mobile phones, etc.), tablet computers, handheld computers, notebook computers, and mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • smart phones such as Android mobile phones, iOS mobile phones, Windows Phone mobile phones, etc.
  • tablet computers such as Samsung mobile phones, iOS mobile phones, Windows Phone mobile phones, etc.
  • handheld computers handheld computers
  • notebook computers and mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • MID Mobile Internet Devices
  • wearable devices etc.
  • the above-mentioned automatic determination device for domain name infringement is only an example, not exhaustive, including but not limited to the above-mentioned automatic determination device for domain name infringement.
  • the above-mentioned automatic determination device for domain name infringement may further include: intelligent vehicle-mounted terminals, computer equipment, and the like.
  • the embodiments of the present application also provide an electronic device, the electronic device includes a processor, a memory, a communication interface, and one or more programs. Wherein, one or more programs are stored in the memory and configured to be executed by the processor, so as to realize the automatic determination method of domain name infringement provided by the foregoing embodiments or implementations of the present application.
  • the embodiments of the present application further provide a computer (readable) storage medium, where the computer-readable storage medium stores a computer program, and the computer program is executed by a processor to implement any one of the method embodiments described above.
  • the storage medium may include a hard disk, a floppy disk, an optical disk, a magnetic tape, a magnetic disk, a USB flash drive, a flash memory, and the like.
  • the storage medium involved in this application such as a computer-readable storage medium, may be non-volatile or volatile.
  • Embodiments of the present application further provide a computer program product, the computer program product comprising a non-transitory computer-readable storage medium storing a computer program, the computer program being operable to cause a computer to execute the method described in the foregoing method embodiments Some or all of the steps in any automated method for determining domain name infringement.
  • the disclosed apparatus may be implemented in other manners.
  • the device implementations described above are only illustrative, for example, the division of the units is only a logical function division, and other divisions may be used in actual implementation, for example, multiple units or components may be combined or Integration into another system, or some features can be ignored, or not implemented.
  • the shown or discussed mutual coupling or direct coupling or communication connection may be through some interfaces, indirect coupling or communication connection of devices or units, and may be in electrical or other forms.
  • the units described as separate components may or may not be physically separated, and components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution in this implementation manner.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically alone, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units can be implemented in the form of hardware, and can also be implemented in the form of software program modules.
  • the integrated unit if implemented in the form of a software program module and sold or used as a stand-alone product, may be stored in a computer readable memory.
  • the technical solution of the present application can be embodied in the form of a software product in essence, or the part that contributes to the prior art, or all or part of the technical solution, and the computer software product is stored in a memory.
  • a computer device which may be a personal computer, a server, or a network device, etc.
  • the aforementioned memory includes: U disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), mobile hard disk, magnetic disk or optical disk and other media that can store program codes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种域名侵权的自动化判定方法、装置、电子设备和存储介质,其中,域名侵权的自动化判定方法包括:获取待维权域名的特征信息(101),其中,所述特征信息包括:由英文字母组成的域名信息,以及中文文字信息;在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名(102);对待维权域名和候选域名进行比对处理,得到待维权域名和候选域名之间的相似度(103);根据相似度,对候选域名进行侵权判定(104)。采用所提供的域名侵权的自动化判定方法,可以快速定位相似域名进行比对,实现域名侵权的自动化处理,在保证比对精准度的同时,节省了大量的人力成本。

Description

域名侵权的自动化判定方法、装置、电子设备和存储介质
本申请要求于2020年12月3日提交中国专利局、申请号为202011393629.9,发明名称为“域名侵权的自动化判定方法、装置、电子设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种高精准度的域名侵权的自动化判定方法、装置、电子设备和存储介质。
背景技术
随着网络的普及化,网络通讯技术以不可取代的地位深入各个领域,而作为互联网的基础,域名系统的重要性不言而喻。发明人发现,目前,互联网中充斥着各种大型或知名企业的仿冒域名,这些仿冒域名不单单威胁着网络安全,也会给这些大型或知名企业带来声誉上的影响。
但是,域名仿冒的形式复杂,其是否真的构成侵权,还需要进行域名争议判断。而域名争议,往往是指因互联网络域名的注册或者使用而引发的争议。
发明人意识到,目前,通常采用人工核对的方式将维权方信息和侵权方信息进行一一核对,由此来确定域名的争议程度。但是,这种方式不仅效率低下,对核对人员有着较高的要求,人力成本高,判定结果也容易受个人的主观看法影响,缺乏公正性。
发明内容
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种域名侵权的自动化判定方法、装置、电子设备和存储介质,可以快速定位相似域名进行比对,实现高准确度的域名侵权的自动化判定的同时,节省了大量的人力成本。
第一方面,本申请的实施方式提供了一种域名侵权的自动化判定方法,包括:
获取待维权域名的特征信息,其中,特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名;
对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
根据相似度,对候选域名进行侵权判定。
第二方面,本申请的实施方式提供了一种域名侵权的自动化判定装置,包括:
特征提取模块,用于获取待维权域名的特征信息,其中,特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
候选域名确定模块,用于在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名;
比对模块,用于对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
判定模块,用于根据相似度,对候选域名进行侵权判定。
第三方面,本申请实施方式提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行域名侵权的自动化判定方法,该域名侵权的自动化判定方法包括:
获取待维权域名的特征信息,其中,特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名;
对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的 相似度;
根据相似度,对候选域名进行侵权判定。
第四方面,本申请实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行域名侵权的自动化判定方法,该域名侵权的自动化判定方法包括:
获取待维权域名的特征信息,其中,特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名;
对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
根据相似度,对候选域名进行侵权判定。
第五方面,本申请实施方式提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施方式,先采用特征提取比对的方式,快速定位疑似侵权的候选域名,然后,对待维权域名和候选域名进行比对处理,根据比对处理的处理结果,对候选域名进行侵权判定,从而实现了域名侵权的自动化处理,节省了大量的人力成本。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种域名侵权的自动化判定方法的流程示意图;
图2为本申请实施方式提供的一种比对处理的流程示意图;
图3为本申请实施方式提供的一种表示字符串中的一个子串的示意图;
图4为本申请实施方式提供的一种获取最长公共子串的长度的方法的流程示意图;
图5为本申请实施方式提供的一种确定待维权域名与候选域名之间的相似度的方法的流程示意图;
图6为本申请实施方式提供的一种确定权值的方法的流程示意图;
图7为本申请实施方式提供的一种域名侵权的自动化判定装置的功能模块组成框图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。
本申请的技术方案涉及人工智能技术领域,可用于侵权判定场景,如可用于域名侵权判定。可选的,本申请涉及的数据如特征信息、相似度信息和/或判定结果信息等可存储于数据库中,或者可以存储于区块链中,本申请不做限定。
参阅图1,图1为本申请实施方式提供的一种域名侵权的自动化判定方法的流程示意图。该域名侵权的自动化判定方法包括以下步骤:
101:获取待维权域名的特征信息。
在本实施方式中,待维权域名指疑似存在侵权域名,等待维权的域名。
一般而言,侵权域名是在待维权域名基础上进行扩充、删减、替换、切分等处理获得的,例如,对于待维权域名www.abcd.com,通过扩充处理,其侵权域名可能会是www.efabcdhi.com;通过删减处理,其侵权域名可能会是www.abc.com;通过切分处理,其侵权域名可能会是www.asqbcd.com。
同时,部分较为隐蔽的侵权域名则是采用与待维权域名的主体特征相关的文字信息来作为域名主体。在本实施方式中,待维权域名的主体特征指该待维权域名所对应的网站的运营范围、网站主题等,例如,某个待维权域名对应的网站的运营范围为闲置物品交易,则该待维权域名的主体特征可以为“二手交易”。那么,该待维权域名的侵权域名可能会是www.ershou.com、www.2jiaoyi.com、www.zjiaoyi.com等。
因此,在本实施方式中,特征信息可以是待维权域名本身的由英文字母组成的域名信息,以及一些符合待维权域名主体特征的中文文字信息。基于此,可以更加全面的捕获与待维权域名相关的疑似侵权的候选域名。
102:在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名。
在本实施方式中,可以通过特征信息对域名库中保存的域名进行筛选,以此获取疑似侵权的候选域名。其中,域名库为用于保存互联网中存在的域名的数据库。
示例性的,可以采用搜索引擎对域名库中保存的域名进行特征信息匹配的方式,初步从域名库中的海量域名中快速筛选出特征信息匹配的域名作为疑似侵权的候选域名,例如,当域名库中的某个域名中包括的特征信息中的字符的个数超过预设值,则判定该域名与特征信息匹配,可以作为疑似侵权的候选域名。然后通过比对处理来判断候选域名是否侵权。此外,还可以采用神经网络模型识别等方式筛选候选域名,本申请对筛选候选域名的方式不进行限定。
103:对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度。
在本实施方式中,参阅图2,图2为本申请实施方式提供的一种比对处理的流程示意图。该比对处理包括以下步骤:
201:提取待维权域名的第一特征字符串。
202:提取候选域名的第二特征字符串。
203:获取第一特征字符串和第二特征字符串的最长公共子串的长度。
在本实施方式中,最长公共子串表示两个字符串的所有公共子串中长度最长的一个公共子串,其中,公共子串表示两个字符串中连续且相同的元素组成的字符串。
示例性的,参阅图3,图3为本申请实施方式提供的一种表示字符串中的一个子串的示意图。对于给定的字符串{a,b,c,d,e,f,g,h},它的子串示例可以为{c,d,e,f},即字符串{a,b,c,d,e,f,g,h}中连续元素c,d,e,f组成的字符串。再如,连续元素组成的字符串{a,b,c,d}、{g,h}等也都是它的子串。
基于此,若再给出一个字符串{b,c,e,f,g,i,e,w},则这两个字符串之间的公共子串可以包括{b}、{c}、{b,c}、{e}、{f}、{g}、{e,f}、{f,g}和{e,f,g},且由于{e,f,g}的长度最长,则{e,f,g}就是这两个字符串之间的最长公共子串。
但是,对于较为复杂的两串字符串,其公共子串的个数可能非常多,从而导致获取最长公共子串以及其长度变得十分困难。对于这种情况,在本实施方式中,给出了一种动态规划的算法,用于解决上述问题。
通常而言,动态规划的算法用于求解具有某种最优性质的问题。在这类问题中,可能会有许多的可行解,其中,每一个解都对应于一个值,而最终希望找到的是具有最优值的解。动态规划的算法与通常计算中的分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后根据这些子问题的解得到原问题的解。但是,与分治法不同的是,适合于用动态规划求解的问题,经分解得到子问题往往不是互相独立的。因此,若使用分治法来解这类问题,则会因为分解得到的子问题数目太多,从而导致有些子问题被重复计算了很多次。因此,如果能够保存已解决的子问题的答案,而在需要时再找出已求得的答案,这样就可以避免大量的重复计算,节省时间。基于此,可以用一个表来记录所有已解的子问题的答案,不管该子问题以后是否被用到,只要它被计算过,就将其结果填入表中。这就是动态规划的算法的基本思路。
示例性的,参阅图4,图4为本申请实施方式提供的一种获取最长公共子串的长度的方法的流程示意图。该方法采用了上述动态规划的算法的思想,可以包括以下步骤:
401:获取第一特征字符串的字符个数,获取第二特征字符串的字符个数。
402:若第一特征字符串的字符个数和/或第二特征字符串的字符个数为0,则设置最长公共子串的长度为0。
403:若第一特征字符串的字符个数和第二特征字符串的字符个数均大于0,则获取第一特征字符串的尾字符作为第一字符,获取第二特征字符串的尾字符作为第二字符。
404:若第一字符和第二字符相同,则设置最长公共子串的长度为,除去第一字符的第一特征字符串和除去第二字符的第二特征字符串的最长公共子串的长度加一。
405:若第一字符和第二字符不同,则将除去第一字符的第一特征字符串与第二特征字符串的最长公共子串的长度作为第一长度,将第一特征字符串与除去第二字符的第二特征字符串的最长公共子串的长度作为第二长度,设置最长公共子串的长度为第一长度和第二长度的最大值。
由此,结合动态规划的算法可以避免大量的重复计算的优势,从而快速的获取到最长公共子串的长度,进而提高相似度的计算效率,最终提高侵权判定效率。
204:根据最长公共子串的长度,确定待维权域名与候选域名之间的相似度。
在本实施方式中,参阅图5,图5为本申请实施方式提供的一种确定待维权域名与候选域名之间的相似度的方法的流程示意图。该方法包括以下步骤:
501:获取第一特征字符串的第一长度。
502:获取第二特征字符串的第二长度。
503:根据第一长度和第二长度获取权值。
504:根据权值对最长公共子串的长度进行加权处理,获取相似度。
在域名的侵权比对中,存在比对双方一方的域名过长,且域名中只有很短的字符串被匹配出相似,而另一方的域名过短,例如:A公司的域名是www.abcdefghiskuhdusagsa.com,B公司的域名是www.bcd.com的情况。在这种情况下,虽然这两者的域名的公共部分较多,但是对于B而言明显是不能算作侵权的。
因此,为了减少上述情况下不公平的侵权判定的发生,在本实施方式中,参阅图6,图6为本申请实施方式提供的一种确定权值的方法的流程示意图。该方法包括以下步骤:
601:获取第一长度和第二长度的差值,以及第一长度和第二长度之和。
602:根据差值获取第一系数。
在本实施方式中,第一长度和第二长度的差值越小,第一系数越大。
603:根据第一系数,以及第一长度和第二长度之和,获取权值。
由此,通过对重合部分长度与整体字符串长度的比例进行约束,使比对双方的长度差距越大,其权值越小,继而进一步的提升了比对结果的精准度。
在本实施方式中,由于特征信息可以包含待维权域名本身的域名信息,以及一些符合待维权域名主体特征的文字信息方面。因此,在本实施方式中,比对处理也可以包括英文维度的第一比对处理和中文维度的第二比对处理,从而分别对应前述的两种特征信息。
因此,当比对处理为英文维度的第一比对处理时,第一特征字符串可以为待维权域名的英文字符串,获取的相似度则称为英文相似度。应当理解,在本实施方式中,该英文字符串除了常规的英文字符之外,还可以包括特殊字符,例如:‘/’、‘?’、‘%’、‘=’等。因此,在遇到上述特殊字符时,可以将特殊字符视作常规的英文字符进行处理。
当比对处理为中文维度的第二比对处理时,第一特征字符串可以为待维权域名的中文关键字的拼音字符串,获取的相似度则称为中文相似度。
104:根据相似度,对候选域名进行侵权判定。
由于比对处理可以包括英文维度的第一比对处理和中文维度的第二比对处理,处理结果也可以包括英文相似度和中文相似度。因此,在本实施方式中,对候选域名进行侵权判定可以通过以下方式进行:
若英文相似度大于第一阈值和/或中文相似度大于第二阈值,则判定候选域名侵权。
综上所述,本申请所提供的域名侵权的自动化判定方法,采用特征提取比对的方式,可以快速定位相似域名。同时,采用英文域名信息比对和中文关键词信息比对,使比对结果更加精准,且整个计算相似度过程,没有人工参与,不受人工的主观判断的影响,从而可以将侵权判定结果作为维权的依据。并且,通过引入重合部分长度与整体字符串长度的比例的约束,进一步的提升了比对结果的精准度。此外,实现了域名侵权的自动化处理,节省了大量的人力成本。
以下,将结合具体实施方式对本申请所提供的域名侵权的自动化判定方法进行说明。
在本实施方式中,首先,对待维权的域名进行特征信息提取,具体包括英文的域名特征和中文的关键词特征。然后,通过搜索引擎以特征信息匹配的方式对域名库进行检索,从域名库中筛选出候选域名,进行侵权比对。
基于特征信息的不同维度,在本实施方式中,侵权比对可以分为英文维度下的域名比对处理和中文维度下的关键词比对处理,以下将分别对二者进行说明:
(1)域名比对处理:
在本实施方式中,首先,对比对双方的域名进行主要特征提取,在获取包含主体特征的特征字符串的同时去除无效的比对元素。例如:对于域名www.xsdjf.com中,“www.”,“.com”之类的符合大多数域名的公共部分不能表征域名的特征,且比对这些元素的相似度也没有意义。因此,需要先把这类元素去掉,保留特征主体“xsdjf”作为比对的特征字符串。这样去除了无效的比对元素,从而可以简化后续比对处理流程,提高比对效率。
通常,比较英文部分相似度,主要采用的原理是:字符串中必须存在多个连续的多个字母的重合部分,重合部分越多,相似度得分越高。而在本实施方式中,通过获取进行特征提取后的待维权域名的第一特征字符串和进行特征提取后的候选域名的第二特征字符串的最长公共子串的长度来判定两者间的相似度。
示例性的,本申请的最长公共子串的长度可以通过公式①表示:
Figure PCTCN2021082729-appb-000001
其中,{x1,x2…xi}表示第一特征字符串,i表示第一特征字符串的长度,{y1,y2…yj}表示第二特征字符串,j表示第二特征字符串的长度,C[i,j]表示第一特征字符串和第二特征字符串的最长公共子串的长度。
下面结合实际的例子说明获取最长公共子串的长度:
示例性的,对于第一域名www.abcd.com,与第二域名www.bcde.com,其特征字符串分别为第一特征字符串{a,b,c,d}和第二特征字符串{b,c,d,e}。容易看出,第一特征字符串的长度i=4,第二特征字符串的长度j=4。
由于i,j>0,且xi=d,yj=e,两者并不相同,因此,代入公式①可以得到:
C[4,4]=max{C[4,3],C[3,4]}
=max{C[3,2]+1,max{C[3,3],C[2,4]}}
=max{C[2,1]+1+1,max{max{C[3,2],C[2,3]},max{C[2,3],C[1,4]}}
=max{C[1,0]+1+1+1,max{max{C[2,1]+1,max{C[2,2],C[1,3]}},max{max{C[2,2],C[1,3]},max{C[1,3],C[0,4]}}}
=max{3,max{max{C[1,0]+1+1,max{max{C[2,1],C[1,2]},max{C[1,2],C[0,3]}}},max{max{max{C[2,1],C[1,2]},max{C[1,2],C[0,3]}},max{C[1,2],C[0,3]}}}
=max{3,max{max{2,max{max{C[1,0]+1,max{C[1,1],C[0,2]}},max{C[1,1],C[0,2]}}},max{max{max{C[1,0]+1,max{C[1,1],C[0,2]}},max{C[1,1],C[0,2]}},max{C[1,1],C[0,2]}}}
=max{3,max{max{2,max{max{1,max{C[1,0],C[0,1]}},max{C[1,0],C[0,1]}}},max{max{max{1,max{C[1,0],C[0,1]}},max{C[1,0],C[0,1]}},max{C[1,0],C[0,1]}}}
=max{3,max{max{2,max{max{1,0},0}},max{max{max{1,0},0},0}}
=3
在本实施方式中,在获取到最长公共子串的长度后,可以进行英文相似度的获取。示例性的,本申请的最长公共子串的长度可以通过公式②表示:
Figure PCTCN2021082729-appb-000002
其中,i表示第一特征字符串的长度,j表示第二特征字符串的长度,G(i-j)表示一个与(i-j)的距离差成反比的函数,即(i-j)越小,G(i-j)越大,丨丨为取绝对值符号。
从公式②中可以看出,当比对双方的长度差距较大时,在G(i-j)的影响下,其英文相似度Sim(e)的值就会越小,从而规避了比对过程中,由于比对双方一方的域名过长,而另一方的域名过短的情况下,过长域名中只有很短的字符串被匹配出相似,而过短的域名整体被匹配出相似,从而造成相似度比对结果不公平的情况。相当于对比对双方的重合部分长度与整体字符串长度的比例进行约束,从而减少上述情况下的不公平判定,进一步的提升了比对结果的精准度。
(2)关键词比对处理:
对于中文维度下的待维权域名的关键词与候选域名之间的比对,在本实施方式中,可以通过将中文的关键词转化为拼音字符串,在通过与上述域名比对处理的实现方式类似的方式获取中文相似度,在此不再赘述。
此外,在本实施方式中,英文相似度和中文相似度的获取可以同步进行,同时,两者中只要有一者大于其对应的阈值,即可判定候选域名侵权,进行侵权判定推送。
同时,采用英文域名信息比对和中文关键词信息比对,可以使比对结果更加精准,由于整个计算相似度过程,没有人工参与,不受人工的主观判断的影响,从而可以将侵权判定结果作为维权的依据。
参阅图7,图7为本申请实施方式提供的一种域名侵权的自动化判定装置的功能模块组成框图。该域名侵权的自动化判定装置包括:
特征提取模块11,用于获取待维权域名的特征信息,其中,特征信息包括:由英文字母组成的域名信息,以及中文文字信息。
候选域名确定模块12,用于在预设域名库中筛选与特征信息相匹配的域名作为疑似侵权的候选域名。
比对模块13,用于对待维权域名和候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度。
判定模块14,用于根据相似度,对候选域名进行侵权判定。
在本申请的实施方式中,比对模块13具体用于:提取待维权域名的第一特征字符串,提取候选域名的第二特征字符串。获取第一特征字符串和第二特征字符串的最长公共子串的长度,并根据最长公共子串的长度,确定待维权域名与候选域名之间的相似度。
在本申请的实施方式中,在获取第一特征字符串和第二特征字符串的最长公共子串的长度方面,比对模块13具体用于:
获取第一特征字符串的字符个数,获取第二特征字符串的字符个数;
若第一特征字符串的字符个数和/或第二特征字符串的字符个数为0,则设置最长公共子串的长度为0;
若第一特征字符串的字符个数和第二特征字符串的字符个数均大于0,则获取第一特征字符串的尾字符作为第一字符,获取第二特征字符串的尾字符作为第二字符;
若第一字符和第二字符相同,则设置最长公共子串的长度为,除去第一字符的第一特征字符串和除去第二字符的第二特征字符串的最长公共子串的长度加一;
若第一字符和第二字符不同,则将除去第一字符的第一特征字符串与第二特征字符串的最长公共子串的长度作为第一长度,将第一特征字符串与除去第二字符的第二特征字符串的最长公共子串的长度作为第二长度,设置最长公共子串的长度为第一长度和第二长度的最大值。
在本申请的实施方式中,在根据最长公共子串的长度,确定待维权域名与候选域名之间的相似度方面,比对模块13具体用于:
获取第一特征字符串的第一长度;
获取第二特征字符串的第二长度;
根据第一长度和第二长度获取权值;
根据权值对最长公共子串的长度进行加权处理,获取相似度。
在本申请的实施方式中,在根据第一长度和第二长度获取权值方面,比对模块13具体用于:
获取第一长度和第二长度的差值;
根据差值获取第一系数,且差值越小,第一系数越大;
根据第一系数,以及第一长度和第二长度之和,获取权值。
在本申请的实施方式中,当比对处理为英文维度的第一比对处理时,第一特征字符串为待维权域名的域名字符串,相似度为英文相似度。当比对处理为中文维度的第二比对处理时,第一特征字符串为待维权域名的中文关键字的拼音字符串,相似度为中文相似度。
基于此,在本申请的实施方式中,判定模块14具体用于:若英文相似度大于第一阈值和/或中文相似度大于第二阈值,则判定候选域名侵权。
应理解,本申请中域名侵权的自动化判定装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述域名侵权的自动化判定装置仅是举例,而非穷举,包含但不限于上述域名侵权的自动化判定装置。在实际应用中,上述域名侵权的自动化判定装置还可以包括:智能车载终端、计算机设备等等。
本申请实施方式还提供了一种电子设备,该电子设备包括处理器、存储器、通信接口以及一个或多个程序。其中,一个或多个程序被存储在存储器中,并且被配置由处理器执行,从而实现本申请前述实施方式或实现方式所提供的域名侵权的自动化判定方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件结合硬件平台的方式来实现。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
因此,本申请实施方式还提供一种计算机(可读)存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种域名侵权的自动化判定方法的部分或全部步骤。例如,所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。
可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
本申请实施方式还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种域名侵权的自动化判定方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于可选实施方式,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述的部分,可以参见其他实施方式的相关描述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施方式进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

  1. 一种域名侵权的自动化判定方法,其中,所述方法包括:
    获取待维权域名的特征信息,其中,所述特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
    在预设域名库中筛选与所述特征信息相匹配的域名作为疑似侵权的候选域名;
    对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
    根据所述相似度,对所述候选域名进行侵权判定。
  2. 根据权利要求1所述的方法,其中,所述对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度,包括:
    提取所述待维权域名的第一特征字符串;
    提取所述候选域名的第二特征字符串;
    获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度;
    根据所述最长公共子串的长度,确定所述待维权域名与所述候选域名之间的相似度。
  3. 根据权利要求2所述的方法,其中,所述获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度,包括:
    获取所述第一特征字符串的字符个数,获取所述第二特征字符串的字符个数;
    若所述第一特征字符串的字符个数和/或所述第二特征字符串的字符个数为0,则设置所述最长公共子串的长度为0;
    若所述第一特征字符串的字符个数和所述第二特征字符串的字符个数均大于0,则获取所述第一特征字符串的尾字符作为第一字符,获取所述第二特征字符串的尾字符作为第二字符;
    若所述第一字符和所述第二字符相同,则设置所述最长公共子串的长度为,除去所述第一字符的第一特征字符串和除去所述第二字符的第二特征字符串的最长公共子串的长度加一;
    若所述第一字符和所述第二字符不同,则将除去所述第一字符的第一特征字符串与所述第二特征字符串的最长公共子串的长度作为第一长度,将所述第一特征字符串与除去所述第二字符的第二特征字符串的最长公共子串的长度作为第二长度,设置所述最长公共子串的长度为所述第一长度和所述第二长度的最大值。
  4. 根据权利要求3所述的方法,其中,所述根据所述最长公共子串的长度,确定所述待维权域名与所述候选域名之间的相似度,包括:
    获取所述第一特征字符串的第一长度;
    获取所述第二特征字符串的第二长度;
    根据所述第一长度和所述第二长度获取权值;
    根据所述权值对所述最长公共子串的长度进行加权处理,获取所述相似度。
  5. 根据权利要求4所述的方法,其中,所述根据所述第一长度和所述第二长度获取权值,包括:
    获取所述第一长度和所述第二长度的差值,以及所述第一长度和所述第二长度之和;
    根据所述差值获取第一系数,且所述差值越小,所述第一系数越大;
    根据所述第一系数,以及所述第一长度和所述第二长度之和,获取所述权值。
  6. 根据权利要求2-5中任意一项所述的方法,其中,
    当所述比对处理为英文维度的第一比对处理时,所述第一特征字符串为所述待维权域名的英文字符串,所述相似度为英文相似度;
    当所述比对处理为中文维度的第二比对处理时,所述第一特征字符串为所述待维权域 名的中文关键字的拼音字符串,所述相似度为中文相似度。
  7. 根据权利要求6所述的方法,其中,所述根据所述相似度,对所述候选域名进行侵权判定,包括:
    若所述英文相似度大于第一阈值和/或所述中文相似度大于第二阈值,则判定所述候选域名侵权。
  8. 一种域名侵权的自动化判定装置,其中,所述装置包括:
    特征提取模块,用于获取待维权域名的特征信息,其中,所述特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
    候选域名确定模块,用于在预设域名库中筛选与所述特征信息相匹配的域名作为疑似侵权的候选域名;
    比对模块,用于对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
    判定模块,用于根据所述相似度,对所述候选域名进行侵权判定。
  9. 一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行域名侵权的自动化判定方法,所述域名侵权的自动化判定方法包括:
    获取待维权域名的特征信息,其中,所述特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
    在预设域名库中筛选与所述特征信息相匹配的域名作为疑似侵权的候选域名;
    对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
    根据所述相似度,对所述候选域名进行侵权判定。
  10. 根据权利要求9所述的电子设备,其中,执行所述对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度,包括:
    提取所述待维权域名的第一特征字符串;
    提取所述候选域名的第二特征字符串;
    获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度;
    根据所述最长公共子串的长度,确定所述待维权域名与所述候选域名之间的相似度。
  11. 根据权利要求10所述的电子设备,其中,执行所述获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度,包括:
    获取所述第一特征字符串的字符个数,获取所述第二特征字符串的字符个数;
    若所述第一特征字符串的字符个数和/或所述第二特征字符串的字符个数为0,则设置所述最长公共子串的长度为0;
    若所述第一特征字符串的字符个数和所述第二特征字符串的字符个数均大于0,则获取所述第一特征字符串的尾字符作为第一字符,获取所述第二特征字符串的尾字符作为第二字符;
    若所述第一字符和所述第二字符相同,则设置所述最长公共子串的长度为,除去所述第一字符的第一特征字符串和除去所述第二字符的第二特征字符串的最长公共子串的长度加一;
    若所述第一字符和所述第二字符不同,则将除去所述第一字符的第一特征字符串与所述第二特征字符串的最长公共子串的长度作为第一长度,将所述第一特征字符串与除去所述第二字符的第二特征字符串的最长公共子串的长度作为第二长度,设置所述最长公共子串的长度为所述第一长度和所述第二长度的最大值。
  12. 根据权利要求11所述的电子设备,其中,执行所述根据所述最长公共子串的长度, 确定所述待维权域名与所述候选域名之间的相似度,包括:
    获取所述第一特征字符串的第一长度;
    获取所述第二特征字符串的第二长度;
    根据所述第一长度和所述第二长度获取权值;
    根据所述权值对所述最长公共子串的长度进行加权处理,获取所述相似度。
  13. 根据权利要求12所述的电子设备,其中,执行所述根据所述第一长度和所述第二长度获取权值,包括:
    获取所述第一长度和所述第二长度的差值,以及所述第一长度和所述第二长度之和;
    根据所述差值获取第一系数,且所述差值越小,所述第一系数越大;
    根据所述第一系数,以及所述第一长度和所述第二长度之和,获取所述权值。
  14. 根据权利要求10-13中任意一项所述的电子设备,其中,
    当所述比对处理为英文维度的第一比对处理时,所述第一特征字符串为所述待维权域名的英文字符串,所述相似度为英文相似度;
    当所述比对处理为中文维度的第二比对处理时,所述第一特征字符串为所述待维权域名的中文关键字的拼音字符串,所述相似度为中文相似度;
    执行所述根据所述相似度,对所述候选域名进行侵权判定,包括:
    若所述英文相似度大于第一阈值和/或所述中文相似度大于第二阈值,则判定所述候选域名侵权。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现域名侵权的自动化判定方法,所述域名侵权的自动化判定方法包括:
    获取待维权域名的特征信息,其中,所述特征信息包括:由英文字母组成的域名信息,以及中文文字信息;
    在预设域名库中筛选与所述特征信息相匹配的域名作为疑似侵权的候选域名;
    对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度;
    根据所述相似度,对所述候选域名进行侵权判定。
  16. 根据权利要求15所述的计算机可读存储介质,其中,执行所述对所述待维权域名和所述候选域名进行比对处理,得到所述待维权域名和所述候选域名之间的相似度,包括:
    提取所述待维权域名的第一特征字符串;
    提取所述候选域名的第二特征字符串;
    获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度;
    根据所述最长公共子串的长度,确定所述待维权域名与所述候选域名之间的相似度。
  17. 根据权利要求16所述的计算机可读存储介质,其中,执行所述获取所述第一特征字符串和所述第二特征字符串的最长公共子串的长度,包括:
    获取所述第一特征字符串的字符个数,获取所述第二特征字符串的字符个数;
    若所述第一特征字符串的字符个数和/或所述第二特征字符串的字符个数为0,则设置所述最长公共子串的长度为0;
    若所述第一特征字符串的字符个数和所述第二特征字符串的字符个数均大于0,则获取所述第一特征字符串的尾字符作为第一字符,获取所述第二特征字符串的尾字符作为第二字符;
    若所述第一字符和所述第二字符相同,则设置所述最长公共子串的长度为,除去所述第一字符的第一特征字符串和除去所述第二字符的第二特征字符串的最长公共子串的长度加一;
    若所述第一字符和所述第二字符不同,则将除去所述第一字符的第一特征字符串与所述第二特征字符串的最长公共子串的长度作为第一长度,将所述第一特征字符串与除去所述第二字符的第二特征字符串的最长公共子串的长度作为第二长度,设置所述最长公共子串的长度为所述第一长度和所述第二长度的最大值。
  18. 根据权利要求17所述的计算机可读存储介质,其中,执行所述根据所述最长公共子串的长度,确定所述待维权域名与所述候选域名之间的相似度,包括:
    获取所述第一特征字符串的第一长度;
    获取所述第二特征字符串的第二长度;
    根据所述第一长度和所述第二长度获取权值;
    根据所述权值对所述最长公共子串的长度进行加权处理,获取所述相似度。
  19. 根据权利要求18所述的计算机可读存储介质,其中,执行所述根据所述第一长度和所述第二长度获取权值,包括:
    获取所述第一长度和所述第二长度的差值,以及所述第一长度和所述第二长度之和;
    根据所述差值获取第一系数,且所述差值越小,所述第一系数越大;
    根据所述第一系数,以及所述第一长度和所述第二长度之和,获取所述权值。
  20. 根据权利要求16-19中任意一项所述的计算机可读存储介质,其中,
    当所述比对处理为英文维度的第一比对处理时,所述第一特征字符串为所述待维权域名的英文字符串,所述相似度为英文相似度;
    当所述比对处理为中文维度的第二比对处理时,所述第一特征字符串为所述待维权域名的中文关键字的拼音字符串,所述相似度为中文相似度;
    执行所述根据所述相似度,对所述候选域名进行侵权判定,包括:
    若所述英文相似度大于第一阈值和/或所述中文相似度大于第二阈值,则判定所述候选域名侵权。
PCT/CN2021/082729 2020-12-03 2021-03-24 域名侵权的自动化判定方法、装置、电子设备和存储介质 WO2022116419A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011393629.9A CN112507176A (zh) 2020-12-03 2020-12-03 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN202011393629.9 2020-12-03

Publications (1)

Publication Number Publication Date
WO2022116419A1 true WO2022116419A1 (zh) 2022-06-09

Family

ID=74969271

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/082729 WO2022116419A1 (zh) 2020-12-03 2021-03-24 域名侵权的自动化判定方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112507176A (zh)
WO (1) WO2022116419A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841113A (zh) * 2023-02-24 2023-03-24 山东云天安全技术有限公司 一种域名标号检测方法、存储介质及电子设备
CN117271499A (zh) * 2023-11-17 2023-12-22 威海市驰云网络科技有限公司 一种IP技术中Wi-Fi地理定位基准点数据清洗方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507176A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN106330811A (zh) * 2015-06-15 2017-01-11 中兴通讯股份有限公司 域名可信度确定的方法及装置
US20180131708A1 (en) * 2016-11-09 2018-05-10 F-Secure Corporation Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN110958244A (zh) * 2019-11-29 2020-04-03 北京邮电大学 一种基于深度学习的仿冒域名检测方法及装置
CN112507176A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 域名侵权的自动化判定方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN106330811A (zh) * 2015-06-15 2017-01-11 中兴通讯股份有限公司 域名可信度确定的方法及装置
US20180131708A1 (en) * 2016-11-09 2018-05-10 F-Secure Corporation Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN110958244A (zh) * 2019-11-29 2020-04-03 北京邮电大学 一种基于深度学习的仿冒域名检测方法及装置
CN112507176A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 域名侵权的自动化判定方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841113A (zh) * 2023-02-24 2023-03-24 山东云天安全技术有限公司 一种域名标号检测方法、存储介质及电子设备
CN117271499A (zh) * 2023-11-17 2023-12-22 威海市驰云网络科技有限公司 一种IP技术中Wi-Fi地理定位基准点数据清洗方法

Also Published As

Publication number Publication date
CN112507176A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
WO2022116419A1 (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
US20200081899A1 (en) Automated database schema matching
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
WO2017045443A1 (zh) 一种图像检索方法及系统
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
WO2022116418A1 (zh) 商标侵权的自动化判定方法、装置、电子设备和存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN110569350B (zh) 法条推荐方法、设备和存储介质
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
WO2015085805A1 (zh) 一种确定图片簇描述文本核心词的方法及装置
CN109947903B (zh) 一种成语查询方法及装置
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN112199588A (zh) 舆情文本筛选方法及装置
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113987190A (zh) 一种数据质量校验规则提取方法及系统
CN106408316A (zh) 用于识别客户的方法及装置
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN111062199B (zh) 一种不良信息识别方法及装置
WO2017080183A1 (zh) 网络小说章节列表评估方法及装置
CN107577667B (zh) 一种实体词处理方法和装置
CN114547257A (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21899463

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21899463

Country of ref document: EP

Kind code of ref document: A1