WO2021017638A2 - 一种判断任意两个技术系统相似程度的方法 - Google Patents

一种判断任意两个技术系统相似程度的方法 Download PDF

Info

Publication number
WO2021017638A2
WO2021017638A2 PCT/CN2020/094364 CN2020094364W WO2021017638A2 WO 2021017638 A2 WO2021017638 A2 WO 2021017638A2 CN 2020094364 W CN2020094364 W CN 2020094364W WO 2021017638 A2 WO2021017638 A2 WO 2021017638A2
Authority
WO
WIPO (PCT)
Prior art keywords
technical
technical system
codes
group
systems
Prior art date
Application number
PCT/CN2020/094364
Other languages
English (en)
French (fr)
Inventor
白杰
Original Assignee
南京瑞祥信息技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京瑞祥信息技术有限公司 filed Critical 南京瑞祥信息技术有限公司
Publication of WO2021017638A2 publication Critical patent/WO2021017638A2/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Definitions

  • This application relates to the field of Internet data processing, and in particular to a method for judging the similarity of any two technical systems.
  • the purpose of this application is to provide a method for judging the similarity of any two technical systems that has a small amount of data processing and is beneficial to be implemented in an automated manner.
  • the classification number set A select M% classification numbers, obtain each level code indicated by each number, and obtain the set X1i and the corresponding number Y1i of each level code of all the classification numbers in the M% number.
  • the classification number set B select N% classification numbers, obtain each level code indicated by each number, and obtain each level code set X2i and the corresponding number Y2i of all classification numbers in the N% numbers;
  • the information in the set is information after repetition is removed;
  • the index of the correlation F A and F B calculating classification numbers set A, the similarity probability B G A, G B;
  • G A F A /( ⁇ Ci);
  • G B F B /( ⁇ Ci);
  • G A is the similarity between technical system A and technical system B
  • G B is the similarity between technical system B and technical system A
  • i 1-n, where n is the number of coding levels of the technical classification rules.
  • This application uses technology classification rules with hierarchical features to classify the solutions corresponding to the technical points in the technical system, so that the classification numbers of the technical solutions show levels or abstract characteristics, so that the diversity of the ending points can be combined, and the technology can be passed.
  • the classification rules of the main points reflect the comprehensive and identifiable characteristics of a technical system as a whole, such as comprehensiveness, hierarchy, and outstanding characteristics. From an absolute point of view, these characteristics themselves cannot be quantified to express a system characteristic because it is difficult to determine a measurement standard. However, it happens to be quantitatively expressed in the method of judging the similarity of any two technical systems in a relative way.
  • Figure 1 shows a flowchart of the first embodiment of the present application
  • Figure 2 shows a flow chart of the fourth embodiment of the present application.
  • a technical system is an organic collection of multiple technical solutions at different levels and with different content, these technical solutions may belong to different fields or disciplines, may be related, or may not be related at all.
  • a technical solution for an engine system will involve From the perspective of technical solutions, mechanical, material, circuit control, and software control programs may not have any direct relationship with each other.
  • a technical solution may be used in different technical systems. Therefore, from the perspective of the technical solution itself, it may not reflect a technical system at all.
  • we do not judge the overall nature of the technical system through specific individual technical solutions.
  • the first embodiment of this application gives a general scheme.
  • the principle adopted is that in order to describe a technical system as a whole, the key technical scheme of a technical system uses four abstract levels (or more Levels or fewer levels, but not less than two levels. Too many levels will reduce the efficiency of the method, and the accuracy of the judgment will be limited.)
  • Statistics and comparison of the number of expressions at each level can quickly determine the degree of similarity or competition between two technical systems. Refer to Figure 1.
  • step 1 determine or select a technology classification rule that includes four levels with hierarchical features.
  • This technology classification rule can be designed and used in advance. If it is used to query technology systems in a specific field, for example, the chemical field or the semiconductor field, the targeted design of the technology classification rule is conducive to the accuracy of retrieval and judgment. However, in most cases, you can choose one of the commonly used general technology classification rules, which does not have much difference in application effects. The most commonly used are the international patent classification rules, European or US patent classification rules, etc. The gradual characteristics are the aforementioned four abstract levels. Obviously, the aforementioned international patent classification rules have this characteristic. If you design this rule yourself, you can refer to the following table. For example, the meaning of the four abstraction level technical classification rules is as follows, among which, the smaller the value, the higher the abstraction level:
  • BAFA01A105 For a technical point code BAFA01A105, where B represents the technical direction information of the technical point, AF stands for technical field information, A01 stands for professional direction information, and A105 stands for professional field information.
  • step 2 select technical points from the two technical systems respectively.
  • the selection of technical points is carried out in accordance with the principles of comprehensiveness, generalization, and focus.
  • the comprehensiveness emphasizes that the selection of technical points should cover or take into account every branch of the technical system structure, avoiding omissions to the greatest extent; the generalization is intended to make the selected technical points and their descriptions multi-level, making the technical points
  • the collection can reflect the overall characteristics of the system; the key point is to select key technical solutions or innovative technical solutions with characteristics in the system as much as possible to maximize the recognizability of the system.
  • the technical point set A summarized and refined from the first technical system and the technical point set B summarized and refined from the second technical system, use the aforementioned technology classification rules to classify each of the technical points.
  • the technical key information in the technical key set is the technical description file of the technical key, including text or picture and other information, for example, it can also be the style of the patent application document; and in the classification number set, it is each technology The technical classification code corresponding to the key file.
  • the classification number sets A and B will be the operation objects.
  • step 3 in the classification number set A, according to the number of classification numbers in it, 80% of the numbers are selected as operation objects in an arbitrary manner, for example, randomly or sequentially (when the number of numbers is small, 100% is usually selected. The description of the number of selected numbers will be detailed later), and a new classified number set A is obtained; similarly, in the classified number set B, according to the number of classified numbers in it, 100% of the numbers are selected as operation objects to obtain a new Classification number set B.
  • the new classification number set A For the new classification number set A, for each number, obtain each level code indicated by the number, remove the duplicates, and obtain each level code set X11, X12, X13, and X14 of all numbers and the corresponding Numbers Y11, Y12, Y13 and Y14, and, for each number in the new classification number set B, get each level code indicated by the number, remove the duplicates, and get each level of all numbers Encoding sets X21, X22, X23 and X24 and corresponding numbers Y21, Y22, Y23 and Y24.
  • step 4 according to the encoding set X11, X12, X13 and X14, and X21, X22, X23 and X24, calculate the number of X11, X21 encoding overlap E1, and the number of X12, X22 encoding overlap E2, X13, X23 encoding The number of overlaps E3 and X14, X24 encode the number of overlaps E4.
  • step 5 calculate the relative coincidence degree Ai, Bi of each level of the classification number set A and B; among them,
  • G A as the similarity art systems A and B of the technical system; likewise, G B B as the degree of similarity art systems and technology system A;
  • n the number of coding levels of the technical classification rules
  • the correlation between two technical systems is characterized by a correlation index.
  • the relevant index formula is as follows:
  • F represents the correlation index
  • A1, A2, A3, and A4 represent the degree of coincidence of the first, second, third and fourth levels of the technical classification code, respectively
  • C1, C2, C3 and C4 represent the technical classification code respectively
  • the correlation coefficients between the first, second, third, and fourth-level coding and the overall nature of the system are obtained through machine learning or statistics, and used to identify the degree of impact of the coding on the overall nature of the technical system.
  • the degree of similarity or conflict between two technical systems is characterized by the probability of similarity or conflict.
  • the formula of similarity probability or conflict probability is as follows:
  • the methods for judging the degree of similarity or conflict between any two technical systems given in other embodiments of this application use patent classification rules. For example, through the international patent classification numbers recorded in the patent application information of the two technical systems, the overlapping information of the indicated technical fields can be obtained, and thus the degree of similarity or conflict between the two technical systems can be judged as a whole.
  • any technology classification rules can be used to obtain the technical classifications of the key or main technical points of the two technical systems, and are not limited to patent classifications.
  • patent classifications are only a form of technology classification, as long as two According to the same technical classification rules, all technical systems can use the methods provided in this application to classify the key or main technical points in the system.
  • the US or European patent classification numbers can be used to determine the degree of conflict between any two technical systems according to the method provided in this application.
  • the following uses the International Patent Classification Number (IPC) as the technical classification rules for key technical points in the technical system to illustrate the specific implementation process of other embodiments of the present application.
  • IPC International Patent Classification Number
  • the International Patent Classification Number, IPC adopts a classification method that combines function and application, and the classification principle is based on functionality and supplemented by application.
  • the technical content is marked as five parts: department-big category-small category-big group-group, and form a complete classification system level by level. Therefore, a complete IPC classification number is composed of the symbol combination of representative department, major category, sub-category, major group and group.
  • the five parts of information are used to determine the degree of similarity or conflict between two technical systems or the technical systems of two enterprises.
  • four of the five pieces of information namely the information of major categories, subcategories, major groups, and groups, are used to determine the degree of similarity between two technical systems or the technical systems of two enterprises Or the degree of conflict.
  • three of the five pieces of information namely the information of the small category, the large group, and the group, are used to determine the degree of similarity between the two technical systems or the technical systems of the two enterprises. Or the degree of conflict.
  • two of the five pieces of information that is, the information of the large group and the small group, are used to determine the degree of similarity or conflict between the two technical systems or the technical systems of two enterprises.
  • one of the five pieces of information that is, the group's information, is also used to determine the degree of conflict between the two technical systems or the technical systems of two enterprises.
  • the department has the largest range of information concepts, and the purpose of using this information is to not omit the information used; while the group’s information concepts range is the smallest, and the purpose of using this information is to make the information used more accurate . Therefore, there can also be multiple examples of using patent classification information, for example, only using the information of department, sub-category, large group, and group to judge the similarity or conflict between two technical systems or the technical systems of two companies . and many more.
  • the following uses three of the five pieces of information, that is, the information of small categories, large groups, and groups to determine the degree of similarity or conflict between two technical systems to further explain the technical solution of the present application.
  • the method described in this embodiment can be implemented in the form of software.
  • the feature of this embodiment is that the two technical system patent applications are used as technical points, and the international patent classification number of the patent application is used as the technical classification rule. Specifically, the International Patent Classification Number is used to analyze the technical relevance between the two enterprise technology systems based on the IPC classification numbers of the IPC classification of the patent applications of Enterprise A and the main competitor Enterprise B.
  • the relevance is characterized by the correlation index. It assumes that all the technical points of company A and company B are applied for patents and are completely transformed, that is, applied to actual products, and the patent performance is normal, and there is no or ignore the influence of patent invalidation and litigation. Under the premise, the relevant index represents the degree of technological overlap shown by the patent application documents of the two technological systems of enterprise A and enterprise B; since the degree of technological overlap is an important factor in causing patent conflicts, the two companies can be judged in advance. The degree of similarity or patent conflict (risk of patent infringement) between two technical systems.
  • the specific analysis method is:
  • step 11 obtain or take out the IPC numbers in all patent application information of enterprise A and enterprise B (note, if a patent has multiple classification numbers, only use or obtain the first main classification number), forming two IPC number sets, these two IPC number sets correspond to the technical systems of enterprises A and B respectively.
  • step 12 obtain the small class code, large group code, and group code indicated by the international patent classification number of the first number set or 100% patent volume of the first technical system, and remove the repeated parts in each group code to obtain the small class Coding set B3 (the first column of Table 1, namely the IPC subclass of enterprise A), the number of subclass codes b3 is 19 (the last row of the first column of Table 1, that is the last row of the IPC subclass of enterprise A) , The large group code set B2 (the first column of Table 2, that is, the IPC group of enterprise A), the number of large group codes b2 is 19 (the last row of the first column of Table 2, that is, the IPC group of enterprise A The last row), and, the group code set B1 (the first column of Table 3, which is the IPC group of enterprise A), the number of group codes b1 is 13 (the first column of Table 3, the last row is the IPC group of enterprise A) The last line).
  • the group code set B1 the first column of Table 3, which is the IPC group of enterprise
  • the second number set or obtain the small class code, large group code, and group code indicated by the international patent classification number of 100% of the patent volume of the second technical system remove the repeated parts in each group of codes, and obtain the small class code set D3 (the second column of Table 2, that is, the IPC subclass of enterprise B), the number of subclass codes d3 is 10 (the last row of the second column of Table 2, that is, the last row of the IPC subclass of enterprise B), large Group code set D2 (the second column of Table 2, which is the IPC group of enterprise B), the number of large group codes d2 is 10 (the last row of the second column of Table 3, that is, the last row of enterprise B’s IPC group) ), and the group code set D1 (the second column of Table 4, that is, the IPC group of enterprise B), the number of group codes d1 is 5 (the second column of Table 4, the last row, that is, the last row of the IPC group column of enterprise B) ).
  • Table 2 Comparison table of IPC sub-categories of enterprise A and enterprise B
  • Table 4 Comparison table of IPC groups of company A and company B
  • step 2 100% patents of enterprise A and enterprise B are respectively selected as the data analysis object.
  • the range of these two values may be between 50 and 100, such as 80, However, the preferred value is 100 to avoid omissions and improve the accuracy of method execution results.
  • these two values can be equal or not equal. The result of this is that the execution result of the method has a certain error, but it does not affect the overall judgment. At the same time, it also enhances the practicality of the method, which can be judged by any technical system. In addition, setting a range of options can achieve a better balance between effect and efficiency, as well as the flexibility of the method.
  • step 13 according to the two technical systems' small coding sets B3 and D3, the large coding sets B2, D2, and the group coding sets B1, D1 obtained in step 2, the number of overlapping small coding sets E3 of the two technical systems is calculated as 5 (the third column of Table 1, that is, the last row of the overlapping IPC sub-category column), the number of overlapping large groups of codes E2 is 1 (the third column of Table 2, that is, the last row of the overlapping IPC large group of columns) and The number of overlapping group codes E1 is 0 (the third column of Table 3, that is, the last row of the overlapping IPC group column).
  • C3, C2, and C1 represent the classification and two systems of IPC sub-category, large group, and group respectively
  • the empirical value of the correlation coefficient of conflict is 1, 2, and 3.
  • F A C3*A3+C2*A2+C1*A1
  • step 16 according to the correlation index F, or calculate the patent conflict probability G of any one technical system relative to another technical system; where.
  • G A as the similarity of a technical system and the second technical system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

一种判断任意两个技术系统相似程度的方法
本申请要求在2019年7月26日提交中国专利局、申请号为201910684855.3、发明名称为“判断任意两个技术系统相似程度的方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及互联网络数据处理领域,尤其涉及判断任意两个技术系统相似程度的方法。
背景技术
通过整体相似技术系统的寻找和研究,有利于发现或规避市场竞争中可能发生的竞争风险,或者发现有利的参考技术,等等。然而,目前还没有一种有效且快速的方法能够帮助人们快速寻找整体上相似的技术系统或体系。
因此,人们经常需要寻找整体上相似的技术系统或体系,以便寻找合作者或进行技术参考或判断市场竞争风险。另外,对于任何一个企业来说,通常会有多个已知或未知的竞争性系统存在,寻找与自有技术系统最接近的其它技术系统,判断其相似性程度或竞争竞争性程度,就成为一种需要解决的现实需求。
通常,人们在寻找整体上相似的技术系统或体系时,会利用论文或专利技术信息,然而,单纯的论文能够提供的信息是极其有限的,无法支撑两个技术系统的技术相似性判断。如果利用专利信息,由于专利申请数量巨大以及专利本身只是一个解决技术问题的方案,由于一个技术系统理论上由无数个解决不同技术问题的方案经过复杂的联系组成,使用个别的专利信息判断两个技术系统的技术相似性,也是管中窥豹,难以实现。另外,专利申请数量的巨大也会导致通过检索快速获知与专利技术最接近的专利本身就具有不确定性,而且还可能产生巨大的数据处理量,而且不利于以自动化的方式实施,更无法给出两个技术系统相似或冲突程度的定量判断。
发明内容
基于上述技术问题,本申请的目的在于提供一种数据处理量较小、有利于以自动化方式实施的判断任意两个技术系统相似程度的方法。
本申请提供的判断任意两个技术系统相似程度的方法采用下述方案:
确定或选择一个具有包括至少两级具有逐级特征的技术分类规则;
分别从两个技术系统A、B中选择技术要点,得到对应的技术要点集合A、B;使用所述技术分类规则对技术要点集合A、B中的技术要点进行技术分类,得到对应的分类号码集合A、B;
在分类号码集合A中,选择M%的分类号码,获取每一个号码指示的每一个级别编码,得到M%的号码中的全部分类号码的每一个级别编码构成的集合X1i及对应的数量 Y1i,以及,在分类号码集合B中,选择N%的分类号码,获取每一个号码指示的每一个级别编码,得到N%的号码中的全部分类号码的每一个级别编码集合X2i及对应的数量Y2i;其中,所述集合中的信息是去除重复以后的信息;
根据所述编码集合X1i、X2i,计算X1i、X2i中每一个级别编码重合的数量Ei;
根据Y1i、Y2i和Ei,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%;
根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数F A和分类号码集合B的技术相关指数F B;其中,
F A=∑Ci*Ai;F B=∑Ci*Bi;其中,Ci为经验常数;
根据所述相关指数F A和F B,计算分类号码集合A、B的相似性概率G A、G B
G A=F A/(∑Ci);G B=F B/(∑Ci);
其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度;
上述式中,i=1-n,其中n为技术分类规则的编码级别数。
本申请利用具有逐级特征的技术分类规则对技术系统中技术要点对应的方案进行分类,这样使得技术方案的分类号呈现级别或抽象特性,这样就可以结合结束要点的多样性,就可以通过技术要点的分类规则在整体上体现一个技术系统的全面性、层次性、特点突出性等全面、可识别的特征。从绝对角度看,这些特征本身由于难以确定衡量标准而无法量化表达一个系统特性,但是,恰好通过相对的方式,在判断任意两个技术系统相似程度的方法中实现了量化表达。同时,由于利用了技术分类规则,使得可以通过有限的技术要点实现技术系统的全面系统的表达,不但减少了数据处理量,还有利于以软件数据处理的自动化方式实施本申请提供的技术方案,即减少了人为因素的干扰,又提高的方法的事实效率。另外,本申请利用了技术要点在技术系统中分布的不确定性而实现技术系统整体表达的相对确定性,克服了传统思想中,局部难以表达整体的思维障碍。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1给出了本申请的第一个实施例流程图;
图2给出了本申请的第四个实施例流程图。
具体实施方式
由于一个技术系统是多个不同层次、不同内容技术方案的有机集合,这些技术方案可能属于不同的领域或学科,可能有关联,也可能完全没有联系,例如一个发动机系统的技术方案,就会涉及机械类、材料类、电路控制类、软件控制类等方案,从技 术方案角度看,它们彼此可能没有任何直接的关系。另外,一个技术方案可能在不同的技术系统中都可以使用,因此,从技术方案本身来看,可能完全无法反映一个技术系统,通常我们不会通过具体的个体技术方案去判断技术系统整体的性质,况且,不能用局部代替整体是公知常识。这就导致了利用技术方案的个体信息判断两个技术系统的相似性或竞争性的程度极其困难,在思想上和操作方法上都存在障碍。
有很多原因会导致一个技术系统理论上有无数种描述,这些描述甚至能够被认为是属于不同的技术系统。但是,两个技术系统的相似性或竞争性的程度还是能够通过一些信息反应出来。例如,两个技术系统整体上的相似性程度越高,越会在较高的抽象层次上有反应,越倾向于局部的相似,越能够在较低的抽象层次上有反应,利用这一点,我们就有机会通过对一个技术系统不同抽象层次的多个概括描述,来判断两个技术系统的相似性或竞争性的程度。
本申请第一个实施例给出了一个通用的方案,它采用的原理是,为了从整体上描述一个技术系统,将一个技术系统的关键技术方案用四个抽象层次(也可以是更多的层次或更少的层次,但是不能少于两个层次,过多的层次会使方法的效率降低,且对判断的准确性提升程度有限)的概括描述去表达,根据两个技术系统关键技术方案每个层次的表达数量的统计和比较,就可以快速判断两个技术系统的相似性或竞争性的程度。参考图1。
在步骤1,确定或选择一个具有包括四级具有逐级特征的技术分类规则。这个技术分类规则可以预先设计出来使用,如果用于查询特定领域的技术系统,例如,化学领域或半导体领域等,有针对性设计的技术分类规则有利于检索和判断的准确性。但是,大部分情况下可以在常用的通用技术分类规则中选择一个使用,这在应用效果上没有太大区别,最常用的就是国际专利分类规则、欧洲或美国专利分类规则等。所述逐级特征就是前述的四个抽象层次,显然,前述的国际专利分类规则等就具有这个特征。如果自己设计这个规则可以参考下表,例如,四个抽象层次的技术分类规则的含义如下,其中,数值越小,抽象程度越高:
表1技术规则设计表
层级
名称 技术方向 技术领域 专业方向 专业领域
表达 A-G A-Z A-Z+数字0-9 A-Z+数字0-9
说明 1位 2位 3位 4位
例如,对于一个技术要点的编码BAFA01A105,其中,B代表该技术要点的技术方向信息,AF代表技术领域信息,A01代表专业方向信息,A105代表专业领域信息。
由于技术分类规则设计和内容定义属于公有技术范畴,此处不再赘述。
在步骤2,分别从两个技术系统中选择技术要点。技术要点的选择按照全面、概括、重点兼顾的原则进行。所述全面,是强调技术要点的选择应该覆盖或兼顾技术系统结构的每一个分支,最大限度避免遗漏;所述概括,意在使所选择的技术要点及其描述具有多层次性,使得技术要点集合能体现系统的整体性特征;所述重点,尽可能选择系统中有特点的关键技术方案或创新技术方案,最大限度的提高系统的可识别性。这样,对于从第一个技术系统总结提炼出来的技术要点集合A,和从第二个技术系统总结提炼出来的技术要点集合B,使用前述的技术分类规则对其中的每个技术要点进行技术分类,这样就得到了对应的分类号码集合A、B。其中,所述技术要点集合中的技术要点信息是该技术要点的技术性描述文件,包括文字或图片等信息,例如也可以是专利申请文件的样式;而在分类号码集合中,则是每一个技术要点文件对应的技术分类代码。
在下述步骤,将以分类号码集合A、B为操作对象。
在步骤3,在分类号码集合A中,根据其中的分类号码数量,以任意的方式,例如随机或顺序方式选择80%的号码作为操作对象(在号码数量较少时,通常100%的选择。关于号码选择数量的说明在后文有详述),得到新的分类号码集合A;同样,在分类号码集合B中,根据其中的分类号码数量,选择100%的号码作为操作对象,得到新的分类号码集合B。
针对新的分类号码集合A,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X11、X12、X13和X14及对应的数量Y11、Y12、Y13和Y14,以及,在新的分类号码集合B中,对于其中的每一个号码,获取该号码指示的每一个级别编码,去掉其中的重复项,得到全部号码的每一个级别编码集合X21、X22、X23和X24及对应的数量Y21、Y22、Y23和Y24。下面说明“去掉其中的重复项”是如何操作的。假设新的分类号码集合A的全部号码的第一级别编码,即代表技术方向的编码集合X11为:
X11={B,A,C,C,B,D,E,F,D,B},其中,B重复2次,C重复1次,D重复1次,去除重复后,X11={B,A,C,D,E,F},这中情况下,对应的编码数量Y11=6。
在步骤4,根据所述编码集合X11、X12、X13和X14,和X21、X22、X23和X24,计算X11、X21编码重合的数量E1,以及X12、X22编码重合的数量E2、X13、X23编码重合的数量E3和X14、X24编码重合的数量E4。
例如,假设X11={B,A,C,D,E,F},X21={B,A,G},则X11、X21编码重合的数量E1=2。
在步骤5,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,
对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%。
在步骤6和步骤7,根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数F A和分类号码集合B技术相关指数F A;其中,F A=∑Ci*Ai;F B=∑Ci*Bi;式中,Ci为经验常数;
根据所述相关指数F A和F B,计算分类号码集合A、B的相似性概率G A、G B;其中,G A=F A/(∑Ci);G B=F B/(∑Ci);
G A作为技术系统A与技术系统B的相似度;同样,G B作为技术系统B与技术系统A的相似度;
上述相关式中,i=1-n,其中n为技术分类规则的编码级别数,本例中,n=4。
在第一个实施例中,两个技术系统之间的相关性以相关指数来表征。相关指数公式形式如下:
F=C1*A1+C2*A2+C3*A3+C4*A4。
式中,F表示相关指数,A1、A2、A3和A4分别表示技术分类编码的一级、二级、三级和四级编码的重合度,C1、C2、C3和C4分别表示技术分类编码的一级、二级、三级和四级编码与系统整体性性质的相关系数,其经验值通过机器学习或统计等方法获得,用于标识该级编码对技术系统整体性性质的影响程度。
而两个技术系统之间的相似性程度或冲突程度由相似概率或冲突概率来表征。相似概率或冲突概率公式形式如下:
T=F/(C1+C2+C3+C4)×100%;
由此,可以得到两个技术系统之间的相似性程度或冲突程度的定量判断数值。
本申请其它实施例给出的判断任意两个技术系统相似性程度或冲突程度的方法,利用了专利分类规则。例如,通过两个技术系统的专利申请信息中记载的国际专利分类号,可以获知其指出的技术领域重合信息,由此就可以从整体上判断两个技术系统的相似性程度或冲突程度。在其它的实施例中,可以利用任意的技术分类规则获得两个技术系统的关键或主要技术点的技术分类,而不限于专利分类,或者说,专利分类只是技术分类的一种形式,只要两个技术系统按照相同的技术分类规则,对系统中的关键或主要技术点进行技术分类,都可以使用本申请提供的方法。例如利用两个技术系统在美国或者在欧洲申请的专利,就可以使用美国或欧洲的专利分类号,按照本申请提供的方法来判断任意两个技术系统的冲突程度。下面以国际专利分类号(IPC)作为技术系统中关键技术点的技术分类规则,说明本申请的其它实施例的具体实现过程。
国际专利分类号,即IPC,采用了功能和应用相结合的分类方式,以功能性为主、应用性为辅的分类原则。使用等级的形式,将技术内容注明为:部—大类—小类—大组—小组五个部分,逐级分类形成完整的分类体系。因此,一个完整的IPC分类号由代表部、大类、小类、大组和小组的符号组合构成。
在第二个实施例中,就是利用这五个部分的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第三个实施例中,利用这五个部分信息中的四个,即大类、小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。同理,在第四个实施例中,利用这五个部分信息中的 三个,即小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第五个实施例中,利用这五个部分信息中的二个,即大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。在第六个实施例中,也利用这五个部分信息中的一个,即小组的信息来判断两个技术系统,或两个企业的技术系统的冲突程度。
显然,在这五个信息中,部的信息概念范围最大,利用该信息的目的在于不遗漏所使用的信息;而小组的信息概念范围最小,利用该信息的目的在于使所使用的信息更精准。因此,还可以有多个利用专利分类信息的实施例,例如只利用部、小类、大组和小组的信息来判断两个技术系统,或两个企业的技术系统的相似性程度或冲突程度。等等。下面以利用这五个部分信息中的三个,即小类、大组和小组的信息来判断两个技术系统相似性程度或冲突程度的第四个实施例,进一步对本申请的技术方案进行说明,该实施例所述方法可以用软件的形式来实施。
第四个实施例参考图2。
本实施例的特点是,利用两个技术系统专利申请作为技术要点,以专利申请的国际专利分类号作为技术分类规则。具体说,国际专利分类号依据企业A及主要竞争对手企业B专利申请的IPC分类的小类、大组和小组分类号进行二个企业技术系统之间的技术相关性分析。
相关性以相关指数来表征,它假设企业A和企业B的技术要点全部作为专利申请且完全转化,即应用于实际产品,并且专利表现均正常,没有或忽略专利无效和诉讼的影响,在此前提下,相关指数代表了企业A和企业B的两个技术系统通过专利申请文件表现出的技术重合程度;由于技术重合程度是引发专利冲突的重要因素,据此就可以预先判断两个企业或两个技术系统之间发生相似性程度或专利冲突(专利侵权风险)的概率。
具体的分析方法为:
(1)建立相关性分析的数学模型;
(2)比较企业A和企业B专利申请之间的小类、大组和小组分类号,得出二者之间的重合程度;
(3)根据数学模型确定二者之间的相关度和冲突概率。
首先在步骤11,获得或取出企业A和企业B的所有专利申请信息中的IPC号码(注,如果一件专利有多个分类号,只使用或取得排序第一的主分类号),形成两个IPC号码集,这两个IPC号码集分别与企业A、B的技术系统对应。
在步骤12,获取第一个号码集或第一个技术系统100%专利量的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合B3(表1的第一列,即企业A的IPC小类)、小类编码的数量b3为19(表1的第 一列最后一行,即企业A的IPC小类列的最后一行),大组编码集合B2(表2的第一列,即企业A的IPC大组)、大组编码的数量b2为19(表2的第一列最后一行,即企业A的IPC大组列的最后一行),和,小组编码集合B1(表3的第一列,即企业A的IPC小组)、小组编码的数量b1为13(表3的第一列最后一行,即企业A的IPC小组列的最后一行)。
再获取第二个号码集或获取第二个技术系统100%专利量的国际专利分类号指示的小类编码、大组编码和小组编码,去掉每组编码中重复的部分,得到小类编码集合D3(表2的第二列,即企业B的IPC小类)、小类编码的数量d3为10(表2的第二列最后一行,即企业B的IPC小类列的最后一行),大组编码集合D2(表2的第二列,即企业B的IPC大组)、大组编码的数量d2为10(表3的第二列最后一行,即企业B的IPC大组列的最后一行),和小组编码集合D1(表4的第二列,即企业B的IPC小组)、小组编码的数量d1为5(表4的第二列最后一行,即企业B的IPC小组列的最后一行)。
表2:企业A和企业B的IPC小类比较表
Figure PCTCN2020094364-appb-000001
Figure PCTCN2020094364-appb-000002
表3:企业A和企业B的IPC大组比较表
Figure PCTCN2020094364-appb-000003
表4:企业A和企业B的IPC小组比较表
Figure PCTCN2020094364-appb-000004
Figure PCTCN2020094364-appb-000005
需要说明,在步骤2中,分别选择了企业A和企业B的100%专利作为数据分析对象,在其它的实施例中,这两个数值的范围分别可以在50到100之间,例如80,但是优选值是100,以避免遗漏和提高方法执行结果的准确性。另外,这两个值可以相等,也可以不相等,这样做的结果是方法的执行结果有一定的误差,但是不影响整体判断,同时也增强了方法的实用性,任何技术系统都可以判断。另外,设定一个选择范围,可以在效果和效率之间取得更好的平衡,以及方法的使用灵活性。
在步骤13,根据步骤2得到的二个技术系统的小类编码集合B3、D3,大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统小类编码重合的数量E3为5(表1的第三列,即重合的IPC小类列的最后一行)、大组编码重合的数量E2为1(表2的第三列,即重合的IPC大组列的最后一行)和小组编码重合的数量E1为0(表3的第三列,即重合的IPC小组列的最后一行)。
在步骤14,根据任意一个技术系统的小类编码数量b3=19、d3=10,大组编码数量b2=19、d2=10,和小组编码数量b1=13、d1=5,以及二个技术系统小类编码重合的数量E3=5、大组编码重合的数量E2=1和小组编码重合的数量E1=0,计算任意一个技术系统的小类编码重合度、大组编码重合度和小组编码重合度;其中,对于第一个技术系统,A3=(E3/b3)%=(5/19)%≈26%,A2=(E2/b2)%=(1/19)%≈5%,A1=(E1/b1)%=(0/13)%=0;
对于第二个技术系统,B3=(E3/d3)%=(5/10)%≈50%,B2=(E2/d2)%=(1/10)%≈10%,B1=(E1/d1)%=(0/5)%=0。
在步骤15,根据所述重合度,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F;其中,对于第一个技术系统,F A=C3*A3+C2*A2+C1*A1,F B=C3*B3+C2*B2+C1*B1,C3、C2、C1为经验常数,本例中,C3、C2、C1分别表示IPC 小类、大组和小组的分类与两个系统冲突的相关系数,其经验值分别为1,2,3。
对于第一个技术系统,F A=C3*A3+C2*A2+C1*A1,即,F A=C3*A3+C2*A2+C1*A1=1*26%+2*5%+3*0=36%。
对于第二个技术系统,F B=C3*B3+C2*B2+C1*B1,即,F B=C3*B3+C2*B2+C1*B1=1*50%+2*10%+3*0=60%。
在步骤16,根据所述相关指数F,或计算任意一个技术系统相对另一个技术系统的专利冲突概率G;其中。
G A=F A/(C3+C2+C1)=36%/(1+2+3)=6%。G A作为第一个技术系统与第二个技术系统的相似度。G B=F B/(C3+C2+C1)=60%/(1+2+3)=10%。G B作为第二个技术系统与第一个技术系统的相似度。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (8)

  1. 判断任意两个技术系统相似程度的方法,其特征在于:
    确定或选择一个具有包括至少两级具有逐级特征的技术分类规则;
    分别从两个技术系统A、B中选择技术要点,得到对应的技术要点集合A、B;使用所述技术分类规则对技术要点集合A、B中的技术要点进行技术分类,得到对应的分类号码集合A、B;
    在分类号码集合A中,选择M%的分类号码,获取每一个号码指示的每一个级别编码,得到M%的号码中的全部分类号码的每一个级别编码构成的集合X1i及对应的数量Y1i,以及,在分类号码集合B中,选择N%的分类号码,获取每一个号码指示的每一个级别编码,得到N%的号码中的全部分类号码的每一个级别编码集合X2i及对应的数量Y2i;其中,所述集合中的信息是去除重复以后的信息;
    根据所述编码集合X1i、X2i,计算X1i、X2i中每一个级别编码重合的数量Ei;
    根据Y1i、Y2i和Ei,计算分类号码集合A、B的每一个级别的编码相对重合度Ai、Bi;其中,对于分类号码集合A,Ai=(Ei/Y1i)%;对于分类号码集合B,Bi=(Ei/Y2i)%;
    根据所述相对重合度Ai、Bi,计算分类号码集合A技术相关指数F A和分类号码集合B的技术相关指数F B;其中,
    F A=∑Ci*Ai;F B=∑Ci*Bi;其中,Ci为经验常数;
    根据所述相关指数F A和F B,计算分类号码集合A、B的相似性概率G A、G B
    G A=F A/(∑Ci);G B=F B/(∑Ci);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度;
    上述式中,i=1-n,其中n为技术分类规则的编码级别数。
  2. 判断任意两个技术系统相似程度的方法,其特征在于:
    分别获取第一个技术系统M%专利量的国际专利分类号指示的部编码集合B5、数量b5,大类编码集合B4、数量b4,小类编码集合B3、数量b3,大组编码集合B2、数量b2,和小组编码集合B1、数量b1;以及获取第二个技术系统N%专利量的国际专利分类号指示的部编码集合D5、数量d5,大类编码集合D4、数量d4,小类编码集合D3、数量d3,大组编码集合D2、数量d2,和小组编码集合D1、数量d1;其中,100≥M>0;100≥N>0,所述集合中的信息是去除重复以后的信息;
    根据所述二个技术系统的部编码集合B5、D5、大类编码集合B4、D4、小类编码集合B3、D3、大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统部编码重合的数量E5、大类编码重合的数量E4、小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1;
    根据任意一个技术系统的部编码数量b5、d5,大类编码数量b4、d4,小类编码数量b3、d3,大组编码数量b2、d2,和小组编码数量b1、d1,以及二个技术系统部编码重合的数量E5、大类编码重合的数量E4、小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1,计算两个技术系统的部编码重合度A5、B5,大类编码重合度A4、B4,小类编码重合度A3、B3,大组编码重合度A2、B2和小组编码重合度A1、B1;其中,
    对于第一个技术系统,A5=(E5/b5)%,A4=(E4/b4)%,A3=(E3/b3)%,A2=(E2/b2)%,A1=(E1/b1)%;
    对于第二个技术系统,B5=(E5/d5)%,B4=(E4/d4)%,B3=(E3/d3)%,B2=(E2/d2)%,B1=(E1/d1)%;
    根据所述重合度A5、B5,A4、B4,A3、B3,A2、B2,A1、B1,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F A或F B;其中,
    对于第一个技术系统,F A=C5*A5+C4*A4+C3*A3+C2*A2+C1*A1;
    对于第二个技术系统,F B=C5*B5+C4*B4+C3*B3+C2*B2+C1*B1;
    其中,C5、C4、C3、C2、C1为经验常数;
    根据所述相关指数F,计算任意一个技术系统相对另一个技术系统的相似性概率或冲突概率G;
    G A=F A/(C5+C4+C3+C2+C1);G B=F B/(C5+C4+C3+C2+C1);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度。
  3. 如权利要求2所述的方法,其特征在于:所述M、N的数值范围为:100≥M≥50;100≥N≥50;所述M、N的优选数值为100。
  4. 如权利要求2或3所述的方法,其特征在于:所述M等于N。
  5. 判断任意两个技术系统相似程度的方法,其特征在于:
    分别获取第一个技术系统M%专利量的国际专利分类号指示的大类编码集合B4、数量b4,小类编码集合B3、数量b3,大组编码集合B2、数量b2,和小组编码集合B1、数量b1;以及获取第二个技术系统N%专利量的国际专利分类号指示的大类编码集合D4、数量d4,小类编码集合D3、数量d3,大组编码集合D2、数量d2,和小组编码集合D1、数量d1;其中,100≥M>0;100≥N>0,所述集合中的信息是去除重复以后的信息;
    根据所述二个技术系统的大类编码集合B4、D4、小类编码集合B3、D3、大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统大类编码重合的数量E4、小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1;
    根据任意一个技术系统的大类编码数量b4、d4,小类编码数量b3、d3,大组编码数量b2、d2,和小组编码数量b1、d1,以及二个技术系统大类编码重合的数量E4、小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1,计算两个技术系统的大类编码重合度A4、B4,小类编码重合度A3、B3,大组编码重合度A2、B2和小组编码重合度A1、B1;其中,
    对于第一个技术系统,A4=(E4/b4)%,A3=(E3/b3)%,A2=(E2/b2)%,A1=(E1/b1)%;
    对于第二个技术系统,B4=(E4/d4)%,B3=(E3/d3)%,B2=(E2/d2)%,B1=(E1/d1)%;
    根据所述重合度A4、B4,A3、B3,A2、B2,A1、B1,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F A或F B;其中,
    对于第一个技术系统,F A=C4*A4+C3*A3+C2*A2+C1*A1;
    对于第二个技术系统,F B=C4*B4+C3*B3+C2*B2+C1*B1;
    其中,C4、C3、C2、C1为经验常数;
    根据所述相关指数F,计算任意一个技术系统相对另一个技术系统的相似性概率或冲突概率G;
    G A=F A/(C4+C3+C2+C1);G B=F B/(C4+C3+C2+C1);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度。
  6. 判断任意两个技术系统相似程度的方法,其特征在于:
    分别获取第一个技术系统M%专利量的国际专利分类号指示的小类编码集合B3、数量b3,大组编码集合B2、数量b2,和小组编码集合B1、数量b1;以及获取第二个技术系统N%专利量的国际专利分类号指示的小类编码集合D3、数量d3,大组编码集合D2、数量d2,和小组编码集合D1、数量d1;其中,100≥M>0;100≥N>0,所述集合中的信息是去除重复以后的信息;
    根据所述二个技术系统的小类编码集合B3、D3、大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1;
    根据任意一个技术系统的小类编码数量b3、d3,大组编码数量b2、d2,和小组编码数量b1、d1,以及二个技术系统小类编码重合的数量E3、大组编码重合的数量E2和小组编码重合的数量E1,计算两个技术系统的小类编码重合度A3、B3,大组编码重合度A2、B2和小组编码重合度A1、B1;其中,
    对于第一个技术系统,A3=(E3/b3)%,A2=(E2/b2)%,A1=(E1/b1)%;
    对于第二个技术系统,B3=(E3/d3)%,B2=(E2/d2)%,B1=(E1/d1)%;
    根据所述重合度A3、B3,A2、B2,A1、B1,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F A或F B;其中,
    对于第一个技术系统,F A=C3*A3+C2*A2+C1*A1;
    对于第二个技术系统,F B=C3*B3+C2*B2+C1*B1;
    其中,C3、C2、C1为经验常数;
    根据所述相关指数F,计算任意一个技术系统相对另一个技术系统的相似性概率或冲突概率G;
    G A=F A/(C3+C2+C1);G B=F B/(C3+C2+C1);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度。
  7. 判断任意两个技术系统相似程度的方法,其特征在于:
    分别获取第一个技术系统M%专利量的国际专利分类号指示的大组编码集合B2、数量b2,和小组编码集合B1、数量b1;以及获取第二个技术系统N%专利量的国际专利分类号指示的大组编码集合D2、数量d2,和小组编码集合D1、数量d1;其中,100≥M>0;100≥N>0,所述集合中的信息是去除重复以后的信息;
    根据所述二个技术系统的大组编码集合B2、D2和小组编码集合B1、D1,计算二个技术系统大组编码重合的数量E2和小组编码重合的数量E1;
    根据任意一个技术系统的大组编码数量b2、d2,和小组编码数量b1、d1,以及二个技术系统大组编码重合的数量E2和小组编码重合的数量E1,计算两个技术系统的 大组编码重合度A2、B2和小组编码重合度A1、B1;其中,
    对于第一个技术系统,A2=(E2/b2)%,A1=(E1/b1)%;
    对于第二个技术系统,B2=(E2/d2)%,B1=(E1/d1)%;
    根据所述重合度A2、B2,A1、B1,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F A或F B;其中,
    对于第一个技术系统,F A=C2*A2+C1*A1;
    对于第二个技术系统,F B=C2*B2+C1*B1;
    其中,C2、C1为经验常数;
    根据所述相关指数F,计算任意一个技术系统相对另一个技术系统的相似性概率或冲突概率G;
    G A=F A/(C2+C1);G B=F B/(C2+C1);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度。
  8. 判断任意两个技术系统相似程度的方法,其特征在于:
    分别获取第一个技术系统M%专利量的国际专利分类号指示的小组编码集合B1、数量b1;以及获取第二个技术系统N%专利量的国际专利分类号指示的小组编码集合D1、数量d1;其中,100≥M>0;100≥N>0,所述集合中的信息是去除重复以后的信息;
    根据所述二个技术系统的小组编码集合B1、D1,计算二个技术系统小组编码重合的数量E1;
    根据任意一个技术系统的小组编码数量b1、d1,以及二个技术系统小组编码重合的数量E1,计算两个技术系统的大组编码重合度A2、B2和小组编码重合度A1、B1;其中,
    对于第一个技术系统,A1=(E1/b1)%;
    对于第二个技术系统,B1=(E1/d1)%;
    根据所述重合度A1、B1,计算任意一个技术系统相对另一个技术系统的专利技术相关指数F A或F B;其中,
    对于第一个技术系统,F A=C1*A1;
    对于第二个技术系统,F B=C1*B1;
    其中,C1为经验常数;
    根据所述相关指数F,计算任意一个技术系统相对另一个技术系统的相似性概率或冲突概率G;
    G A=F A/(C1);G B=F B/(C1);
    其中,G A是技术系统A与技术系统B的相似度;G B是技术系统B与技术系统A的相似度。
PCT/CN2020/094364 2019-07-26 2020-06-04 一种判断任意两个技术系统相似程度的方法 WO2021017638A2 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910684855.3A CN112307201A (zh) 2019-07-26 2019-07-26 判断任意两个技术系统相似程度的方法
CN201910684855.3 2019-07-26

Publications (1)

Publication Number Publication Date
WO2021017638A2 true WO2021017638A2 (zh) 2021-02-04

Family

ID=74230875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/094364 WO2021017638A2 (zh) 2019-07-26 2020-06-04 一种判断任意两个技术系统相似程度的方法

Country Status (3)

Country Link
CN (1) CN112307201A (zh)
FR (1) FR3099600A1 (zh)
WO (1) WO2021017638A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177758A (zh) * 2021-04-28 2021-07-27 青岛鼎信通讯股份有限公司 一种应用于电力产品的物料信息化管理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246379A1 (en) * 2010-04-02 2011-10-06 Cpa Global Patent Research Limited Intellectual property scoring platform
US10891701B2 (en) * 2011-04-15 2021-01-12 Rowan TELS Corp. Method and system for evaluating intellectual property
CN103455609B (zh) * 2013-09-05 2017-06-16 江苏大学 一种基于核函数Luke核的专利文献相似度检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177758A (zh) * 2021-04-28 2021-07-27 青岛鼎信通讯股份有限公司 一种应用于电力产品的物料信息化管理方法

Also Published As

Publication number Publication date
CN112307201A (zh) 2021-02-02
FR3099600A1 (fr) 2021-02-05

Similar Documents

Publication Publication Date Title
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
US11714831B2 (en) Data processing and classification
US9355171B2 (en) Clustering of near-duplicate documents
Zou Clustering algorithm and its application in data mining
CN104573130A (zh) 基于群体计算的实体解析方法及装置
Färber et al. The Microsoft Academic Knowledge Graph enhanced: Author name disambiguation, publication classification, and embeddings
Valero-Mas et al. On the suitability of Prototype Selection methods for kNN classification with distributed data
CN112417152A (zh) 涉案舆情的话题检测方法和装置
WO2021017638A2 (zh) 一种判断任意两个技术系统相似程度的方法
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
Liang et al. An efficient hierarchical near-duplicate video detection algorithm based on deep semantic features
WO2021017640A1 (zh) 技术类数字资产的查询方法
CN114943285B (zh) 互联网新闻内容数据智能审核系统
US20200097605A1 (en) Machine learning techniques for automatic validation of events
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN112463974A (zh) 知识图谱建立的方法和装置
Wu et al. Optimization and improvement based on K-Means Cluster algorithm
Ding et al. Improved density peaks clustering based on natural neighbor expanded group
CN115186138A (zh) 一种配电网数据的比对方法及终端
WO2021017633A1 (zh) 技术类开放式数字资产的检索方法
Wu et al. Smart bird: Learnable sparse attention for efficient and effective transformer
CN113657441A (zh) 基于加权皮尔逊相关系数并结合特征筛选的分类算法
CN112784040A (zh) 基于语料库的垂直行业文本分类方法
CN106649537A (zh) 基于改进的群智能算法实现搜索引擎关键词优化技术
Szymczak et al. Coreference detection in XML metadata

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20847274

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20847274

Country of ref document: EP

Kind code of ref document: A2