WO2020151634A1 - 一种专利评价方法和系统 - Google Patents

一种专利评价方法和系统 Download PDF

Info

Publication number
WO2020151634A1
WO2020151634A1 PCT/CN2020/073106 CN2020073106W WO2020151634A1 WO 2020151634 A1 WO2020151634 A1 WO 2020151634A1 CN 2020073106 W CN2020073106 W CN 2020073106W WO 2020151634 A1 WO2020151634 A1 WO 2020151634A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
word
generate
calculate
patents
Prior art date
Application number
PCT/CN2020/073106
Other languages
English (en)
French (fr)
Inventor
李卫宁
张旻玥
律宇丹
周玉林
李剑涛
曹凯
林屹
Original Assignee
北京创新者信息技术有限公司
北京中技华软科技服务有限公司
北京中关村中技知识产权服务集团有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京创新者信息技术有限公司, 北京中技华软科技服务有限公司, 北京中关村中技知识产权服务集团有限公司 filed Critical 北京创新者信息技术有限公司
Priority to EP20744280.7A priority Critical patent/EP3901784A4/en
Publication of WO2020151634A1 publication Critical patent/WO2020151634A1/zh
Priority to US17/381,209 priority patent/US11847152B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Definitions

  • the invention relates to the technical field of network monitoring, in particular to a patent evaluation method and system.
  • the step 1 includes the following sub-steps:
  • Step 12 Generate terms for each patent
  • Step 14 Determine the word vector of the node in the existing knowledge graph according to the word vector, and calculate the similarity between the connected word vectors to generate an undirected weighted graph G;
  • Step 15 Use spectral clustering to generate clusters, that is, technical points, according to the undirected weighted graph G;
  • Step 16 Calculate the average word vector of each technical point according to the item and the word vector
  • Step 17 Select the most frequent T terms from the terms as patent keywords, and use the term vectors to calculate the average term vector of each patent keyword;
  • Any patent C i in the set C is represented by a space vector of a set of keywords.
  • the process of the realization method is to first use the existing word segmentation system to perform Chinese word segmentation on all the patent documents to obtain the term; then according to the self-defined or public stop word words
  • the library removes the stop words in the patent document, where the stop words are function words with no actual meaning.
  • step 13 is to predict the occurrence probability of the current word according to the word in the context, and the learning goal is to maximize the log likelihood function
  • represents any word in the patent document C
  • p represents the probability
  • Context( ⁇ )) represents the probability under the condition Context( ⁇ )
  • Context represents the context of the word.
  • x represents the word vector added by context.
  • represents the learning rate
  • l ⁇ represents the number of nodes
  • x ⁇ represents the input of the input layer.
  • the step 14 further includes calculating the cosine similarity between the connected nodes.
  • x i and y i are the i-th element of the two word vectors, and n is the dimension of the word vector.
  • the calculation method of the technical point is as follows:
  • Step 151 Generate the adjacency matrix W of the graph G, where W is a symmetric matrix and the diagonal elements are 0;
  • Step 152 Normalize and generate a Laplacian matrix
  • Step 153 Generate the smallest k eigenvalues and corresponding eigenvectors of L;
  • Step 154 Use the k-means method to cluster each row of the feature vector as a sample point to obtain cluster division.
  • D is a diagonal matrix whose diagonal elements is W d i and a row or column of elements, the elements L ij of the L, ⁇ ij is W ghost.
  • the step 2 includes the following sub-steps:
  • Step 21 Count the number of patents in each technical point
  • Step 22 Take the technical point as a point and the number of common patents as an edge to generate a complex network;
  • Step 23 Generate a technology cluster.
  • the step 3 includes the following sub-steps:
  • Step 32 Generate the word vector of each patent
  • Step 34 Take the patent as a point and the similarity as an edge to generate a complex network
  • Step 35 Calculate the TextRank value of each patent.
  • the step 32 includes the following sub-steps:
  • Step 321 Generate terms for each patent
  • Step 322 Summarize the terms and calculate the word vector of each term
  • Step 323 Introduce the id of the patent document into the training corpus and input for training.
  • the training method includes:
  • Step A Initialize a K-dimensional vector for each patent document id and all the terms;
  • Step B Input the K-dimensional vector and the word vector into the model, and the hidden layer accumulates these vectors to obtain an intermediate vector, which is used as the input of the output layer softmax.
  • f represents the forgotten activation vector
  • ⁇ g is the sigmoid function
  • x is the input vector of the LSTM unit
  • t is the time step
  • h is the LSTM unit
  • the output vector of, i represents the activation vector of the input gate
  • o represents the activation vector of the output gate
  • c represents the cell state vector
  • ⁇ c and ⁇ h are hyperbolic tangent functions.
  • V i and V j represents a patent
  • WS (V i) V i represents the TR value of the patent
  • d represents a damping coefficient
  • In (V i) represents the set of patents directed to patent V i
  • Out (V j) Represents the set of patents pointed to by patent V j
  • WS(V j ) represents the TR value of patent V j .
  • the second object of the present invention is to provide a patent evaluation system, which includes a collection module for collecting patent documents, and also includes the following modules:
  • Cluster generation module used to generate technology clusters and patent clusters
  • Patent evaluation module used for patent evaluation in each of the technology clusters.
  • the work of the technical point generation module includes the following sub-steps:
  • Step 11 Build a collection of patent documents
  • Step 12 Generate terms for each patent
  • Step 13 Summarize the terms and calculate the word vector of each term
  • Step 15 Use spectral clustering to generate clusters, that is, technical points, according to the undirected weighted graph G;
  • Step 16 Calculate the average word vector of each technical point according to the item and the word vector
  • Step 17 Select T terms with the highest frequency from the terms as patent keywords, and use the term vectors to calculate the average term vector of each patent keyword;
  • Step 18 Calculate the cosine similarity of the average word vector of the patent keywords.
  • Any patent C i in the set C is represented by a space vector of a set of keywords.
  • the process of the realization method is to first use the existing word segmentation system to perform Chinese word segmentation on all the patent documents to obtain the term; then according to the self-defined or public stop word words
  • the library removes the stop words in the patent document, where the stop words are function words with no actual meaning.
  • represents any word in the patent document C
  • p represents the probability
  • Context( ⁇ )) represents the probability under the condition Context( ⁇ )
  • Context represents the context of the word.
  • the word vector iteration formula of each word is as follows:
  • x represents the word vector added by context.
  • represents the learning rate
  • l ⁇ represents the number of nodes
  • x ⁇ represents the input of the input layer.
  • the step 14 further includes calculating the cosine similarity between the connected nodes.
  • the calculation method of the technical point is as follows:
  • Step 151 Generate the adjacency matrix W of the graph G, where W is a symmetric matrix and the diagonal elements are 0;
  • Step 152 Normalize and generate a Laplacian matrix
  • Step 153 Generate the smallest k eigenvalues and corresponding eigenvectors of L;
  • Step 154 Use the k-means method to cluster each row of the feature vector as a sample point to obtain cluster division.
  • the Laplacian matrix L D-W satisfies
  • D is a diagonal matrix whose diagonal elements is W d i and a row or column of elements, the elements L ij of the L, ⁇ ij is W ghost.
  • the work of the patent evaluation module includes the following sub-steps:
  • Step 31 Segment each patent text in the cluster and stop the word
  • Step 32 Generate the word vector of each patent
  • Step 35 Calculate the TextRank value of each patent.
  • the step 32 includes the following sub-steps:
  • Step 321 Generate terms for each patent
  • Step 322 Summarize the terms and calculate the word vector of each term
  • Step 323 Introduce the id of the patent document into the training corpus and input for training.
  • the training method includes:
  • Step A Initialize a K-dimensional vector for each patent document id and all the terms;
  • Step B Input the K-dimensional vector and the word vector into the model, and the hidden layer accumulates these vectors to obtain an intermediate vector, which is used as the input of the output layer softmax.
  • the training formula is
  • Step 2 Generate the words of each patent.
  • Step 3 Summarize the vocabulary items generated in step 2, and calculate the word vector of each vocabulary item.
  • the specific implementation method is the CBOW method of word2vec, which predicts the occurrence probability of the current word according to the contextual words.
  • represents any word in the patent document C
  • p represents the probability
  • Context( ⁇ )) represents the probability under the condition Context( ⁇ )
  • Context represents the context of the word.
  • Step 4 Use the word vector calculated in step 3 to determine the word vector of the node in the company's existing knowledge graph (words are nodes) (if a word that does not appear in step 2 appears, delete the node), and calculate the connection The cosine similarity between the nodes, the calculation formula is
  • Step 5 Using the undirected weighted graph G generated in Step 4, use spectral clustering to generate clusters (combinations of points), that is, technical points.
  • the calculation method is as follows:
  • D is a diagonal matrix whose diagonal elements is W d i and a row or column of elements, the elements L ij of the L, ⁇ ij to W elements.
  • Step 6 Use the words of the technical points obtained in Step 5 and the word vectors obtained in Step 3 to obtain the mean value of the word vectors of each technical point.
  • Step 7 Select the 5 most patented keywords with the most frequent terms from the terms of each patent generated in Step 2; use the word vector obtained in Step 3 to calculate the word vector of each patent keyword The mean of.
  • Step 8 Calculate the cosine similarity between the average word vector of the technical points obtained in Step 6 and the average word vector of the patent obtained in Step 7, and determine the technical point of the patent with a combination that exceeds the threshold.
  • the third step is to conduct patent evaluation in each technology cluster.
  • Step 1 Segment each patent text in the cluster and stop the word
  • Step 3 Use the cosine similarity to calculate the pairwise similarity of patents in the cluster
  • Step 4 Take the patent as the point and the similarity as the edge to generate a complex network
  • f represents the forgotten activation vector
  • ⁇ g is the sigmoid function
  • x is the input vector of the LSTM unit
  • t is the time step
  • h is the LSTM unit
  • the output vector of, i represents the activation vector of the input gate
  • o represents the activation vector of the output gate
  • c represents the cell state vector
  • ⁇ c and ⁇ h are hyperbolic tangent functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种专利评价方法和系统,其中方法包括专利文档采集(1000),还包括以下步骤:生成技术点及专利所属技术点(1100);生成技术集群及专利所属集群(1200);在每个所述技术集群内进行专利评价(1300)。所述专利评价方法和系统,通过自然语言处理和复杂网络算法将专利以技术集群方式聚合,赋予专利科学技术属性,并置于全球同行业技术中进行评价。

Description

一种专利评价方法和系统 技术领域
本发明涉及网络监控的技术领域,特别是一种专利评价方法和系统。
背景技术
随着科学技术的日益发展,企业越来越重视自身的知识产权保护,其专利申请的数量和我质量也得到了较大幅度的增长,现阶段已经开发出了数种用于专利管理的平台,但是这些专利管理平台仅仅适用于对专利的缴费期限和现阶段的所处的审查阶段进行姑奶,而无法对专利进行价值评估。
众所周知的是,对现有的专利文件进行准确有效的价值评估能够指导技术人员的开发工作,缩小项目的开发时间,因此,开发一种专利评价系统供技术人员使用是非常具备市场前景的。
公开号为CN103164540A的发明专利公开了一种专利热点发现与趋势分析方法,在专利热点发现过程中,首先,进行分词,并计算专利文档之间的相似度,根据相似度进行聚类。然后,对每个簇中的短语进行合并,使结果更加简洁、直观。接着,通过热点计算方法发现热点技术,并分析每一项热点技术的热点程度。最后,根据历史数据进行曲线拟合,借助Logistic回归曲线判断某项技术当先所处的生命周期,从而分析该技术的发展状况及潜在的研究价值。同时,对热点技术进行有效的趋势分析,给出这项技术未来的发展趋势。该方法的缺点是仅从技术热点对专利进行评价,维度单一,难以体现专利在其他方面的价值。
发明内容
为了解决上述的技术问题,本发明提出一种专利评价方法和系统,通过自然语言处理和复杂网络算法将专利以技术集群方式聚合,赋予专利科学技术属性,并置于全球同行业技术中进行评价。
本发明的第一目的是提供了一种专利评价方法,包括专利文档采集,还包括以下步骤:
步骤1:生成技术点及专利所属技术点;
步骤2:生成技术集群及专利所属集群;
步骤3:在每个所述技术集群内进行专利评价。
优选的是,所述步骤1包括以下子步骤:
步骤11:构建专利文档集合;
步骤12:生成每个专利的词项;
步骤13:汇总所述词项并计算每个所述词项的词向量;
步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
在上述任一方案中优选的是,所述步骤12的实现方法为定义所述的专利文档的集合为C={C 1,C 2,...,C n},对于所述的专利文档集合C中的任意一条专利C i,利用一组关键词的空间向量来表示。
在上述任一方案中优选的是,所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
在上述任一方案中优选的是,所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
Figure PCTCN2020073106-appb-000001
其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
在上述任一方案中优选的是,每个词的所述词向量迭代公式如下:
Figure PCTCN2020073106-appb-000002
其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
Figure PCTCN2020073106-appb-000003
表示求偏导数,x ω表示输入层的输入。
在上述任一方案中优选的是,所述步骤14还包括计算有连接的节点间的余弦相似度。
在上述任一方案中优选的是,所述余弦相似度的计算公式为
Figure PCTCN2020073106-appb-000004
其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。
在上述任一方案中优选的是,所述技术点的计算方法如下:
步骤151:生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
步骤152:归一化生成拉普拉斯矩阵;
步骤153:生成L的最小的k个特征值和对应的特征向量;
步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
在上述任一方案中优选的是,所述拉普拉斯矩阵L=D-W满足
Figure PCTCN2020073106-appb-000005
其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元。
在上述任一方案中优选的是,所述步骤2包括以下子步骤:
步骤21:统计两两技术点的共有专利个数;
步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;步骤23:生成技术集群。
在上述任一方案中优选的是,所述步骤3包括以下子步骤:
步骤31:集群内的每个专利文本分词并去停止词;
步骤32:生成每个专利的词向量;
步骤33:使用所述余弦相似度计算集群内专利两两相似度;
步骤34:以专利为点,所述相似度为边,生成复杂网络;
步骤35:计算每个专利的TextRank值。
在上述任一方案中优选的是,所述步骤32包括以下子步骤:
步骤321:生成每个专利的词项;
步骤322:汇总所述词项,计算每个词项的词向量;
步骤323:将专利文档的id一同引入训练语料中输入进行训练。
在上述任一方案中优选的是,所述训练的方法包括:
步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
在上述任一方案中优选的是,所述训练的公式为
f t=σ g(W fx t+U fh t-1+b f)
i t=σ g(W ix t+U ih t-1+b i)
o t=σ g(W ox t+U oh t-1+b o)
Figure PCTCN2020073106-appb-000006
Figure PCTCN2020073106-appb-000007
其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σ c和σ h为双曲正切函数。
在上述任一方案中优选的是,所述TextRank值的迭代公式为
Figure PCTCN2020073106-appb-000008
其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。
本发明的第二目的是提供了一种专利评价系统,包括用于进行专利文档采集的采集模块,还包括以下模块:
技术点生成模块:用于生成技术点及专利所属技术点;
集群生成模块:用于生成技术集群及专利所属集群;
专利评价模块:用于在每个所述技术集群内进行专利评价。
优选的是,所述技术点生成模块的工作包括以下子步骤:
步骤11:构建专利文档集合;
步骤12:生成每个专利的词项;
步骤13:汇总所述词项并计算每个所述词项的词向量;
步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
在上述任一方案中优选的是,所述步骤12的实现方法为定义所述的专利文档的集合为C={C 1,C 2,...,C n},对于所述的专利文档集合C中的任意一条专利C i,利用一组关键词的空间向量来表示。
在上述任一方案中优选的是,所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
在上述任一方案中优选的是,所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
Figure PCTCN2020073106-appb-000009
其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
在上述任一方案中优选的是,每个词的所述词向量迭代公式如下:
Figure PCTCN2020073106-appb-000010
其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
Figure PCTCN2020073106-appb-000011
表示求偏导数,x ω表示输入层的输入。
在上述任一方案中优选的是,所述步骤14还包括计算有连接的节点间的余弦相似度。
在上述任一方案中优选的是,所述余弦相似度的计算公式为
Figure PCTCN2020073106-appb-000012
其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。
在上述任一方案中优选的是,所述技术点的计算方法如下:
步骤151:生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
步骤152:归一化生成拉普拉斯矩阵;
步骤153:生成L的最小的k个特征值和对应的特征向量;
步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。在上述任一方案中优选的是,所述拉普拉斯矩阵L=D-W满足
Figure PCTCN2020073106-appb-000013
其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元。
在上述任一方案中优选的是,所述集群生成模块的工作以下子步骤:
步骤21:统计两两技术点的共有专利个数;
步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;步骤23:生成技术集群。
在上述任一方案中优选的是,所述专利评价模块的工作包括以下子步骤:
步骤31:集群内的每个专利文本分词并去停止词;
步骤32:生成每个专利的词向量;
步骤33:使用所述余弦相似度计算集群内专利两两相似度;
步骤34:以专利为点,所述相似度为边,生成复杂网络;
步骤35:计算每个专利的TextRank值。
在上述任一方案中优选的是,所述步骤32包括以下子步骤:
步骤321:生成每个专利的词项;
步骤322:汇总所述词项,计算每个词项的词向量;
步骤323:将专利文档的id一同引入训练语料中输入进行训练。
在上述任一方案中优选的是,所述训练的方法包括:
步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
在上述任一方案中优选的是,所述训练的公式为
f t=σ g(W fx t+U fh t-1+b f)
i t=σ g(W ix t+U ih t-1+b i)
o t=σ g(W ox t+U oh t-1+b o)
Figure PCTCN2020073106-appb-000014
Figure PCTCN2020073106-appb-000015
其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示……,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σ c和σ h为双曲正切函数。
在上述任一方案中优选的是,所述TextRank值的迭代公式为
Figure PCTCN2020073106-appb-000016
其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。
本发明提出了一种专利评价方法和系统,将专利与全球同行业技术进行对比,能够客观评价专利技术的深度与广度,预测专利的预期寿命,判断研发人员实力等。
附图说明
图1为按照本发明的专利评价方法的一优选实施例的流程图。
图1A为按照本发明的专利评价方法的如图1所示实施例的技术点生成方法流程图。
图1B为按照本发明的专利评价方法的如图1所示实施例的技术点计算方法流程图。
图1C为按照本发明的专利评价方法的如图1所示实施例的技术集群生成方法流程图。
图1D为按照本发明的专利评价方法的如图1所示实施例的专利评价方法流程图。
图1E为按照本发明的专利评价方法的如图1所示实施例的专利词向量生成方法流程图。
图2为按照本发明的专利评价系统的一优选实施例的模块图。
图3为按照本发明的专利评价方法的另一优选实施例的流程图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1、2所示,执行步骤100,采集模块200进行专利文档采集。
执行步骤110,技术点生成模块210生成技术点及专利所属技术点。如图1A所示,执行步骤1110,构建专利文档集合。执行步骤1120,生成每个专利的词项,定义所述的专利文档的集合为C={C 1,C 2,...,C n},对于所述的专利文档集合C中的任意一条专利C i,利用一组关键词的空间向量来表示。首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。执行步骤1130,汇总所述词项并计算每个所述词项的词向量,根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
Figure PCTCN2020073106-appb-000017
其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。每个词的所述词向量迭代公式如下:
Figure PCTCN2020073106-appb-000018
其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
Figure PCTCN2020073106-appb-000019
表示求偏导数,x ω表示输入层的输入。执行步骤1140,根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G,计算有连接的节点间的余弦相似度。余弦相似度的计算公式为
Figure PCTCN2020073106-appb-000020
其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。执行步骤1150,根据无向有权图G利用谱聚类生成集群,即技术点。如图1B所示,技术点的计算方法为:执行步骤1151,生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0。执行步骤1152,归一化生成拉普拉斯矩阵;拉普拉斯矩阵L=D-W满足
Figure PCTCN2020073106-appb-000021
其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元素。执行步骤1153,生成L的最小的k个特征值和对应的特征向量。执行步骤1154,将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。执行步骤1160,根据所述此项和所述词向量计算每个所述技术点的平均词向量。执行步骤1170,从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量。执行步骤1180,计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
执行步骤120,集群生成模块220生成技术集群及专利所属集群。如图1C所示,执行步骤1210,统计两两技术点的共有专利个数。执行步骤1220,以所述技术点为点,所述共有专利个数为边,生成复杂网络。执行步骤1230,生成技术集群。在步骤120中,,与步骤110中相同的方法不再单独论述。
执行步骤130,专利评价模块230在每个所述技术集群内进行专利评价。如图1D所示,执行步骤1310,集群内的每个专利文本分词并去停止词。如图1E所示,执行步骤1321,生成每个专利的词项。执行步骤1322,汇总所述词项,计算每个词项的词向量。执行步骤1323,将专利文档的id一同引入训练语料中输入进行训练。训练的方法包括:步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。训练的公式为
f t=σ g(W fx t+U fh t-1+b f)
i t=σ g(W ix t+U ih t-1+b i)
o t=σ g(W ox t+U oh t-1+b o)
Figure PCTCN2020073106-appb-000022
Figure PCTCN2020073106-appb-000023
其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,即一句话里的每个词,h表示LSTM单元的输出向量,i表示输入门的激活向量, o表示输出门的激活向量,c表示细胞状态向量,σ c和σ h为双曲正切函数。执行步骤1320,生成每个专利的词向量。执行步骤1330,使用所述余弦相似度计算集群内专利两两相似度。执行步骤1340,以专利为点,所述相似度为边,生成复杂网络。执行步骤1350,计算每个专利的TextRank值。TextRank值的迭代公式为
Figure PCTCN2020073106-appb-000024
其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。在步骤130中,与步骤110中相同的方法不再单独论述。
实施例二
本发明的优点在于:
1、摆脱了对专家评价样本的依赖,效率更高、成本更低。
2、对专利信息的挖掘,从数量统计上升到文字中蕴含的信息,而专利技术属性的信息大部分以文本形式表达,信息来源更接近专利本质。
3、通过技术集群将技术相近的专利放到一起评价,一方面减少不必要的计算,另一方面更容易挖掘出技术相对于近似技术的优劣。
如图3所示,第一步、生成技术点及专利所属技术点。
步骤1:专利文档采集,构建专利文档集合;
步骤2:生成每个专利的词,具体实现方法为:定义所述的专利文档的集合为C={c1,c2,…,cn},对于所述的专利文档集合C中的任意一条专利ci,利用一组关键词的空间向量来表示;其过程为,首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词;
步骤3:将步骤2中生成的词项汇总,计算每个词项的词向量,具体实现方法为word2vec的CBOW法,根据上下文的词语预测当前词语的出现概率。
其学习目标是最大化对数似然函数:
Figure PCTCN2020073106-appb-000025
其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
使用Hierarchical Softmax方法,每个词的词向量迭代方式如下:
Figure PCTCN2020073106-appb-000026
其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
Figure PCTCN2020073106-appb-000027
表示求偏导数,x ω表示输入层的输入。
步骤4:用步骤3中计算得出的词向量,确定公司已有知识图谱(词为节点)中节点的词向量(如出现步骤2中没有出现的词就删掉该节点),计算有连接的节点间的余弦相似度,其计算公式为
Figure PCTCN2020073106-appb-000028
其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。
步骤5:用步骤4中生成的无向有权图G,利用谱聚类生成集群(点的组合),即技术点。计算方法如下:
1、生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
2、归一化生成普拉斯矩阵;拉普拉斯矩阵L=D-W,满足:
Figure PCTCN2020073106-appb-000029
其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元素。
3、生成L的最小的k个特征值和对应的特征向量;
4、将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
步骤6:用步骤5所得技术点的词和步骤3所得词向量,求得每个技术点的词向量的均值。
步骤7:从步骤2中生成的每个专利的词项中选出最高频的词项5个最为专利关键词;用步骤3中得出的词向量,计算每个专利关键词的词向量的均值。
步骤8:计算步骤6中所得技术点的平均词向量和步骤7中所得专利的平均词向量的余弦相似度,用超过阈值的组合确定专利所属技术点。
第二步、生成技术集群及专利所属集群
步骤1:统计两两技术点的共有专利个数;
步骤2:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
步骤3:生成技术集群。
第三步、在每个技术集群内进行专利评价。
步骤1:集群内的每个专利文本分词并去停止词;
步骤2:生成每个专利的词向量;
步骤3:使用所述余弦相似度计算集群内专利两两相似度;
步骤4:以专利为点,所述相似度为边,生成复杂网络;
步骤5:计算每个专利的TextRank值。
Doc2vec:
使用Distributed Memory version of Paragraph Vector(PV-DM)方法,试图在给定上下文和段落向量的情况下预测单词的概率。
训练方法同第一步-步骤3的CBOW类似,使用第一步-步骤2中得到的词和第一步-步骤3中得到的向量,然后将专利文档的id一同引入训练语料中输入进行训练。首先将每个文档ID和第一步-步骤2中得到的所有词初始化一个K维的向量,然后将文档向量和第一步-步骤3中得到的向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
Doc2vec也可以用LSTM的后向传播代替,公式为
f t=σ g(W fx t+U fh t-1+b f)
i t=σ g(W ix t+U ih t-1+b i)
o t=σ g(W ox t+U oh t-1+b o)
Figure PCTCN2020073106-appb-000030
Figure PCTCN2020073106-appb-000031
其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σ c和σ h为双曲正切函数。
TextRank(TR):
迭代公式如下:
Figure PCTCN2020073106-appb-000032
其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (32)

  1. 一种专利评价方法,包括专利文档采集,其特征在于,还包括以下步骤:
    步骤1:生成技术点及专利所属技术点;
    步骤2:生成技术集群及专利所属集群;
    步骤3:在每个所述技术集群内进行专利评价。
  2. 如权利要求1所述的专利评价方法,其特征在于:所述步骤1包括以下子步骤:
    步骤11:构建专利文档集合;
    步骤12:生成每个专利的词项;
    步骤13:汇总所述词项并计算每个所述词项的词向量;
    步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
    步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
    步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
    步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
    步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
  3. 如权利要求2所述的专利评价方法,其特征在于:所述步骤12的实现方法为定义所述的专利文档的集合为C={C 1,C 2,...,C n},对于所述的专利文档集合C中的任意一条专利C i,利用一组关键词的空间向量来表示。
  4. 如权利要求3所述的专利评价方法,其特征在于:所述实现方法的过程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
  5. 如权利要求4所述的专利评价方法,其特征在于:所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
    Figure PCTCN2020073106-appb-100001
    其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
  6. 如权利要求5所述的专利评价方法,其特征在于:每个词的所述词向量迭代公式如下:
    Figure PCTCN2020073106-appb-100002
    其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
    Figure PCTCN2020073106-appb-100003
    表示求偏导数,x ω表示输入层的输入。
  7. 如权利要求6所述的专利评价方法,其特征在于:所述步骤14还包括计算有连接的节点间的余弦相似度。
  8. 如权利要求7所述的专利评价方法,其特征在于:所述余弦相似度的计算公式为
    Figure PCTCN2020073106-appb-100004
    其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。
  9. 如权利要求8所述的专利评价方法,其特征在于:所述技术点的计算方法如下:
    步骤151:生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
    步骤152:归一化生成拉普拉斯矩阵;
    步骤153:生成L的最小的k个特征值和对应的特征向量;
    步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
  10. 如权利要求9所述的专利评价方法,其特征在于:所述拉普拉斯矩阵L=D-W满足
    Figure PCTCN2020073106-appb-100005
    其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元素。
  11. 如权利要求10所述的专利评价方法,其特征在于:所述步骤2包括以 下子步骤:
    步骤21:统计两两技术点的共有专利个数;
    步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
    步骤23:生成技术集群。
  12. 如权利要求11所述的专利评价方法,其特征在于:所述步骤3包括以下子步骤:
    步骤31:集群内的每个专利文本分词并去停止词;
    步骤32:生成每个专利的词向量;
    步骤33:使用所述余弦相似度计算集群内专利两两相似度;
    步骤34:以专利为点,所述相似度为边,生成复杂网络;
    步骤35:计算每个专利的TextRank值。
  13. 如权利要求12所述的专利评价方法,其特征在于:所述步骤32包括以下子步骤:
    步骤321:生成每个专利的词项;
    步骤322:汇总所述词项,计算每个词项的词向量;
    步骤323:将专利文档的id一同引入训练语料中输入进行训练。
  14. 如权利要求13所述的专利评价方法,其特征在于:所述训练的方法包括:
    步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
    步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
  15. 如权利要求14所述的专利评价方法,其特征在于:所述训练的公式为f t=σ g(W fx t+U fh t-1+b f)
    i t=σ g(W ix t+U ih t-1+b i)
    o t=σ g(W ox t+U oh t-1+b o)
    c t=f tοc t-1+i tοσ c(W cx t+U ch t-1+b c)
    h t=o tοσ h(c t)
    其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向 量,c表示细胞状态向量,σ c和σ h为双曲正切函数。
  16. 如权利要求12所述的专利评价方法,其特征在于:所述TextRank值的迭代公式为
    Figure PCTCN2020073106-appb-100006
    其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。
  17. 一种专利评价系统,包括用于进行专利文档采集的采集模块,其特征在于,还包括以下模块:
    技术点生成模块:用于生成技术点及专利所属技术点;
    集群生成模块:用于生成技术集群及专利所属集群;
    专利评价模块:用于在每个所述技术集群内进行专利评价。
  18. 如权利要求17所述的专利评价系统,其特征在于:所述技术点生成模块的工作包括以下子步骤:
    步骤11:构建专利文档集合;
    步骤12:生成每个专利的词项;
    步骤13:汇总所述词项并计算每个所述词项的词向量;
    步骤14:根据所述词向量确定已有知识图谱中节点的词向量,并计算有连接的词向量之间的相似度,生成无向有权图G;
    步骤15:根据所述无向有权图G利用谱聚类生成集群,即技术点;
    步骤16:根据所述此项和所述词向量计算每个所述技术点的平均词向量;
    步骤17:从所述词项中选出最高频的T个词项作为专利关键词,用所述词向量计算每个所述专利关键词的平均词向量;
    步骤18:计算所述平均词向量额所述专利关键词的平均词向量的余弦相似度。
  19. 如权利要求18所述的专利评价系统,其特征在于:所述步骤12的实现方法为定义所述的专利文档的集合为C={C 1,C 2,...,C n},对于所述的专利文档集合C中的任意一条专利C i,利用一组关键词的空间向量来表示。
  20. 如权利要求19所述的专利评价系统,其特征在于:所述实现方法的过 程为首先采用现有的分词系统对所述的所有专利文档进行中文分词,得到词项;然后根据自定义或公用的停用词词库去除所述的专利文档中的停用词,其中停用词为没有实际含义的功能词。
  21. 如权利要求20所述的专利评价系统,其特征在于:所述步骤13的实现方法为根据上下文的词语预测当前词语的出现概率,学习目标是最大化对数似然函数,
    Figure PCTCN2020073106-appb-100007
    其中,ω表示专利文档C中任意一个词,p表示概率,p(ω|Context(ω))表示在条件Context(ω)下的概率,Context表示的是该词的上下文。
  22. 如权利要求21所述的专利评价系统,其特征在于:每个词的所述词向量迭代公式如下:
    Figure PCTCN2020073106-appb-100008
    其中,x表示上下文相加的词向量。η表示学习率,l ω表示节点数量,
    Figure PCTCN2020073106-appb-100009
    表示求偏导数,x ω表示输入层的输入。
  23. 如权利要求22所述的专利评价系统,其特征在于:所述步骤14还包括计算有连接的节点间的余弦相似度。
  24. 如权利要求23所述的专利评价系统,其特征在于:所述余弦相似度的计算公式为
    Figure PCTCN2020073106-appb-100010
    其中x i、y i分别为两个词向量的第i个元素,n为词向量维度。
  25. 如权利要求24所述的专利评价系统,其特征在于:所述技术点的计算方法如下:
    步骤151:生成图G的邻接矩阵W,W为对称矩阵,对角线元素为0;
    步骤152:归一化生成拉普拉斯矩阵;
    步骤153:生成L的最小的k个特征值和对应的特征向量;
    步骤154:将特征向量的每一行作为一个样本点用k-means法聚类,得到簇划分。
  26. 如权利要求25所述的专利评价系统,其特征在于:所述拉普拉斯矩阵L=D-W满足
    Figure PCTCN2020073106-appb-100011
    其中,D为对角矩阵,其对角线元素d i为W行或列元素的和,L ij为L中元素,ω ij为W中元素。
  27. 如权利要求26所述的专利评价系统,其特征在于:所述集群生成模块的工作以下子步骤:
    步骤21:统计两两技术点的共有专利个数;
    步骤22:以所述技术点为点,所述共有专利个数为边,生成复杂网络;
    步骤23:生成技术集群。
  28. 如权利要求27所述的专利评价系统,其特征在于:所述专利评价模块的工作包括以下子步骤:
    步骤31:集群内的每个专利文本分词并去停止词;
    步骤32:生成每个专利的词向量;
    步骤33:使用所述余弦相似度计算集群内专利两两相似度;
    步骤34:以专利为点,所述相似度为边,生成复杂网络;
    步骤35:计算每个专利的TextRank值。
  29. 如权利要求28所述的专利评价系统,其特征在于:所述步骤32包括以下子步骤:
    步骤321:生成每个专利的词项;
    步骤322:汇总所述词项,计算每个词项的词向量;
    步骤323:将专利文档的id一同引入训练语料中输入进行训练。
  30. 如权利要求29所述的专利评价系统,其特征在于:所述训练的方法包括:
    步骤A:将每个所述专利文档id和所有所述词项初始化一个K维的向量;
    步骤B:将所述K维的向量和所述词向量输入模型,隐层将这些向量累加得到中间向量,作为输出层softmax的输入。
  31. 如权利要求30所述的专利评价系统,其特征在于:所述训练的公式为 f t=σ g(W fx t+U fh t-1+b f)
    i t=σ g(W ix t+U ih t-1+b i)
    o t=σ g(W ox t+U oh t-1+b o)
    c t=f tοc t-1+i tοσ c(W cx t+U ch t-1+b c)
    h t=o tοσ h(c t)
    其中,f表示遗忘的激活矢量,σ g为sigmoid函数,W、U和b为训练期间需要学习的权重矩阵和偏差矢量参数,x为LSTM单元的输入向量,t表示时间步,h表示LSTM单元的输出向量,i表示输入门的激活向量,o表示输出门的激活向量,c表示细胞状态向量,σ c和σ h为双曲正切函数。
  32. 如权利要求28所述的专利评价系统,其特征在于:所述TextRank值的迭代公式为
    Figure PCTCN2020073106-appb-100012
    其中,V i和V j表示某个专利,WS(V i)表示专利V i的TR值,d表示阻尼系数,In(V i)表示指向专利V i的专利的集合,Out(V j)表示专利V j指向的专利的集合,WS(V j)表示专利V j的TR值。
PCT/CN2020/073106 2019-01-25 2020-01-20 一种专利评价方法和系统 WO2020151634A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20744280.7A EP3901784A4 (en) 2019-01-25 2020-01-20 PATENT ASSESSMENT METHOD AND SYSTEM
US17/381,209 US11847152B2 (en) 2019-01-25 2021-07-21 Patent evaluation method and system that aggregate patents based on technical clustering

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910075167.7A CN109902168B (zh) 2019-01-25 2019-01-25 一种专利评价方法和系统
CN201910075167.7 2019-01-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/381,209 Continuation US11847152B2 (en) 2019-01-25 2021-07-21 Patent evaluation method and system that aggregate patents based on technical clustering

Publications (1)

Publication Number Publication Date
WO2020151634A1 true WO2020151634A1 (zh) 2020-07-30

Family

ID=66944235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/073106 WO2020151634A1 (zh) 2019-01-25 2020-01-20 一种专利评价方法和系统

Country Status (4)

Country Link
US (1) US11847152B2 (zh)
EP (1) EP3901784A4 (zh)
CN (1) CN109902168B (zh)
WO (1) WO2020151634A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610112A (zh) * 2021-07-09 2021-11-05 中国商用飞机有限责任公司上海飞机设计研究院 飞机装配质量缺陷辅助决策方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902168B (zh) * 2019-01-25 2022-02-11 北京创新者信息技术有限公司 一种专利评价方法和系统
CN111126865B (zh) * 2019-12-27 2023-05-23 北京本应科技有限公司 一种基于科技大数据的技术成熟度判断方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070276796A1 (en) * 2006-05-22 2007-11-29 Caterpillar Inc. System analyzing patents
CN103164540A (zh) 2013-04-15 2013-06-19 武汉大学 一种专利热点发现与趋势分析方法
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN109902168A (zh) * 2019-01-25 2019-06-18 北京创新者信息技术有限公司 一种专利评价方法和系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963920B1 (en) * 1993-11-19 2005-11-08 Rose Blush Software Llc Intellectual asset protocol for defining data exchange rules and formats for universal intellectual asset documents, and systems, methods, and computer program products related to same
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US7945600B1 (en) * 2001-05-18 2011-05-17 Stratify, Inc. Techniques for organizing data to support efficient review and analysis
JP2005032136A (ja) * 2003-07-10 2005-02-03 Nissan Motor Co Ltd 特許評価方法及び特許評価システム
US20060212480A1 (en) * 2005-03-21 2006-09-21 Lundberg Steven W System and method for matter clusters in an IP management system
US8060505B2 (en) * 2007-02-13 2011-11-15 International Business Machines Corporation Methodologies and analytics tools for identifying white space opportunities in a given industry
US20080243829A1 (en) * 2007-03-29 2008-10-02 Microsoft Corporation Spectral clustering using sequential shrinkage optimization
TW200846942A (en) * 2007-05-21 2008-12-01 Univ Nat Taiwan Science Tech Clustering TRIZ analysis model
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
TW201123064A (en) * 2009-12-30 2011-07-01 Univ Nat Taiwan Science Tech Method for patent valuation and computer-readable storage medium
US20110202886A1 (en) * 2010-02-13 2011-08-18 Vinay Deolalikar System and method for displaying documents
US8429153B2 (en) * 2010-06-25 2013-04-23 The United States Of America As Represented By The Secretary Of The Army Method and apparatus for classifying known specimens and media using spectral properties and identifying unknown specimens and media
US20130086033A1 (en) * 2011-10-03 2013-04-04 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US10191973B1 (en) * 2013-09-30 2019-01-29 EMC IP Holding Company LLC Patent analytics using mapreduce clustering
CN104881401B (zh) * 2015-05-27 2017-10-17 大连理工大学 一种专利文献聚类方法
CN105824904B (zh) * 2016-03-15 2018-12-25 浙江大学 基于中医药领域专业词向量的中草药植物图片爬取方法
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US11150878B2 (en) * 2017-01-31 2021-10-19 Raytheon Bbn Technologies Corp. Method and system for extracting concepts from research publications to identify necessary source code for implementation
CN106897392A (zh) * 2017-02-04 2017-06-27 同济大学 一种基于知识发现的技术竞争及专利预警分析方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN107832412B (zh) * 2017-11-06 2020-06-30 浙江工业大学 一种基于文献引用关系的刊物聚类方法
CN108090049B (zh) * 2018-01-17 2021-02-05 山东工商学院 基于句子向量的多文档摘要自动提取方法及系统
CN108536844B (zh) * 2018-04-13 2021-09-03 吉林大学 一种文本增强的网络表示学习方法
CN109189942B (zh) * 2018-09-12 2021-07-09 山东大学 一种专利数据知识图谱的构建方法及装置
US20200175626A1 (en) * 2018-12-03 2020-06-04 International Business Machines Corporation Analyzing patent value in organizational patent portfolio strategy
US11741511B2 (en) * 2020-02-03 2023-08-29 Intuit Inc. Systems and methods of business categorization and service recommendation
US20230128876A1 (en) * 2022-08-03 2023-04-27 Infrrd Inc System for optimizing training dataset

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070276796A1 (en) * 2006-05-22 2007-11-29 Caterpillar Inc. System analyzing patents
CN103164540A (zh) 2013-04-15 2013-06-19 武汉大学 一种专利热点发现与趋势分析方法
CN107315738A (zh) * 2017-07-05 2017-11-03 山东大学 一种文本信息的创新度评估方法
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN109902168A (zh) * 2019-01-25 2019-06-18 北京创新者信息技术有限公司 一种专利评价方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3901784A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610112A (zh) * 2021-07-09 2021-11-05 中国商用飞机有限责任公司上海飞机设计研究院 飞机装配质量缺陷辅助决策方法
CN113610112B (zh) * 2021-07-09 2024-04-16 中国商用飞机有限责任公司上海飞机设计研究院 飞机装配质量缺陷辅助决策方法

Also Published As

Publication number Publication date
CN109902168B (zh) 2022-02-11
EP3901784A4 (en) 2022-02-16
US11847152B2 (en) 2023-12-19
EP3901784A1 (en) 2021-10-27
US20210349928A1 (en) 2021-11-11
CN109902168A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
Luo Network text sentiment analysis method combining LDA text representation and GRU-CNN
US20180341696A1 (en) Method and system for detecting overlapping communities based on similarity between nodes in social network
WO2020151634A1 (zh) 一种专利评价方法和系统
CN107577785A (zh) 一种适用于法律识别的层次多标签分类方法
Ekbal et al. A multiobjective simulated annealing approach for classifier ensemble: Named entity recognition in Indian languages as case studies
Romanov et al. Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts
CN112836051B (zh) 一种在线自学习的法院电子卷宗文本分类方法
Desrosiers et al. Within-network classification using local structure similarity
Wu et al. Topic mover's distance based document classification
Ma et al. A natural scene recognition learning based on label correlation
Fu et al. Multi-label learning with kernel local label information
Ke et al. A two-level model for automatic image annotation
Karthikeyan et al. Ontology based concept hierarchy extraction of web data
Asghar et al. Automated data mining techniques: A critical literature review
Jin et al. Short text classification method with dual channel hypergraph convolution networks
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
Namata et al. Collective classification for text classification
KR102224684B1 (ko) 기계학습 기반의 기술이전 예측모델 생성 시스템 및 생성 방법
Alshara Multilayer Graph-Based Deep Learning Approach for Stock Price Prediction
Zhang et al. Centroid training to achieve effective text classification
Zhang et al. Sequence contained heterogeneous graph neural network
Lin Comment Texts Sentiment Analysis Based on Improved Bi-LSTM and Naive Bayes
Chengyang et al. Representation learning of time series data with high-level semantic
Sameemdeen et al. Topic classification using active learning for sinhala language documents
Lintao et al. Patent2Vec: Multi-view representation learning on patent-graphs for patent classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20744280

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020744280

Country of ref document: EP

Effective date: 20210720

NENP Non-entry into the national phase

Ref country code: DE