WO2021051934A1 - 基于人工智能的合同关键条款提取方法、装置及存储介质 - Google Patents

基于人工智能的合同关键条款提取方法、装置及存储介质 Download PDF

Info

Publication number
WO2021051934A1
WO2021051934A1 PCT/CN2020/098950 CN2020098950W WO2021051934A1 WO 2021051934 A1 WO2021051934 A1 WO 2021051934A1 CN 2020098950 W CN2020098950 W CN 2020098950W WO 2021051934 A1 WO2021051934 A1 WO 2021051934A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
contract
key
keyword
vector set
Prior art date
Application number
PCT/CN2020/098950
Other languages
English (en)
French (fr)
Inventor
侯丽
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021051934A1 publication Critical patent/WO2021051934A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Definitions

  • This application relates to the field of artificial intelligence technology, and in particular to an artificial intelligence-based method, device, electronic equipment and storage medium for extracting key terms of a contract.
  • the embodiments of the application provide a method, device and storage medium for extracting key terms of a contract based on artificial intelligence.
  • This application provides a method for extracting key terms of a contract based on artificial intelligence, including:
  • This application also provides an electronic device, which includes a memory and a processor.
  • the memory stores an artificial intelligence-based key contract clause extraction program that can run on the processor.
  • the artificial intelligence-based contract key When the term extraction program is executed by the processor, the following steps are implemented:
  • This application also provides a computer-readable storage medium that stores an artificial intelligence-based key contract clause extraction program, and the artificial intelligence-based key contract clause extraction program can be processed by one or more The device executes to achieve the following steps:
  • This application also provides a device for extracting key terms of a contract based on artificial intelligence, including:
  • the text processing module is used to receive the contract text, and perform preprocessing operations of removing stop words and word segmentation on the contract text to obtain a standard contract text;
  • the text conversion module is used to extract the keyword set in the standard contract text using a keyword extraction algorithm, and convert the keyword set into a word vector set to obtain a keyword vector set, which is obtained from the contract clause information database A pre-determined text set of key contract clauses, and converting the text set of key contract clauses into a text word vector set;
  • the extraction module is used to input the keyword vector set and the text word vector set into a pre-built smart contract key clause extraction model to obtain a similarity set between the keyword vector set and the text word vector set , When there is a similarity greater than a preset threshold in the similarity set, use the corresponding keyword vector as the key clause of the contract text, and output the key clause through the output layer of the smart contract key clause extraction model , And highlight the key clauses in a preset manner to complete the extraction of the key clauses of the contract text.
  • FIG. 1 is a schematic flowchart of a method for extracting key terms of a contract based on artificial intelligence according to an embodiment of the application;
  • FIG. 2 is a schematic diagram of the internal structure of an electronic device provided by an embodiment of the application.
  • FIG. 3 is a schematic diagram of an artificial intelligence-based key contract clause extraction device provided by an embodiment of the application.
  • FIG. 1 it is a schematic flowchart of a method for extracting key terms of a contract based on artificial intelligence according to an embodiment of the present application.
  • the method can be executed by a device, and the device can be implemented by software and/or hardware.
  • the method for extracting key terms of a contract based on artificial intelligence includes:
  • the contract text is received, and the preprocessing operations of removing stop words and word segmentation are performed on the contract text to obtain a standard contract text.
  • the stop words are words that have no practical meaning in the function words of the text data, and have no effect on the classification of the text, but the frequency of occurrence is high, so it will cause the effect of text classification.
  • the stop words include commonly used pronouns. , Prepositions, etc., for example, the commonly used stop words are " ⁇ ", " ⁇ ", "But” and so on.
  • this application uses a pre-built stop word list to match the words in the contract text one by one to obtain the contract text and the stop words in it, and delete the stop words,
  • the pre-built stop vocabulary list is downloaded through a web page.
  • the word segmentation in this application includes: matching the words of the contract text after removing the stop words with the entries in the dictionary through a preset strategy to obtain the characteristic words of the contract text, and The characteristic words are separated by space symbols, and the word segmentation operation is completed, thereby obtaining the standard contract text.
  • the preset strategy is the forward maximum matching method. The idea of the forward maximum matching method is to match several consecutive characters in the text to be segmented with the vocabulary from left to right. If the matching is successful, then Cut out a word.
  • the keyword extraction algorithm includes:
  • f grav (W i, W j) represents the feature words W i and W j of gravity
  • tfidf (W i) represents a TF-IDF value of the characteristic word W i is
  • tfidf (W j) represents the feature words W j of TF -IDF value
  • TF means word frequency
  • IDF means inverse document frequency index
  • d is the Euclidean distance between the word vectors of feature words W i and W j;
  • the correlation strength between the feature words W i and W j is:
  • the keyword set in the standard contract text set is obtained.
  • this application uses one hot representation (one hot) to convert the keyword set into a word vector for representation.
  • the one-hot representation is a basic method of vector representation of words.
  • a dictionary is constructed by extracting all the words in the corpus, and each word in it is represented by a word vector, and the dimension of the vector is equal to the size of the dictionary. And in the vector, only the value of the dimension corresponding to the current word is 1, and the values of the other dimensions are all 0.
  • this application converts the dimensions of all keyword sets to 1, and the dimensions of the remaining words are 0, thus performing word vector representation , To obtain the keyword vector set.
  • the contract clause information database is a database composed of contract materials obtained from different companies and contract materials downloaded from professional contract websites.
  • the predetermined key contract terms include: transaction amount, transaction time, transaction method, transaction object, and so on.
  • the above-mentioned keyword set is converted into a word vector set to convert the text set of key contract clauses into the text word vector set.
  • the pre-built smart contract key clause extraction model includes: an input layer, a convolutional neural network (Convolutional Neural Networks, CNN), and an output layer.
  • the CNN is a feed-forward neural network. Its artificial neurons can respond to a part of the surrounding units in the coverage area. Its basic structure includes two layers. One is the feature extraction layer. The input of each neuron is the same as the previous layer. The local receptive fields are connected, and the local features are extracted. Once the local feature is extracted, its positional relationship with other features is also determined; the second is the feature mapping layer, each computing layer of the network is composed of multiple feature maps, and each feature map is a plane. The weights of all neurons on the plane are equal.
  • the CNN includes: a convolutional layer, a pooling layer, and a fully connected layer.
  • the keyword vector set and the text word vector set are input into the input layer, and the keyword vector set and the text word vector set are processed through the convolutional layer.
  • Dimensionality reduction processing using the pooling layer to extract feature vectors of the keyword vector set and the text word vector set after the dimensionality reduction processing, and calculating the feature vector after the extraction of the feature vector through the fully connected layer
  • the similarity between the keyword vector set and the text word vector set thereby obtaining the similarity set.
  • this application uses the corresponding keyword vector as the key clause of the contract text, and outputs the corresponding keyword through the output layer Vector to complete the extraction of the key terms of the contract text.
  • the similarity of the preset threshold in this application is 0.8
  • the calculation method of the similarity includes:
  • TP S is the standard vector set of keyword feature vector, TP T vector set for said text word feature vectors.
  • the highlighting of the key terms in the preset manner may include, for example, displaying the key terms in bold, underlined, and marked in different colors.
  • the application also provides an electronic device.
  • FIG. 2 it is a schematic diagram of the internal structure of an electronic device provided by an embodiment of this application.
  • the electronic device 1 may be a PC (Personal Computer, personal computer), or a terminal device such as a smart phone, a tablet computer, or a portable computer, or a server.
  • the electronic device 1 at least includes a memory 11, a processor 12, a communication bus 13, and a network interface 14.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), magnetic memory, magnetic disk, optical disk, and the like.
  • the memory 11 may be an internal storage unit of the electronic device 1 in some embodiments, such as a hard disk of the electronic device 1.
  • the memory 11 may also be an external storage device of the electronic device 1, such as a plug-in hard disk equipped on the electronic device 1, a smart memory card (Smart Media Card, SMC), and a Secure Digital (SD) Card, Flash Card, etc.
  • the memory 11 may also include both an internal storage unit of the electronic device 1 and an external storage device.
  • the memory 11 can be used not only to store application software and various data installed in the electronic device 1, such as the code of the key contract clause extraction program 01 based on artificial intelligence, etc., but also to temporarily store data that has been output or will be output.
  • the processor 12 may be a central processing unit (CPU), controller, microcontroller, microprocessor, or other data processing chip, for running program codes or processing stored in the memory 11 Data, such as the implementation of AI-based key contract clause extraction program 01, etc.
  • CPU central processing unit
  • controller microcontroller
  • microprocessor or other data processing chip, for running program codes or processing stored in the memory 11 Data, such as the implementation of AI-based key contract clause extraction program 01, etc.
  • the communication bus 13 is used to realize the connection and communication between these components.
  • the network interface 14 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface), and is usually used to establish a communication connection between the electronic device 1 and other electronic devices.
  • a standard wired interface and a wireless interface such as a WI-FI interface
  • the electronic device 1 may also include a user interface.
  • the user interface may include a display (Display) and an input unit such as a keyboard (Keyboard).
  • the optional user interface may also include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light-emitting diode) touch device, etc.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the electronic device 1 and to display a visualized user interface.
  • FIG. 2 only shows the electronic device 1 with components 11-14 and the key contract clause extraction program 01 based on artificial intelligence.
  • FIG. 1 does not constitute an electronic device 1 Limited, it may include fewer or more components than shown, or a combination of certain components, or a different component arrangement.
  • the memory 11 stores the artificial intelligence-based key contract clause extraction program 01; the processor 12 executes the artificial intelligence-based key contract clause extraction program 01 stored in the memory 11 to implement The following steps:
  • Step 1 Receive the contract text, and perform preprocessing operations of removing stop words and word segmentation on the contract text to obtain a standard contract text.
  • the stop words are words that have no practical meaning in the function words of the text data, and have no effect on the classification of the text, but the frequency of occurrence is high, so it will cause the effect of text classification.
  • the stop words include commonly used pronouns. , Prepositions, etc., for example, the commonly used stop words are " ⁇ ", " ⁇ ", "But” and so on.
  • this application uses a pre-built stop word list to match the words in the contract text one by one to obtain the contract text and the stop words in it, and delete the stop words,
  • the pre-built stop vocabulary list is downloaded through a web page.
  • the word segmentation in this application includes: matching the words of the contract text after removing the stop words with the entries in the dictionary through a preset strategy to obtain the characteristic words of the contract text, and The characteristic words are separated by space symbols, and the word segmentation operation is completed, thereby obtaining the standard contract text.
  • the preset strategy is the forward maximum matching method. The idea of the forward maximum matching method is to match several consecutive characters in the text to be segmented with the vocabulary from left to right. If the matching is successful, then Cut out a word.
  • Step 2 Use a keyword extraction algorithm to extract a keyword set in the standard contract text, and convert the keyword set into a word vector set to obtain a keyword vector set.
  • the keyword extraction algorithm includes:
  • f grav (W i, W j) represents the feature words W i and W j of gravity
  • tfidf (W i) represents a TF-IDF value of the characteristic word W i is
  • tfidf (W j) represents the feature words W j of TF -IDF value
  • TF means word frequency
  • IDF means inverse document frequency index
  • d is the Euclidean distance between the word vectors of feature words W i and W j;
  • the correlation strength between the feature words W i and W j is:
  • the keyword set in the standard contract text set is obtained.
  • this application uses one hot representation (one hot) to convert the keyword set into a word vector for representation.
  • the one-hot representation is a basic method of vector representation of words.
  • a dictionary is constructed by extracting all the words in the corpus, and each word in it is represented by a word vector, and the dimension of the vector is equal to the size of the dictionary. And in the vector, only the value of the dimension corresponding to the current word is 1, and the values of the other dimensions are all 0.
  • this application converts the dimensions of all keyword sets to 1, and the dimensions of the remaining words are 0, thus performing word vector representation , To obtain the keyword vector set.
  • Step 3 Obtain a predetermined text set of key contract clauses from the contract clause information database, and convert the text set of key contract clauses into a text word vector set.
  • the contract clause information database is a database composed of contract materials obtained from different companies and contract materials downloaded from professional contract websites.
  • the predetermined key contract terms include: transaction amount, transaction time, transaction method, transaction object, and so on.
  • the above-mentioned keyword set is converted into a word vector set to convert the text set of key contract clauses into the text word vector set.
  • Step 4 Input the keyword vector set and the text word vector set into the pre-built smart contract key clause extraction model to obtain the similarity set between the keyword vector set and the text word vector set, when When there is a similarity greater than a preset threshold in the similarity set, the corresponding keyword vector is used as the key clause of the contract text, and the key clause is output through the output layer of the smart contract key clause extraction model, and Highlight the key clauses in a preset manner, and complete the extraction of the key clauses of the contract text.
  • the pre-built smart contract key clause extraction model includes: an input layer, a convolutional neural network (Convolutional Neural Networks, CNN), and an output layer.
  • the CNN is a feed-forward neural network. Its artificial neurons can respond to a part of the surrounding units in the coverage area. Its basic structure includes two layers. One is the feature extraction layer. The input of each neuron is the same as the previous layer. The local receptive fields are connected, and the local features are extracted. Once the local feature is extracted, its positional relationship with other features is also determined; the second is the feature mapping layer, each computing layer of the network is composed of multiple feature maps, and each feature map is a plane. The weights of all neurons on the plane are equal.
  • the CNN includes: a convolutional layer, a pooling layer, and a fully connected layer.
  • the keyword vector set and the text word vector set are input into the input layer, and the keyword vector set and the text word vector set are processed through the convolutional layer.
  • Dimensionality reduction processing using the pooling layer to extract feature vectors of the keyword vector set and the text word vector set after the dimensionality reduction processing, and calculating the feature vector after the extraction of the feature vector through the fully connected layer
  • the similarity between the keyword vector set and the text word vector set thereby obtaining the similarity set.
  • this application uses the corresponding keyword vector as the key clause of the contract text, and outputs the corresponding keyword through the output layer Vector to complete the extraction of the key terms of the contract text.
  • the similarity of the preset threshold in this application is 0.8
  • the calculation method of the similarity includes:
  • TP S is the standard vector set of keyword feature vector, TP T vector set for said text word feature vectors.
  • the highlighting of the key terms in the preset manner may include, for example, displaying the key terms in bold, underlined, and marked in different colors.
  • the device 100 for extracting key contract clauses based on artificial intelligence includes a text processing module 10, a text conversion module 20, The extraction module 30 exemplarily:
  • the text processing module 10 is configured to receive the contract text, and perform preprocessing operations of removing stop words and word segmentation on the contract text to obtain a standard contract text.
  • the text conversion module 20 is used to extract a keyword set in the standard contract text using a keyword extraction algorithm, and convert the keyword set into a word vector set to obtain a keyword vector set, and obtain the keyword vector set from the contract clause information
  • the library obtains a text set of predetermined key contract clauses, and converts the text set of the key contract clauses into a text word vector set.
  • the extraction module 30 is configured to input the keyword vector set and the text word vector set into a pre-built smart contract key clause extraction model to obtain the similarity between the keyword vector set and the text word vector set Degree set, when there is a similarity greater than a preset threshold in the similarity set, the corresponding keyword vector is used as the key clause of the contract text, and the output layer of the smart contract key clause extraction model is used to output the Key clauses, and highlight the key clauses in a preset manner to complete the extraction of the key clauses of the contract text.
  • the embodiments of the present application also propose a computer-readable storage medium.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer-readable storage medium stores an artificial intelligence-based A program for extracting key terms of a contract.
  • the program for extracting key terms of a contract based on artificial intelligence can be executed by one or more processors to achieve the following operations:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种人工智能技术,揭露了一种基于人工智能的合同关键条款提取方法,包括:接收合同文本,对所述合同文本进行预处理操作,得到标准合同文本,提取所述标准合同文本中的关键词集,将所述关键词集转换为词向量集,得到关键词向量集;获取预先确定的关键合同条款的文本集,将所述文本集转换为文本词向量集;将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款。还提出一种电子设备以及一种计算机可读存储介质。实现了合同关键条款的高效提取。

Description

基于人工智能的合同关键条款提取方法、装置及存储介质
本申请要求于2019年9月16日提交中国专利局、申请号为CN 201910873470.1、发明名称为“基于人工智能的合同关键条款提取方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的合同关键条款提取方法、装置、电子设备及存储介质。
背景技术
随着网络时代的到来,在线合同文本开始涌现且其数量每天仍在急剧增加,面对如此浩大的合同文本的信息资源,有效地提取所述合同文本的关键条款显得十分重要。发明人意识到在当前的商业合同中,其合同条款众多,但大多数都是格式化或者模板化的条款,对于合同中的重要信息条款没有突出显示,不利于合同的理解和认知。因此如何更高效地对合同文本的关键条款进行提取成为当今一大难题。
发明内容
本申请实施例提供一种基于人工智能的合同关键条款提取方法、装置及存储介质。
本申请提供的一种基于人工智能的合同关键条款提取方法,包括:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请还提供一种电子设备,该设备包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序被所述处理器执行时实现如下步骤:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在 大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或者多个处理器执行,以实现如下步骤:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请还提供一种基于人工智能的合同关键条款提取装置,包括:
文本处理模块,用于接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
文本转换模块,用于利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集,从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
提取模块,用于将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
附图说明
图1为本申请一实施例提供的基于人工智能的合同关键条款提取方法的流程示意图;
图2为本申请一实施例提供的电子设备的内部结构示意图;
图3为本申请一实施例提供的基于人工智能的合同关键条款提取装置的示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种基于人工智能的合同关键条款提取方法。参照图1所示,为本申请一实施例提供的基于人工智能的合同关键条款提取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于人工智能的合同关键条款提取方法包括:
S1、接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。较佳地,本申请通过预先构建 好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本及中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
进一步地,本申请中所述分词包括:通过预设的策略将去停用词后的所述合同文本的字词与词典中的词条进行匹配,得到所述合同文本的特征词,并将所述特征词用空格符号隔开,完成所述分词操作,从而得到所述标准合同文本。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配成功,则切分出一个词。
S2、利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集。
本申请较佳实施例中,所述关键词提取算法包括:
计算所述标准合同文本中任意两个特征词W i和W j的依存关联度:
Figure PCTCN2020098950-appb-000001
其中,Dep(W i,W j)表示所述特征词W i和W j的依存关联度,len(W i,W j)表示所述特征词W i和W j之间的依存路径长度,b是超参数;
计算所述特征词W i和W j的引力:
Figure PCTCN2020098950-appb-000002
其中,f grav(W i,W j)表示特征词W i和W j的引力,tfidf(W i)表示特征词W i的TF-IDF值,tfidf(W j)表示特征词W j的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词W i和W j的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词W i和W j之间的关联强度为:
weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
根据所述关联强度计算出所述特征词W i的重要度得分:
Figure PCTCN2020098950-appb-000003
其中,
Figure PCTCN2020098950-appb-000004
是与顶点W i有关的集合,η为阻尼系数。
根据所述特征词的重要度得分,从而得到所述标准合同文本集中的关键词集。
较佳地,本申请通过利用独热表示(one hot)将所述关键词集转换为词向量进行表示。其中,所述独热表示是词的向量表示的一种基本方法,通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,据此,本申请将所有关键词集的维度转化为1,其余词的维度为0,从而进行词向量表示,得到所述关键词向量集。
S3、从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
本申请较佳实施例中,所述合同条款信息库是由从不同企业获取的合同资料以及从专业合同网站下载的合同资料所组合而成的数据库。所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象等等。
较佳地,本申请中采用上述关键词集转换为词向量集的方式,将关键合同条款的文本集转换为所述文本词向量集。
S4、将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请较佳实施例中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络(Convolutional Neural Networks,CNN)以及输出层。所述CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。较佳地,本申请中,所述CNN包括:卷积层、池化层以及全连接层。
较佳地,本申请中将所述关键词向量集与所述文本词向量集输入至所述输入层中,通过所述卷积层对所述关键词向量集与所述文本词向量集进行降维处理,利用所述池化层对降维处理后的所述关键词向量集与所述文本词向量集进行特征向量的提取,并通过所述全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。其中,当关键词向量与文本词向量的相似度大于预设阈值的相似度时,本申请将对应的关键词向量作为合同文本的关键条款,并通过所述输出层输出所述对应的关键词向量,从而完成所述合同文本关键条款的提取。较佳地,本申请中所述预设阈值的相似度为0.8,其中,所述相似度的计算方法包括:
Sim topic=Pearson(TP S,TP T)
其中,TP S为所述标准关键词向量集中的特征向量,TP T为所述文本词向量集中的特征向量。
所述预设方式突出显示所述关键条款可以包括例如,将所述关键条款加粗显示、加下划线显示、标注不同的颜色显示等。
本申请还提供一种电子设备。参照图2所示,为本申请一实施例提供的电子设备的内部结构示意图。
在本实施例中,所述电子设备1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该电子设备1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的合同关键条款提取程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于人工智能的合同关键条款提取程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可 以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及基于人工智能的合同关键条款提取程序01的电子设备1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的电子设备1实施例中,存储器11中存储有基于人工智能的合同关键条款提取程序01;处理器12执行存储器11中存储的基于人工智能的合同关键条款提取程序01时实现如下步骤:
步骤一、接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。较佳地,本申请通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本及中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
进一步地,本申请中所述分词包括:通过预设的策略将去停用词后的所述合同文本的字词与词典中的词条进行匹配,得到所述合同文本的特征词,并将所述特征词用空格符号隔开,完成所述分词操作,从而得到所述标准合同文本。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配成功,则切分出一个词。
步骤二、利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集。
本申请较佳实施例中,所述关键词提取算法包括:
计算所述标准合同文本中任意两个特征词W i和W j的依存关联度:
Figure PCTCN2020098950-appb-000005
其中,Dep(W i,W j)表示所述特征词W i和W j的依存关联度,len(W i,W j)表示所述特征词W i和W j之间的依存路径长度,b是超参数;
计算所述特征词W i和W j的引力:
Figure PCTCN2020098950-appb-000006
其中,f grav(W i,W j)表示特征词W i和W j的引力,tfidf(W i)表示特征词W i的TF-IDF值,tfidf(W j)表示特征词W j的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词W i和W j的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词W i和W j之间的关联强度为:
weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
根据所述关联强度计算出所述特征词W i的重要度得分:
Figure PCTCN2020098950-appb-000007
其中,
Figure PCTCN2020098950-appb-000008
是与顶点W i有关的集合,η为阻尼系数。
根据所述特征词的重要度得分,从而得到所述标准合同文本集中的关键词集。
较佳地,本申请通过利用独热表示(one hot)将所述关键词集转换为词向量进行表示。其中,所述独热表示是词的向量表示的一种基本方法,通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中 只有当前词对应的维度的值是1,其余维度的值全部为0,据此,本申请将所有关键词集的维度转化为1,其余词的维度为0,从而进行词向量表示,得到所述关键词向量集。
步骤三、从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
本申请较佳实施例中,所述合同条款信息库是由从不同企业获取的合同资料以及从专业合同网站下载的合同资料所组合而成的数据库。所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象等等。
较佳地,本申请中采用上述关键词集转换为词向量集的方式,将关键合同条款的文本集转换为所述文本词向量集。
步骤四、将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请较佳实施例中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络(Convolutional Neural Networks,CNN)以及输出层。所述CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。较佳地,本申请中,所述CNN包括:卷积层、池化层以及全连接层。
较佳地,本申请中将所述关键词向量集与所述文本词向量集输入至所述输入层中,通过所述卷积层对所述关键词向量集与所述文本词向量集进行降维处理,利用所述池化层对降维处理后的所述关键词向量集与所述文本词向量集进行特征向量的提取,并通过所述全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。其中,当关键词向量与文本词向量的相似度大于预设阈值的相似度时,本申请将对应的关键词向量作为合同文本的关键条款,并通过所述输出层输出所述对应的关键词向量,从而完成所述合同文本关键条款的提取。较佳地,本申请中所述预设阈值的相似度为0.8,其中,所述相似度的计算方法包括:
Sim topic=Pearson(TP S,TP T)
其中,TP S为所述标准关键词向量集中的特征向量,TP T为所述文本词向量集中的特征向量。
所述预设方式突出显示所述关键条款可以包括例如,将所述关键条款加粗显示、加下划线显示、标注不同的颜色显示等。
参照图3所示,为本申请基于人工智能的合同关键条款提取装置100的示意图,该实施例中,所述基于人工智能的合同关键条款提取装置100包括文本处理模块10、文本转换模块20、提取模块30示例性地:
所述文本处理模块10用于:接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述文本转换模块20用于:利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集,从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
所述提取模块30用于将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当 所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
上述文本处理模块10、文本转换模块20、提取模块30等模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或多个处理器执行,以实现如下操作:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本申请计算机可读存储介质具体实施方式与上述电子设备和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于人工智能的合同关键条款提取方法,其中,所述方法包括:
    接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
    利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
    从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
    将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
  2. 如权利要求1所述的基于人工智能的合同关键条款提取方法,其中,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
    通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
    通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
  3. 如权利要求2所述的基于人工智能的合同关键条款提取方法,其中,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
    计算所述标准合同文本中任意两个特征词W i和W j的依存关联度:
    Figure PCTCN2020098950-appb-100001
    其中,Dep(W i,W j)表示所述特征词W i和W j的依存关联度,len(W i,W j)表示所述特征词W i和W j之间的依存路径长度,b是超参数;
    计算所述特征词W i和W j的引力:
    Figure PCTCN2020098950-appb-100002
    其中,f grav(W i,W j)表示特征词W i和W j的引力,tfidf(W i)表示特征词W i的TF-IDF值,tfidf(W j)表示特征词W j的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词W i和W j的词向量之间的欧式距离;
    根据所述依存关联度和所述引力得到所述特征词W i和W j之间的关联强度为:
    weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
    根据所述关联强度计算出所述特征词W i的重要度得分:
    Figure PCTCN2020098950-appb-100003
    其中,
    Figure PCTCN2020098950-appb-100004
    是与顶点W i有关的集合,η为阻尼系数;
    根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
  4. 如权利要求1至3中任意一项所述的基于人工智能的合同关键条款提取方法,其中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络以及输出层,所述卷积神经网络包括:卷积层、池化层以及全连接层。
  5. 如权利要求1至3中任意一项所述的基于人工智能的合同关键条款提取方法,其中,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
    通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
    利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
    通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
  6. 如权利要求5所述的基于人工智能的合同关键条款提取方法,其中,所述计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度包括:
    Sim topic=Pearson(TP S,TP T)
    其中,TP S为所述关键词向量集中的特征向量,TP T为所述文本词向量集中的特征向量。
  7. 如权利要求1至3中任意一项所述的基于人工智能的合同关键条款提取方法,其中,所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象。
  8. 一种电子设备,其中,所述设备包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序被所述处理器执行时实现如下步骤:
    接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
    利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
    从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
    将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
  9. 如权利要求8所述的电子设备,其中,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
    通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
    通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
  10. 如权利要求9所述的电子设备,其中,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
    计算所述标准合同文本中任意两个特征词W i和W j的依存关联度:
    Figure PCTCN2020098950-appb-100005
    其中,Dep(W i,W j)表示所述特征词W i和W j的依存关联度,len(W i,W j)表示所述特征词W i和W j之间的依存路径长度,b是超参数;
    计算所述特征词W i和W j的引力:
    Figure PCTCN2020098950-appb-100006
    其中,f grav(W i,W j)表示特征词W i和W j的引力,tfidf(W i)表示特征词W i的TF-IDF值,tfidf(W j)表示特征词W j的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词W i和W j的词向量之间的欧式距离;
    根据所述依存关联度和所述引力得到所述特征词W i和W j之间的关联强度为:
    weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
    根据所述关联强度计算出所述特征词W i的重要度得分:
    Figure PCTCN2020098950-appb-100007
    其中,
    Figure PCTCN2020098950-appb-100008
    是与顶点W i有关的集合,η为阻尼系数;
    根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
  11. 如权利要求8至10中任意一项所述的电子设备,其中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络以及输出层,所述卷积神经网络包括:卷积层、池化层以及全连接层。
  12. 如权利要求8至10中任意一项所述的电子设备,其中,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
    通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
    利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
    通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
  13. 如权利要求12所述的电子设备,其中,所述计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度包括:
    Sim topic=Pearson(TP S,TP T)
    其中,TP S为所述关键词向量集中的特征向量,TP T为所述文本词向量集中的特征向量。
  14. 如权利要求8至10中任意一项所述的电子设备,其中,所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或者多个处理器执行,以实现如下步骤:
    接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
    利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
    从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
    将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
  16. 如权利要求15所述的计算机可读存储介质,其中,所述对所述合同文本进行去 停用词和分词的预处理操作,得到标准合同文本,包括:
    通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
    通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
    计算所述标准合同文本中任意两个特征词W i和W j的依存关联度:
    Figure PCTCN2020098950-appb-100009
    其中,Dep(W i,W j)表示所述特征词W i和W j的依存关联度,len(W i,W j)表示所述特征词W i和W j之间的依存路径长度,b是超参数;
    计算所述特征词W i和W j的引力:
    Figure PCTCN2020098950-appb-100010
    其中,f grav(W i,W j)表示特征词W i和W j的引力,tfidf(W i)表示特征词W i的TF-IDF值,tfidf(W j)表示特征词W j的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词W i和W j的词向量之间的欧式距离;
    根据所述依存关联度和所述引力得到所述特征词W i和W j之间的关联强度为:
    weight(W i,W j)=Dep(W i,W j)*f grav(W i,W j)
    根据所述关联强度计算出所述特征词W i的重要度得分:
    Figure PCTCN2020098950-appb-100011
    其中,
    Figure PCTCN2020098950-appb-100012
    是与顶点W i有关的集合,η为阻尼系数;
    根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
  18. 如权利要求15至17中任意一项所述的计算机可读存储介质,其中,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
    通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
    利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
    通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度包括:
    Sim topic=Pearson(TP S,TP T)
    其中,TP S为所述关键词向量集中的特征向量,TP T为所述文本词向量集中的特征向量。
  20. 一种基于人工智能的合同关键条款提取装置,其中,包括:
    文本处理模块,用于接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
    文本转换模块,用于利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集,从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
    提取模块,用于将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
PCT/CN2020/098950 2019-09-16 2020-06-29 基于人工智能的合同关键条款提取方法、装置及存储介质 WO2021051934A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910873470.1 2019-09-16
CN201910873470.1A CN110765765B (zh) 2019-09-16 2019-09-16 基于人工智能的合同关键条款提取方法、装置及存储介质

Publications (1)

Publication Number Publication Date
WO2021051934A1 true WO2021051934A1 (zh) 2021-03-25

Family

ID=69329488

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/098950 WO2021051934A1 (zh) 2019-09-16 2020-06-29 基于人工智能的合同关键条款提取方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN110765765B (zh)
WO (1) WO2021051934A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743802A (zh) * 2021-09-08 2021-12-03 平安信托有限责任公司 工单智能匹配方法、装置、电子设备及可读存储介质
CN116070641A (zh) * 2023-03-13 2023-05-05 北京点聚信息技术有限公司 一种电子合同的在线解读方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666408A (zh) * 2020-05-26 2020-09-15 中国工商银行股份有限公司 重要条款筛选与展示的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091320A1 (en) * 2015-09-01 2017-03-30 Panjiva, Inc. Natural language processing for entity resolution
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
US9600231B1 (en) * 2015-03-13 2017-03-21 Amazon Technologies, Inc. Model shrinking for embedded keyword spotting
US11822605B2 (en) * 2016-10-24 2023-11-21 Koninklijke Philips N.V. Multi domain real-time question answering system
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107506347A (zh) * 2017-07-22 2017-12-22 长沙兔子代跑网络科技有限公司 一种智能获取代跑聊天记录的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091320A1 (en) * 2015-09-01 2017-03-30 Panjiva, Inc. Natural language processing for entity resolution
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743802A (zh) * 2021-09-08 2021-12-03 平安信托有限责任公司 工单智能匹配方法、装置、电子设备及可读存储介质
CN116070641A (zh) * 2023-03-13 2023-05-05 北京点聚信息技术有限公司 一种电子合同的在线解读方法

Also Published As

Publication number Publication date
CN110765765A (zh) 2020-02-07
CN110765765B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
US10275533B2 (en) Search engine and method for implementing the same
WO2021051934A1 (zh) 基于人工智能的合同关键条款提取方法、装置及存储介质
WO2021068329A1 (zh) 中文命名实体识别方法、装置及计算机可读存储介质
WO2020253042A1 (zh) 情感智能判断方法、装置及计算机可读存储介质
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
WO2020119063A1 (zh) 专家知识推荐方法、装置、计算机设备及存储介质
WO2021051871A1 (zh) 文本抽取方法、装置、设备及存储介质
US9507867B2 (en) Discovery engine
CN110222160A (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
WO2021052148A1 (zh) 基于人工智能的合同敏感词校验方法、装置、计算机设备及存储介质
WO2021000391A1 (zh) 文本智能化清洗方法、装置及计算机可读存储介质
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
WO2020258481A1 (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
WO2020253043A1 (zh) 智能文本分类方法、装置及计算机可读存储介质
WO2021175005A1 (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN110569350B (zh) 法条推荐方法、设备和存储介质
WO2021068565A1 (zh) 表格智能查询方法、装置、电子设备及计算机可读存储介质
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
WO2021043088A1 (zh) 文件查询方法、装置、计算机设备及存储介质
CN110674635B (zh) 一种用于文本段落划分的方法和装置
WO2021042529A1 (zh) 文章摘要自动生成方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20866040

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20866040

Country of ref document: EP

Kind code of ref document: A1