WO2020253506A1 - 合同内容的提取方法及装置、计算机设备、存储介质 - Google Patents
合同内容的提取方法及装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- WO2020253506A1 WO2020253506A1 PCT/CN2020/093511 CN2020093511W WO2020253506A1 WO 2020253506 A1 WO2020253506 A1 WO 2020253506A1 CN 2020093511 W CN2020093511 W CN 2020093511W WO 2020253506 A1 WO2020253506 A1 WO 2020253506A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- contract
- text
- word segmentation
- classified
- probability
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Abstract
本申请实施例提供了一种合同内容的提取方法及装置、计算机设备、存储介质。一方面,该方法包括:确定待识别的目标合同文本;使用识别模型识别所述目标合同文本的合同类型;根据所述合同类型提取所述目标合同文本中的指定条款内容。通过本申请,解决了现有技术中大规模提取合同内容时效率低的技术问题。
Description
本申请申明享有2019年6月20日递交的申请号为201910534911.5、名称为“合同内容的提取方法及装置、计算机设备、存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
本申请涉及人工智能领域,尤其涉及一种合同内容的提取方法及装置、计算机设备、存储介质。
文本识别是人工智能中的常见操作,可以代替人工筛选文件文本,提高工作效率。
现有技术中,暂无相关的合同条款自动识别和分类的产品,只有针对于标准模板的合同文本,通过其固定格式来分类,很少有智能化的合同分类产品,这需要待识别文本必须是统一的格式,这在复杂的大数据处理和分析过程中几乎是不可能的。
发明人发现,针对不同类型或者未知类型的合同文本,只能通过人工将文本划分为一个个文本块,再到已知的文本块中提取内容,这需要大量的人工介入,严重影响工作效率。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
有鉴于此,本申请实施例提供了一种合同内容的提取方法及装置、计算机设备、存储介质。
一方面,本申请实施例提供了一种合同内容的提取方法,所述方法包括:确定待识别的目标合同文本;使用识别模型识别所述目标合同文本的合同类型;根据所述合同类型提取所述目标合同文本中的指定条款内容。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以下步骤的操作:
确定待识别的目标合同文本;
使用识别模型识别所述目标合同文本的合同类型;
根据所述合同类型提取所述目标合同文本中的指定条款内容。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行以下步骤的操作:
确定待识别的目标合同文本;
使用识别模型识别所述目标合同文本的合同类型;
根据所述合同类型提取所述目标合同文本中的指定条款内容。
通过本申请,在确定待识别的目标合同文本后,使用识别模型识别所述目标合同文本的合同类型,进而根据合同类型提取目标合同文本中的指定条款内容,解决了现有技术中大规模提取合同内容时效率低的技术问题,基于人工智能的识别模型可以识别多个类型的合同的模型,可以学习和适应任意格式的合同文本,节省人力资源成本,机器的分类效率更高更准确。
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的一种合同内容的提取计算机终端的硬件结构框图;
图2是根据本申请实施例的合同内容的提取方法的流程图;
图3是本申请实施例训练识别模型的流程图;
图4是根据本申请实施例的合同内容的提取装置的结构框图。
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本申请实施例的一种合同内容的提取计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的合同内容的提取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种合同内容的提取方法,图2是根据本申请实施例的合同内容的提取方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,确定待识别的目标合同文本;
本实施例的合同是当事双方之间设立、变更、终止民事关系的协议,合同文本即协议形成的书面或电子文本。
步骤S204,使用识别模型识别所述目标合同文本的合同类型;
合同类型指合同所述的行业或法条,不同类型的合同,其协议的内容不同,合同条款也不同,同一类型的合同文本的文本格式相同,本实施例的合同类型包括劳动合同,买卖合同,赠与合同,借款合同,租赁合同,建设工程合同等。
步骤S206,根据所述合同类型提取所述目标合同文本中的指定条款内容。
通过本实施例的方案,在确定待识别的目标合同文本后,使用识别模型识别所述目标合同文本的合同类型,进而根据合同类型提取目标合同文本中的指定条款内容,解决了现有技术中大规模提取合同内容时效率低的技术问题,基于人工智能的识别模型可以识别多个类型的合同的模型,可以学习和适应任意格式的合同文本,节省人力资源成本,机器的分类效率更高更准确。
本实施例的识别模型可以是通过训练得到的,也可以是设置好的。在训练使用的样本集合中,使用的单个样本为合同文本,并且已知合同文本的合同类型,并对其进行提前人工标识,在训练过程中,识别模型的输入为目标合同文本,输出为该目标合同文本的合同类型。
在使用识别模型识别所述目标合同文本的合同类型之前,还需要在本地使用样本训练识别模型,图3是本申请实施例训练识别模型的流程图,如图3所示,包括:
S302,对样本集合中的每个待分类合同进行分词,设置每个分词的类型属性,并计算每个分词的特征向量;
可选的,在对样本集合中的每个待分类合同进行分词之后,还包括:获取各个分词在合同领域中的使用频率;选择使用频率大于预设阈值的分词,并将其确定为符合条件的分词。使用频率是指使用热度,使用热度越高,使用频率也越高。
在本实施例的一个优选方案中,还需要去掉待分类文本中无意义的分词词语,这些词语使用频率高但无实际意义,是多个类型的合同文本的通用词语,剔除后不会影响识别模型的性能,但是会减少样本数据的处理量,提升训练效率,在获取各个分词在合同领域中的使用频率之前,还包括:剔除分词中词性为形容词、副词、以及语气词的分词。
在得到符合条件的分词集合后,对待分类文本中出现的每一个分词(文字或词语)si按照类型属性w进行分类,属于wn的分词为sn;其中wn为分词的类型属性。具体采用信息熵将每个分词量化为特征向量。
S304,计算每个待分类合同在样本集合中的先验概率;
在本实施例的一个实施方式中,计算每个待分类合同在样本集合中的先验概率包括:在训练文本集Di中查找s1,...,sn,计算出P (w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn),N(y1,...yn)除以训练文本 集Di中经过剔除无意义词预处理之后关键字的总数量,得到P(w1,...,wn)在训练文本集Di 中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)确定为P(w1,...,wn)在训练文本集 Di中每个分词wn出现的先验概率P(w|Di),其中P(wn)为:训练文本集Di中属性为wn的分词, N(yn)为:属性wn在训练文本集Di中出现的次数;Q(wn)
为:属性wn在训练文本集Di中出现的次数。
S306,使用所述先验概率计算每个待分类合同的后验概率;
在本实施例的一个实施方式中,使用所述先验概率计算每个待分类合同的后验概率包括:将所有分词的先验概率进行加权求和,得到所有待分类文本的先验概率P(Di);将P (Di)*P(xi|Di)得到的P(w1,...,wn)确定为在训练文本集Di中的后验概率P(Di|w),其中,P(xi|Di)为:Di发生时 xi发生的概率,xi 为合同类型为i的合同文本。
由于在P(x|Di)=0时,当某个类别下某个特征项没有出现时,就会产生这种现象,这会令分类器质量大大降低。为了解决这个问题,引入Laplace校准,对每类别下项目数(合同文本数)的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且避免了上述频率为0的场景。
本实施例方案的实现基于朴素贝叶斯原理:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你猜这哥们哪里来的,你十有八九猜非洲。为什么呢,因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
S308,在所述识别模型中建立每个合同类型与后验概率的对应关系。
在本实施例中,使用识别模型识别所述目标合同文本的合同类型包括,使用训练得到的识别模型,进行自动分类。将各个类型的合同文本进行语义分词,转换为特征向量,将特征向量输入到识别模型,识别模型对其进行识别,可以得到每个合同文本为某个类别的概率,输出各个类型的合同文本的类型标识,选择概率最高的作为最终的模型。
在一个示例中,买卖合同,赠与合同,借款合同的类型标识分别为00,01,02,通过识别模型计算,输出的概率分别为:45%,47%,86%,则输出02。合同类型不限于此,合同的类型还可以包括:买卖合同,赠与合同,借款合同,租赁合同,建设工程合同等。
可选的,根据所述合同类型提取所述目标合同文本中的指定条款内容包括:在预设数据库中查找与所述合同类型对应的文本布局模板;按照所述文本布局模板的排版样式在所述目标合同文本的指定位置提取条款内容。根据该类别标识,去指定位置去提取条款内容,不同类型的合同文本所包含的条款不同,即使包括同样的条款,条款在合同文本中的位置也不同。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
在本实施例中还提供了一种合同内容的提取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的合同内容的提取装置的结构框图,如图4所示,该装置包括:
确定模块40,用于确定待识别的目标合同文本;
识别模块42,用于使用识别模型识别所述目标合同文本的合同类型;
提取模块44,用于根据所述合同类型提取所述目标合同文本中的指定条款内容。
可选的,所述装置还包括:分词模块,用于在所述识别模块使用识别模型识别所述目标合同文本的合同类型之前,对样本集合中的每个待分类合同进行分词,设置每个分词的类型属性,计算每个分词的特征向量;第一计算模块,用于计算每个待分类合同在样本集合中的先验概率;第二计算模块,用于使用所述先验概率计算每个待分类合同的后验概率;构建模块,用于在所述识别模型中建立每个合同类型与后验概率的对应关系。
可选的,所述分词模块还包括:获取单元,用于在对样本集合中的每个待分类合同进行分词之后,获取各个分词在合同领域中的使用频率;确定单元,用于选择使用频率大于预设阈值的分词,并将其确定为符合条件的分词。
可选的,所述分词模块还包括:剔除单元,用于在所述获取单元获取各个分词在合同领域中的使用频率之前,剔除分词中词性为形容词、副词、以及语气词的分词。
可选的,所述第一计算模块包括:第一计算单元,用于在训练文本集Di中查找s1,...,sn,计算出P
(w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn);第二计算单元,用于将N(y1,...yn)除以训练文本集Di中的分词总数量,得到P(w1,...,wn)在训练文本集Di 中出现的概率集Q(w1,...,wn);确定单元,用于将Q(w1,...,wn)确定为P(w1,...,wn)在训练文本集 Di中每个分词wn出现的先验概率P(w|Di),其中P(wn)为:训练文本集Di中属性为wn的分词, N(yn)为:属性wn在训练文本集Di中出现的次数;Q(wn)
为:属性wn在训练文本集Di中出现的次数。
可选的,所述第二计算模块包括:计算单元,用于将训练文本集Di中的文件数量除以整个训练文本集的总数得到先验概率P(Di),确定单元,用于将P (Di)*P(xi|Di)得到的P(w1,...,wn)确定为在训练文本集Di中的后验概率P(Di|w),其中,P(xi|Di)为:Di发生时 xi发生的概率,xi 为合同类型为i的合同文本。
可选的,所述提取模块包括:查找单元,用于在预设数据库中查找与所述合同类型对应的文本布局模板;提取单元,用于按照所述文本布局模板的排版样式在所述目标合同文本的指定位置提取条款内容。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤,所述计算机可读存储介质可以是非易失性,也可以是易失性。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,确定待识别的目标合同文本;
S2,使用识别模型识别所述目标合同文本的合同类型;
S3,根据所述合同类型提取所述目标合同文本中的指定条款内容。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,确定待识别的目标合同文本;
S2,使用识别模型识别所述目标合同文本的合同类型;
S3,根据所述合同类型提取所述目标合同文本中的指定条款内容。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (20)
- 一种合同内容的提取方法,其中,所述方法包括:确定待识别的目标合同文本;使用识别模型识别所述目标合同文本的合同类型;根据所述合同类型提取所述目标合同文本中的指定条款内容。
- 根据权利要求1所述的方法,其中,在使用识别模型识别所述目标合同文本的合同类型之前,所述方法还包括:对样本集合中的每个待分类合同进行分词,设置每个分词的类型属性,计算每个分词的特征向量;计算每个待分类合同在样本集合中的先验概率;使用所述先验概率计算每个待分类合同的后验概率;在所述识别模型中建立每个合同类型与后验概率的对应关系。
- 根据权利要求2所述的方法,其中,在对样本集合中的每个待分类合同进行分词之后,所述方法还包括:获取各个分词在合同领域中的使用频率;选择使用频率大于预设阈值的分词,并将其确定为符合条件的分词。
- 根据权利要求2所述的方法,其中,在获取各个分词在合同领域中的使用频率之前,所述方法还包括剔除分词中词性为形容词、副词、以及语气词的分词。
- 根据权利要求2所述的方法,其中,计算每个待分类合同在样本集合中的先验概率包括:在训练文本集Di中查找s1,...,sn,计算出P (w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn);将N(y1,...yn)除以训练文本集Di中的分词总数量,得到P(w1,...,wn)在训练文本集Di 中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)确定为P(w1,...,wn)在训练文本集 Di中每个分词wn出现的先验概率P(w|Di),其中P(wn)为:训练文本集Di中属性为wn的分词, N(yn)为:属性wn在训练文本集Di中出现的次数;Q(wn) 为:属性wn在训练文本集Di中出现的次数。
- 根据权利要求2所述的方法,其中,使用所述先验概率计算每个待分类合同的后验概率包括:将所有分词的先验概率进行加权求和,得到所有待分类文本的先验概率P(Di);将P (Di)*P(xi|Di)得到的P(w1,...,wn)确定为在训练文本集Di中的后验概率P(Di|w),其中,P(xi|Di)为:Di发生时 xi发生的概率,xi 为合同类型为i的合同文本。
- 根据权利要求1所述的方法,其中,根据所述合同类型提取所述目标合同文本中的指定条款内容包括:在预设数据库中查找与所述合同类型对应的文本布局模板;按照所述文本布局模板的排版样式在所述目标合同文本的指定位置提取条款内容。
- 一种合同内容的提取装置,其中,所述装置包括:确定模块,用于确定待识别的目标合同文本;识别模块,用于使用识别模型识别所述目标合同文本的合同类型;提取模块,用于根据所述合同类型提取所述目标合同文本中的指定条款内容。
- 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现以下步骤的操作:确定待识别的目标合同文本;使用识别模型识别所述目标合同文本的合同类型;根据所述合同类型提取所述目标合同文本中的指定条款内容。
- 根据权利要求9所述的计算机设备,其中,在使用识别模型识别所述目标合同文本的合同类型之前,还包括:对样本集合中的每个待分类合同进行分词,设置每个分词的类型属性,计算每个分词的特征向量;计算每个待分类合同在样本集合中的先验概率;使用所述先验概率计算每个待分类合同的后验概率;在所述识别模型中建立每个合同类型与后验概率的对应关系。
- 根据权利要求10所述的计算机设备,其中,在对样本集合中的每个待分类合同进行分词之后,还包括:获取各个分词在合同领域中的使用频率;选择使用频率大于预设阈值的分词,并将其确定为符合条件的分词。
- 根据权利要求10所述的计算机设备,其中,在获取各个分词在合同领域中的使用频率之前,所述方法还包括剔除分词中词性为形容词、副词、以及语气词的分词。
- 根据权利要求10所述的计算机设备,其中,计算每个待分类合同在样本集合中的先验概率包括:在训练文本集Di中查找s1,...,sn,计算出P (w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn);将N(y1,...yn)除以训练文本集Di中的分词总数量,得到P(w1,...,wn)在训练文本集Di 中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)确定为P(w1,...,wn)在训练文本集 Di中每个分词wn出现的先验概率P(w|Di),其中P(wn)为:训练文本集Di中属性为wn的分词, N(yn)为:属性wn在训练文本集Di中出现的次数;Q(wn) 为:属性wn在训练文本集Di中出现的次数;或者,使用所述先验概率计算每个待分类合同的后验概率包括:将所有分词的先验概率进行加权求和,得到所有待分类文本的先验概率P(Di);将P (Di)*P(xi|Di)得到的P(w1,...,wn)确定为在训练文本集Di中的后验概率P(Di|w),其中,P(xi|Di)为:Di发生时 xi发生的概率,xi 为合同类型为i的合同文本。
- 根据权利要求9所述的计算机设备,其中,根据所述合同类型提取所述目标合同文本中的指定条款内容包括:在预设数据库中查找与所述合同类型对应的文本布局模板;按照所述文本布局模板的排版样式在所述目标合同文本的指定位置提取条款内容。
- 一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现以下步骤的操作:确定待识别的目标合同文本;使用识别模型识别所述目标合同文本的合同类型;根据所述合同类型提取所述目标合同文本中的指定条款内容。
- 根据权利要求15所述的计算机存储介质,其中,在使用识别模型识别所述目标合同文本的合同类型之前,还包括:对样本集合中的每个待分类合同进行分词,设置每个分词的类型属性,计算每个分词的特征向量;计算每个待分类合同在样本集合中的先验概率;使用所述先验概率计算每个待分类合同的后验概率;在所述识别模型中建立每个合同类型与后验概率的对应关系。
- 根据权利要求16所述的计算机存储介质,其中,在对样本集合中的每个待分类合同进行分词之后,还包括:获取各个分词在合同领域中的使用频率;选择使用频率大于预设阈值的分词,并将其确定为符合条件的分词。
- 根据权利要求16所述的计算机存储介质,其中,在获取各个分词在合同领域中的使用频率之前,所述方法还包括剔除分词中词性为形容词、副词、以及语气词的分词。
- 根据权利要求16所述的计算机存储介质,其中,计算每个待分类合同在样本集合中的先验概率包括:在训练文本集Di中查找s1,...,sn,计算出P (w1,...,wn)在训练文本集Di中出现的次数集N(y1,...yn);将N(y1,...yn)除以训练文本集Di中的分词总数量,得到P(w1,...,wn)在训练文本集Di 中出现的概率集Q(w1,...,wn);将Q(w1,...,wn)确定为P(w1,...,wn)在训练文本集 Di中每个分词wn出现的先验概率P(w|Di),其中P(wn)为:训练文本集Di中属性为wn的分词, N(yn)为:属性wn在训练文本集Di中出现的次数;Q(wn) 为:属性wn在训练文本集Di中出现的次数;或者,使用所述先验概率计算每个待分类合同的后验概率包括:将所有分词的先验概率进行加权求和,得到所有待分类文本的先验概率P(Di);将P (Di)*P(xi|Di)得到的P(w1,...,wn)确定为在训练文本集Di中的后验概率P(Di|w),其中,P(xi|Di)为:Di发生时 xi发生的概率,xi 为合同类型为i的合同文本。
- 根据权利要求15所述的计算机存储介质,其中,根据所述合同类型提取所述目标合同文本中的指定条款内容包括:在预设数据库中查找与所述合同类型对应的文本布局模板;按照所述文本布局模板的排版样式在所述目标合同文本的指定位置提取条款内容。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534911.5A CN110442842A (zh) | 2019-06-20 | 2019-06-20 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN201910534911.5 | 2019-06-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020253506A1 true WO2020253506A1 (zh) | 2020-12-24 |
Family
ID=68428235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/093511 WO2020253506A1 (zh) | 2019-06-20 | 2020-05-29 | 合同内容的提取方法及装置、计算机设备、存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110442842A (zh) |
WO (1) | WO2020253506A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN111078871A (zh) * | 2019-11-21 | 2020-04-28 | 深圳前海环融联易信息科技服务有限公司 | 一种基于人工智能的合同自动分类的方法及系统 |
CN111046629B (zh) * | 2019-12-16 | 2022-03-01 | 北大方正集团有限公司 | 大纲显示方法、装置及设备 |
CN111274782B (zh) * | 2020-02-25 | 2023-10-20 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN111814457A (zh) * | 2020-05-30 | 2020-10-23 | 国网上海市电力公司 | 一种电网工程合同文本生成方法 |
CN116306573A (zh) * | 2023-03-15 | 2023-06-23 | 广联达科技股份有限公司 | 工程做法的智能解析方法、装置、设备和可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
US20180114088A1 (en) * | 2016-10-24 | 2018-04-26 | Fujitsu Limited | Apparatus, method for character recognition, and non-transitory computer-readable storage medium |
CN108830443A (zh) * | 2018-04-19 | 2018-11-16 | 出门问问信息科技有限公司 | 一种合同审阅方法及装置 |
CN109190594A (zh) * | 2018-09-21 | 2019-01-11 | 广东蔚海数问大数据科技有限公司 | 光学字符识别系统及信息提取方法 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739985A (zh) * | 2018-12-26 | 2019-05-10 | 斑马网络技术有限公司 | 文本自动分类方法、设备及存储介质 |
-
2019
- 2019-06-20 CN CN201910534911.5A patent/CN110442842A/zh active Pending
-
2020
- 2020-05-29 WO PCT/CN2020/093511 patent/WO2020253506A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045825A (zh) * | 2015-06-29 | 2015-11-11 | 中国地质大学(武汉) | 一种结构扩展的多项式朴素贝叶斯文本分类方法 |
US20180114088A1 (en) * | 2016-10-24 | 2018-04-26 | Fujitsu Limited | Apparatus, method for character recognition, and non-transitory computer-readable storage medium |
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN108830443A (zh) * | 2018-04-19 | 2018-11-16 | 出门问问信息科技有限公司 | 一种合同审阅方法及装置 |
CN109190594A (zh) * | 2018-09-21 | 2019-01-11 | 广东蔚海数问大数据科技有限公司 | 光学字符识别系统及信息提取方法 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110442842A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020253506A1 (zh) | 合同内容的提取方法及装置、计算机设备、存储介质 | |
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
WO2020062660A1 (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN109635117B (zh) | 一种基于知识图谱识别用户意图方法及装置 | |
WO2021012570A1 (zh) | 数据录入方法、装置、设备及存储介质 | |
WO2020125445A1 (zh) | 分类模型训练方法、分类方法、设备及介质 | |
WO2020238054A1 (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
WO2021027595A1 (zh) | 用户画像生成方法、装置、计算机设备和计算机可读存储介质 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN108319888A (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN110889437B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
CN104064182A (zh) | 一种基于分类规则的语音识别系统及方法 | |
CN115248890B (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
WO2021114634A1 (zh) | 文本标注方法、设备及存储介质 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN115457329B (zh) | 图像分类模型的训练方法、图像分类方法和装置 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN108345905A (zh) | 多特征图片识别方法、装置及计算机可读存储介质 | |
CN103927399A (zh) | 一种信息推送方法及装置 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN114444514A (zh) | 语义匹配模型训练、语义匹配方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20826806 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20826806 Country of ref document: EP Kind code of ref document: A1 |