WO2022188821A1

WO2022188821A1 - 对文件进行自定义字段标引的处理方法、装置、服务器及系统

Info

Publication number: WO2022188821A1
Application number: PCT/CN2022/080011
Authority: WO
Inventors: 杨林林; 刘旭阳; 张鑫; 项晓露; 周志翔
Original assignee: 智慧芽信息科技(苏州)有限公司
Priority date: 2021-03-09
Filing date: 2022-03-09
Publication date: 2022-09-15
Also published as: CN113095039A

Abstract

本公开关于一种对文件进行自定义字段标引的处理方法、装置、服务器及系统、计算机程序产品。一个方法实施例中，可以将用户对文件进行自定义字段标引的多个步骤，转化为对自定义字段进行规则设定后基于触发指令自动完成标引，用户可以只要在一个页面操作即可完成标引工作，有效地简化操作步骤。并且，由于标引规则设定可以是提供给自定义字段下的所有子项，可以避免了在单个文件集合中重复地对同一类型自定义字段的不同子项逐一进行标引操作，可以实现一次规则设定，全局通用，降低了自定义字段的标引作业复杂性，减少人力资源消耗，提高标引处理效率，提高用户专利作业的服务使用体验。

Description

对文件进行自定义字段标引的处理方法、装置、服务器及系统

技术领域

本公开涉及专利数据处理的技术领域，尤其涉及一种对文件进行自定义字段标引的处理方法、装置、服务器及系统。

发明背景

目前，随着科技的不断创新与进步，专利申请的数量也越来越多。而专利资料的维护对业内专利申请方向、专利发展趋势、专利布局等具有重要的参考价值。

专利代理公司或专利申请、管理、运营等专利关联方(用户)维护专利数据时，通常需要对专利进行标引分类。目前一些相关技术中，用户可以自定义专利分类的字段(为便于描述，后续称为自定义字段)，利用自定义字段逐个或对某一个类别的专利进行标引。例如，某个用户建立了“科目”的下拉菜单的自定义字段，并给它创建了9个具体子菜单：语文，数学，英语，政治，历史，地理，物理，化学，生物。而用户的收藏夹里面有1万条需要打标的专利。用户需要在1万条专利中找到与“语文”相关的专利，如有900条，并且把这些专利打上“语文”标引。相关技术中，用户需要进入专利收藏夹，然后进入过滤页面，之后设置专利属性的检索式检索出需要标引的900条专利，再选择“语文”标签，点击标引按钮后开始对着900条专利进行“语文”标签的标引。并且需要用户重复收到为其它8个科目的子菜单做类似“语文”标引操作的工作。由此可见，这样的标引过程相对较为复杂，标引效率较低，消耗较大的人力资源，用户专利作业的体验较差。

发明内容

本公开提供一种对文件进行自定义字段标引的处理方法、装置、服务器及系统，以至少解决相关技术中文件自定义字段的标引效率低的技术问题。本公开的技术方案如下：

一种对文件进行自定义字段标引的处理方法，包括：

确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述自定义字段用于对所述文件进行标引分类，所述文件范围的种类包括；对待标引文件集合中的全部文件进行标引；

响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。

所述方法的另一个实施例中，所述标引规则包括词频过滤规则，所述自定义字段的字段类型包括文本字段，所述确定自定义字段的标引规则，包括：

对于所述字段类型为文本字段的自定义字段，基于文本字段中过滤词汇出现的次数设置词频过滤规则。

所述方法的另一个实施例中，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。

所述方法的另一个实施例中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

对所述文件中所包括的批复信息中出现的过滤词汇进行过滤，其中，所述批复信息包括下述中的至少一种：

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

以及与所述注释信息、批注信息、备忘信息各自对应的回复信息。

所述方法的另一个实施例中，所述文件为专利文件，所述词频过滤规则还可以用于对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。

所述方法的另一个实施例中，所述文件范围的种类还包括：

对所述待标引文件集合中未标引的文件进行标引、对所述待标引文件集合中新增的文件进行标引。

所述方法的另一个实施例中，所述方法还包括：

响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则；

或者，响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则之后，利用更新后的标引规则对所述文件范围内的文件进行自定义字段的标引处理。

所述方法的另一个实施例中，所述自定义字段的字段类型还包括：

选项字段和/或层级字段。

所述方法的另一个实施例中，所述对所述自定义字段的标引规则进行修改，得到更新后的标引规则包括：

根据标引处理的结果调整所述标引规则中的参数值和/或运算逻辑，得到更新后的标引规则。

本公开还提供一种文件分类的处理方法，包括：

识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容；

若所述操作账号具有转换操作权限，则根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息；

响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段；

展示所述第二字段转换操作后的分类结果。

所述方法的另一个实施例中，所述方法还包括：

响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。

本公开还提供一种对文件进行自定义字段标引的处理装置，包括：

规则定义模块，用于确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述自定义字段用于对所述文件进行标引分类，所述文件范围的种类包括；对待标引文件集合中的全部文件进行标引；

标引处理模块，用于响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。

所述装置的另一个实施例中，所述标引规则包括词频过滤规则，所述自定义字段的字段类型包括文本字段，所述确定自定义字段的标引规则，包括：

对于所述字段类型为文本字段的自定义字段，基于所述文本字段中过滤词汇出现的次数设置的词频过滤规则。

所述装置的另一个实施例中，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。

所述装置的另一个实施例中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

所述装置的另一个实施例中，所述文件为专利文件，所述词频过滤规则还可以用于对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。

所述装置的另一个实施例中，其中，所述文件范围的种类还包括：

所述装置的另一个实施例中，所述自定义字段的字段类型还包括：

选项字段和/或层级字段。

所述装置的另一个实施例中，所述装置还包括：

规则修改模块，用于响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则。

所述装置的另一个实施例中，所述装置还包括：

重标引模块，用于利用规则修改模块更新后的标引规则对所述文件范围内的文件进行自定义字段的标引处理。

所述装置的另一个实施例中，所述对所述自定义字段的标引规则进行修改，得到更新后的标引规则包括：

本公开还提供一种文件的分类处理装置，包括：

权限识别模块，用于识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容；

数据获取模块，用于在所述操作账号具有转换操作权限时，根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息；

第一转换模块，用于响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段；

展示模块，用于展示所述第二字段转换操作后的分类结果。

所述装置的另一个实施例中，所述装置还包括：

修改模块，用于响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。

本公开实施例的另一方面，还提供一种服务器，包括：

至少一个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本公开任一项实施例所述的方法。

本公开实施例的另一方面，还提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被服务器的处理器执行时，使得所述服务器能够执行本公开任一项实施例所述的方法。

本公开实施例的另一方面，还提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序被处理器执行时实现本公开任一项实施例所述的方法。

本公开实施例的另一方面，还提供一种专利管理系统，所述专利管理系统包括本公开任一实施例所述的装置，或者专利管理系统的处理器执行存储器存储的可执行指令时，实现本公开任一项实施例所述的对文件进行自定义字段标引的处理方法；或者，所述专利管理系统包括本公开所述的计算机程序产品。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的技术方案中，可以将用户对文件进行自定义字段标引的多个步骤，转化为对自定义字段进行规则设定后基于触发指令自动完成标引，用户可以只要在一个页面操作即可完成标引工作，有效地简化操作步骤。并且，由于标引规则设定可以是提供给自定义字段下的所有或部分子项，可以避免在单个文件集合中(如单个收藏夹)重复地对同一类型自定义字段的不同子项逐个进行标引操作。标引规则一旦设定后，可以在所有的文件集合中(如所有收藏夹下)使用，实现了一次规则设定，全局通用，降低了自定义字段的标引作业复杂性，减少了人力资源消耗，提高了标引处理效率，提高了用户专利作业的服务使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的应用环境示意图。

图2是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的流程图。

图3是本公开提供的一种设置自动标引规则的界面示意图。

图4是本公开提供的一个实施例中词频过滤规则应用于批复信息的场景示意图。

图5是本公开提供的一个实施例中词频过滤规则应用于包含回复信息的批复信息的场景示意图。

图6是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的流程图。

图7是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。

图8是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。

图9是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。

图10是根据一示例性实施例示出的一个专利描述信息的转换处理设备S00的结构示意图。

图11是根据一示例性实施例示出的一种文件分类的处理方法的流程图。

图12是根据另一示例性实施例示出的一种文件分类的处理方法的流程图。

实施本发明的方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

示例性地，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

图1是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的应用环境示意图。本公开所提供的一种对文件进行自定义字段标引的处理方法，可以应用于如图1所示的应用环境中。例如提供给用户的专利管理系统110，专利管理系统110可以构建专利数据库，提供专利管理界面，实现对专利数据的标引、存储、查新、分析、更新。目前的一些专利管理系统，还停留在基于标引人员对专利自定义输入的标引数据或描述信息进行分类。即使用户已经预先设置好对专利分类的自定义字段，如前述所述的语文、数学、体育等，对专利文件的分类仍然是如背景技术中所描述的逐个对单个类别的一批次专利进行标引分类，重复大量工作。尤其是在专利数量较大的应用场景中，目前的标引处理方式和流程效率低下，不能满足一些用户的专利管理需求。而本公开提供的技术方案可以应用于所述专利管理系统110中，可以提供包括但不限于专利文件的分类处理，在专利文件自定义字段的标引处理过程和流程上进行了优化，大大地提高了自定义字段标引的作业效率。

本公开实施例涉及的自定义字段的字段类型可以包括但不限于文本字段、选项字段、层级字段。所述文本字段可以包括用户输入的对文件的内容、关键技术等进行描述的信息内容，或者自定义的分类字段。通常文本字段可以由用户自由输入内容。所述的选项字段通常包括用户自定义的分类字段，选项字段中的分类字段可以是并列的分类关系，也可以是层级关系。通常选项字段为用户预先定义好的分类字段，可以以菜单的方式展示。一个文件可以归属于多个选项字段中的分类字段，如某专利属于A、B、C、D四个选项字段中的A和B，也可以属性选择字段A和B1，其中A、B、C、D均为一级分类，B1为一级分类B的子分类(二级分类)。所述的层级字段可以包括不同分类字段的从属或分级关系。专利文件标引后可以更新专利管理系统的专利数据库。本公开实施例中所述的专利管理系统110可以包括但不限于本地或远程的服务器、服务器集群、分布式分系统、云处理平台、包含区块链节点的服务器以及其组合的设备，也可以包括各种个人计算机、笔记本电脑、智能手机、平板电脑、可穿戴设备、车载设备、医疗设备等。

下面以专利文件为文件对专利管理系统的某个收藏夹下的专利进行标引的实施场景对本公开实施例方案进行说明。示例性地，本公开实施例方案并不限于对专利文件的自定义字段的标引处理，基于本公开的创新思想，本公开的实施例方案还可以用于其他文件类型的自定义字段的标引处理，如对论文、报刊、图书文件资料等，因此本公开的一些实施例中，所述文件可以包括专利文件。相应的，根据专利文件的实施例描述，下述实施例中所描述的专利词语也可以适应性的调整，如论文管理系统等。所述的标引可以包括通过对目标对象标记一个或多个分类标记，以指引人员或机器方便、快捷地找到所需要的信息。标引可以作为检索标识或者目标对象分类的依据，或者其标引本身可以标识对象所属的分类。图2是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的流程图，如图2所示，所述方法可以用于前述专利管理系统110中，可以包括以下步骤。

S202：确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述自定义字段用于对所述文件进行标引分类，所述文件范围的种类包括；对待标引文件集合中的全部文件进行标引。

S204：响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。

本公开实施例的创新之一在于改变传统的自定义标引处理流程，可以预先定义设置标引规则，将用户对自定义字段标引的多个步骤，转化为对自定义字段进行规则设定后基于触发指令自动完成标引，用户可以只要在一个页面操作即可完成标引工作，有效地简化操作步骤。具体地可以提供规则设置或编辑界面，用户可以在界面中编辑自定义字段，给出自定义字段的具体的标引规则。更为重要的是，本公开实施例中，由于标引规则设定可以是提供给自定义字段下的所有或部分子项，可以避免在单个文件集合中(如单个收藏夹)重复地对同一类型自定义字段的不同子项逐一进行标引操作。标引规则一旦设定后，可以在所有的文件集合中(如所有收藏夹下)使用，实现了一次规则设定，全局通用。

除利用选择收藏夹的方式来确定文件集合外，所述文件可以包括预先选择或筛选出的一条或多条专利。如可以根据查询条件、过滤条件、空间配置、排序规则等，调用企业级搜索应用服务器(solr)查找出此次需要标引的专利，也可以以专利公开(公告)号列表的方式展示在作业空间界面中。

所述的自定义字段可以是文本字段，也可以是选项字段和/或层级字段。如之前对专利文件的描述信息/标引数据的转换处理得到的选项字段。所述目标字段类型可以包括用户自定义分类设置的分类字段。本公开的另一个创新之处在于，自定义字段的一些字段类型中的分类字段可以是由用户自定义设置的，极大地方便了用户自定义所需转换的分类字段的类型。如，层级字段中根节点、中节点、叶子节点等各个节点分类字段的名称可以由用户根据分类需求进行自定义设置，可以不使用或者部分使用系统自带的分类规则，便于用户灵活的定义分类类型。

上述标引规则设定可以是提供给自定义字段下的部分子项，也可以通过指定不同的分类层级实现。如可以指定标引规则用于对一级分类“科目”下的所有子级分类为“语文”、“数学”、“体育”等，这样，一次设置好标引规则，通过一次自动标引的触发操作即可实现将文件自动分类到一级分类“科目”下的所有对应子级分类中，而无需分多次分别进行子级分类的标引操作。

所述文件范围的种类可以包括多种方式，可以表征本次设置的标引规则使用在哪些专利文件中。本公开实施例的一个实施例，文件范围的种类至少包括对全部文件进行标引，这样可以更加全面地、高效地从全局控制标引规则的使用范围，即，该标引规则可以用于对所有文件进行标引，包括之前已经标引过的文件。当然，其他的实施例中，所述文件范围的种类还可以包括：

另一些实施例中，对已经标引的文件可以不再使用本次设置的标引规则进行重新标引，可以仅对未标引的文件进行标引，避免对之前已经标引好的目标覆盖。另一些实施例中，类似地，也可以设置仅对新增的文件使用本次设置的标引规则进行标引。当然，用户若觉得本次标引规则设置的更加合理，则可以全部覆盖标引。由此可见，本公开的一些实施例，不仅可以设置标引规则，还可以同时选择使用标引规则的文件范围，可以更加灵活的选址标引规则的使用场景，满足不同的用户需求和标引处理需求，提示用户体验。

本公开的另一些实施例中，针对文本类型的专利字段，可以支持词频设置，用户可以设置专利文本中出现过滤词汇的次数，如1、2、3、4、5次，参考过滤次数设置标引规则。例如，若某个专利文件中出现过滤词汇“汽车”的次数达到某个阈值，如10次，则可以将该专利标引为“汽车”。当然，词频设置还可以结合其他的标引规则共同决策文件所述的分类。具体地，本公开提供的所述方法的另一个实施例中，所述标引规则包括：

对于文本类型的自定义字段，基于文本字段中过滤词汇出现的次数设置的词频过滤规则。

一个标引规则中可以包括多个词频过滤规则。多个词频过滤规则之间可以通过与或非逻辑运算进行关联。与或非逻辑关联的过滤规则也可以视为一种词频过滤规则或者逻辑运算规则。例如，专利文件中出现过滤词汇“WORD1”的次数达到20，并且出现过滤词汇“WORD2”的词汇达到10，则将该专利标引为“汽车”。

如图3所述，图3是本公开提供的一种设置自动标引规则的界面示意图。标引规则可以包括多个规则，如上述所述，不同的规则之间可以通过逻辑运算进行关联。因此，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。

本公开提供的所述方法的另一个实施例中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

图4是本公开提供的一个实施例中词频过滤规则应用于批复信息的场景示意图。在本实施例中，词频过滤规则不仅可以针对专利文件中专利文本内容的字段进行逻辑运算，还支持针对文件中所做的注释、批注、备忘等批复信息进行逻辑运算，这些批复信息可以为一个或多个不同用户添加的信息，如图4所示。

不仅如此，词频过滤规则还可以包括对这些注释、批注、备忘等批复信息所做的答复信息。图5是本公开提供的一个实施例中词频过滤规则应用于包含回复信息的批复信息的场景示意图。如图5所示，User1对User2批注的回复内容。本公开实施例在对文件进行自定义字段标引中，进一步考虑到这些批复信息，如有批复信息对应的回复信息还可以进一步包括这些回复信息，可以进一步地提高文件自定义字段标引的准确性，使得文件的分类结果更加可靠。

本公开还提供一种针对文件的词频过滤规则的处理方式。具体地，所述方法的另一个实施例中，所述文件为专利文件，所述词频过滤规则还可以用于对文件的指定的一个或多个内容部分进行词频过滤，对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。其中，可以通过ORC或其他图像识别算法识别出说明书附图中所包含的文字信息。本公开实施例方案针对专利文本进行词频过滤，可以对发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息以及其中组合进行词频过滤，进一步提高专利文本的自定义字段标引的分类准确性。

图6是根据一示例性实施例示出的一种对文件进行自定义字段标引的处理方法的流程图。如图6所示，另一些实施例中，所述方法还可以包括：

S602：响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则；

S604：利用更新后的标引规则对所述文件范围内的文件进行自定义字段标引处理。

用户可以对标引规则进行重新修改，可以重新边界标引规则，提高了标引规则设置的灵活性。可以利用更新后的标引规则对后续处理的文件进行自定义字段的标引处理。另一方面，也可以利用更新后的标引规则重新对本次文件范围内的文件进行自定义字段的标引处理，覆盖文件之前的标引。

另一个实施例方式中，所述的标引规则也可以自动进行更新、优化，不断地完整标引规则，使得标引的结果更加准确。具体地，所述方法的另一个实施例中，所述对所述自定义字段的标引规则进行修改，得到更新后的标引规则包括：

本实施例中，可以利用标引处理的结果自动调整标引规则中的参数值或逻辑运算，具体地可以设置相应的算法或者使用神经网络、深度学习、迭代算法等。一个示例性的实施方式中，如对某种类型的文件进行标引或对某些文件的特定位置的内容(如专利的标题)进行标引规则设置后，利用标引规则字段打标得到标引结果。其中，对不符合预期的部分标引结果进行了调整，则可以获取标引结果调整的记录，处理器根据调整的记录，如对哪些文件进行的调整，调整的内容是什么，调整后的结果是什么等，根据这些记录信息自动学习、优化标引规则。这样，后续再对类型的目标文件进行自动标引处理时，可以根据之前学习、优化的标引规则进行处理，得到更加准确的标引处理结果。

本公开实施例提供的对文件进行自定义字段标引的处理方法，可以将用户对文件进行自定义字段标引的多个步骤，转化为对自定义字段进行规则设定后基于触发指令自动完成标引，用户可以只要在一个页面操作即可完成标引工作，有效地简化操作步骤。并且，由于标引规则设定可以是提供给自定义字段下的所有或部分子项，可以避免在单个文件集合中(如单个收藏夹)对同一类型自定义字段的不同子项相似工作的重复标引操作。标引规则一旦设定后，可以在所有的文件集合中(如所有收藏夹下)使用，实现了一次规则设定，全局通用，降低了自定义字段标引作业的复杂性，减少人力资源消耗，提高标引处理效率，提高用户专利作业的服务使用体验。

示例性地，说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同/相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见其他方法实施例的描述说明即可。

示例性地，虽然附图中涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，附图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述所述的对文件进行自定义字段标引的处理方法实施例的描述，本公开还提供一种对文件进行自定义字段标引的处理装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。所述装置可以为前述所述专利管理系统110，也可以为单独的服务器或服务器集群等。具体的可以参照图7，该装置100可以包括：

规则定义模块702，可以用于确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述文件范围的种类包括；对全部文件进行标引；

标引处理模块704，可以用于响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。

本公开提供的所述装置的另一个实施例中，所述标引规则包括：

本公开提供的所述装置的另一个实施例中，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。

本公开提供的所述装置的另一个实施例中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

本公开提供的所述装置的另一个实施例中，所述文件为专利文件，所述词频过滤规则还可以用于对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。

本公开提供的所述装置的另一个实施例中，所述文件范围的种类还包括：

对未标引的文件进行标引、对新增的文件进行标引。

本公开提供的所述装置的另一个实施例中，所述自定义字段标引的类型包括：

选项字段和/或层级字段。

一示例性实施例如图8所示，图8是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。参照图8，本公开提供的所述装置的另一个实施例中，所述装置还可以包括：

规则修改模块802，可以用于响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则。

一示例性实施例如图9所示，图9是根据一示例性实施例示出的一个对文件进行自定义字段标引的处理装置结构示意图。参照图9，本公开提供的所述装置的另一个实施例中，所述装置还可以包括：

重标引模块902，可以用于利用规则修改模块802更新后的标引规则对所述文件范围内的文件进行自定义字段的标引处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本说明书中任一项所述的对文件进行自定义字段标引的处理方法。

图10是根据一示例性实施例示出的一个专利描述信息的转换处理设备S00的结构示意图，设备S00可以包括如前述所述的服务器、专利管理系统、服务器集群、分布式处理服务器、区块链服务器、云计算平台等以及其组合。例如，设备S00可以为一个或多个服务器的组合。参照图10，设备S00包括处理组件S20，其进一步包括一个或多个处理器，以及由存储器S22所代表的存储器资源，用于存储可由处理组件S20执行的指令，例如应用程序。存储器S22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件S20被配置为执行指令，以执行上述可以实施于代理服务端一侧的方法。

设备S00还可以包括一个电源组件S24，电源组件S24被配置为执行设备S00的电源管理，一个有线或无线网络接口S26被配置为将设备S00连接到网络，和一个输入输出(I/O)接口S28。设备S00可以操作基于存储在存储器S22的操作系统，例如Window12 12erver，Mac O12 X，Unix，Linux，FreeB12D或类似。

示例性地，上述设备S00可以是数据处理设备的示例性描述，如专利管理平台。在一些数据处理设备中，可以不必包含上述全部组件或某个组件下的全部功能单元。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器S22，上述指令可由设备S00的处理组件S20执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备、石墨烯等。

基于前述方法、装置、计算机程序产品的实施例描述，本公开还一种专利管理系统，所述专利管理系统可以包括本公开任意一个实施例所述的装置；

或者，专利管理系统的处理器执行存储器存储的可执行指令时，实现本公开任意一个实施例所述的对文件进行自定义字段标引的处理方法；

或者，所述专利管理系统包括上述所述的计算机程序产品。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的，上述所述的装置、设备、服务器等根据方法实施例的描述还可以包括其它的实施方式，具体的实现方式可以参照相关方法实施例的描述。同时各个方法以及装置、设备、服务器实施例之间特征的相互组合组成的新的实施例仍然属于本公开所涵盖的实施范围之内，在此不作一一赘述。

上述所述的对文件进行自定义字段标引的处理方法、装置，可以应用于文件的分类管理系统中。例如提供给用户的专利管理系统，专利管理系统可以构建专利数据库，提供专利管理界面，实现对专利数据的分类、存储、查新、分析、更新。文件的分类管理系统通常需要对文件进行分类处理。图11是根据一示例性实施例示出的一种文件分类的处理方法的流程图。本公开提供一种文件分类的处理方法，所述方法可以用于前述专利管理系统中，如图11所示，可以包括以下步骤。

S0：识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容。

本公开实施例中可以预先设置不同账号类型，不同账号类型在专利管理系统或作业空间中有不同的操作权限。例如第一类账号只能对文件进行标引而不能将标引产生的标引数据转换为选项字段或层级字段。第二类账号具有转换操作权限，可以将标引数据转换为目标字段类型，也可以对第三类账号的标引数据进行审核，如进行修改。第三类账号可以具有最高的权限，如可以具有在作业空间或专利管理系统中的所有权限，可以具有按照一定的规则为不同的第二类账号分配一些操作权限的权限，或者对第二类账号的转换结果进行审核、修改等，当然，第三类账号也可以具有转换操作权限及对文件进行标引的权限等待。

具体地可以根据对文件分类管理的需求设置相应的账号类型。本公开还提供一种设置不同权限的账号的实施方法。具体地，所述方法的另一个实施例中，所述操作账号的操作权限包括采用下述方式设置的账号以及对应的权限：

第一账号类型，具有对文件进行标引的权限、无转换操作的权限；

第二账号类型，对所述第一账号类型中的标引账号对文件进行处理产生的数据信息进行修改，以及具有将待转换字段转换为指定类型的业务字段的权限；

第三账号类型，具有转换操作权限，以及根据预设的匹配规则为所述第二账号类型中的转换账号分配允许所述转换账号将待转换字段转换为业务字段。

所述的第一账号类型可以如同前述的第一类账号，可以提供给具体的对文件进行初始分类处理的人员，如对文件进行标引的作用人员。标引人员使用的账号可以称为标引账号，属于第一账号类型。所述的第二账号类型中账号(可以称为转换账号)，参考前述第二类账号，可以修改所述第一账号类型中的标引账号对文件进行处理产生的数据信息，以及具有将待转换字段转换为指定类型的业务字段的权限。第三账号类型参考前述第三类账号，可以为不同的转换账号设置其可以将待转换字段转换为业务字段。例如属于第三类账号类型的某个分配账号可以设置或分配某个转换账号user33处理电子类的专利文件分类，可以表示user33将标引数据转换后的分类应该是电子类的分类字段。

当然，本公开不限于还有其他的设置不同账号的不同权限的实施方案。

S2：若所述操作账号具有转换操作权限，则根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息。

标引的人员通常为一个或多个研发或专利分类处理的人员，也可以包括对专利管理的审核、管理人员等。因此，可以是由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息。

所述文件数据集合中可以包括一个或多个文件的数据信息，通常包括对文件数据进行处理获得的数据信息，如标引数据。所述的标引数据可以包括标引人员对专利整体的分类描述，可以包括研发或专利管理人员输入的对专利分类的文本语言描述。如“该专利是应用在扫地机器人上的清洁装置，可以自动识别障碍物并自动充电”。一些应用场景中，标引数据可以作为使用专利管理系统对专利初次分类的待处理字段。另一些实施场景中，待处理字段也可以为选项字段和/或层级字段。为便于描述，本公开的一些实施例中可以使用专利公开(公告)号来唯一标识专利，描述信息、文本字段、选项字段、层级字段中的全部或部分使用字母表示，如文本字段可以为A、B、C等。

S4：响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段。

操作账号具有转换操作权限，可以执行不同字段类型之间的字段分类转换。

S6：展示所述第二字段转换操作后的分类结果。

不同类型的字段转换后，可以展示转换操作后的分类结果，以供用户查看。

进一步的，图12是根据另一示例性实施例示出的一种文件分类的处理方法的流程图。如图 12所示，该处理方法还可以包括：

S206：响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。相应的，若对第二字段进行了修改，则所述文件数据集合可以包括所述第二字段修改后的字段数据，那么在转换时，转换的也是修改后的字段数据。

管理人员可以在专利管理系统中对各个标引人员做出的标引数据进行审核。一般的，管理人员需要获取一定的操作权限，以便于安全、集中的对专利标引数据的审核和转换处理。本实施例应用场景中，若发现需要对标引数据进行修改，则管理人员可以在专利管理系统的作业空间中进行修改。如将文本类型的标引数据“清洁装置”修改为“消毒装置”。专利管理系统可以响应标引数据(第二字段的一种数据信息)的修改操作，对需要调整的标引数据进行修改，得到修改后标引数据。

审核人员对标引数据审核或校准之后，可以通过专利管理系统统一进行转换，得到目标字段类型的分类字段。

一示例性实施例示出的一个文件的分类处理装置，可以包括：

权限识别模块，可以用于识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容；

数据获取模块，可以用于在所述操作账号具有转换操作权限时，根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息；

第一转换模块，可以用于响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段；

展示模块，可以用于展示所述第二字段转换操作后的分类结果。

在一示例性实施例中，所述装置还可以包括：

修改模块，可以用于响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或描述的装置或单元相互之间的耦合、通信连接等可以是直接和/或间接耦合/连接的方式实现，可以是通过一些标准或自定义的接口、协议等，是电性，机械或其它的形式实现。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

一种对文件进行自定义字段标引的处理方法，包括：

确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述自定义字段用于对所述文件进行标引分类，所述文件范围的种类包括：对待标引文件集合中的全部文件进行标引；

响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。
根据权利要求1所述的方法，其中，所述标引规则包括词频过滤规则，所述自定义字段的字段类型包括文本字段，所述确定自定义字段的标引规则，包括：

对于所述字段类型为文本字段的自定义字段，基于所述文本字段中过滤词汇出现的次数设置词频过滤规则。
根据权利要求1或2所述的方法，其中，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。
根据权利要求2或3所述的方法，其中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

对所述文件中所包括的批复信息中出现的过滤词汇进行过滤，其中，所述批复信息包括下述中的至少一种：

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

以及与所述注释信息、批注信息、备忘信息各自对应的回复信息。
根据权利要求4所述的方法，其中，所述文件为专利文件，所述词频过滤规则还可以用于对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。
根据权利要求1至5任一项所述的方法，其中，所述文件范围的种类还包括：

对所述待标引文件集合中未标引的文件进行标引、对所述待标引文件集合中新增的文件进行标引。
根据权利要求1至6任一项所述的方法，其中，所述方法还包括：

响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则；

或者，响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则之后，利用所述更新后的标引规则对所述文件范围内的文件进行自定义字段的标引处理。
根据权利要求2至7所述的方法，其中，所述自定义字段的字段类型还包括：

选项字段和/或层级字段。
根据权利要求7或8所述的方法，其中，所述对所述自定义字段的标引规则进行修改，得到更新后的标引规则包括：

根据所述标引处理的结果调整所述标引规则中的参数值和/或运算逻辑，得到更新后的标引规则。
一种文件分类的处理方法，包括：

识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容；

若所述操作账号具有转换操作权限，则根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息；

响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段；

展示所述第二字段转换操作后的分类结果。
根据权利要求10所述的方法，所述方法还包括：

响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。
一种对文件进行自定义字段标引的处理装置，包括：

规则定义模块，用于确定自定义字段的标引规则以及使用所述标引规则的文件范围，其中所述标引规则用于对所述自定义字段下的全部或部分子项的分类字段进行设置，所述自定义字段用于对所述文件进行标引分类，所述文件范围的种类包括；对待标引文件集合中的全部文件进行标引；

标引处理模块，用于响应自动标引的触发指令，利用所述标引规则对所述文件范围内的文件进行自定义字段的标引处理。
根据权利要求12所述的装置，其中，所述标引规则包括词频过滤规则，所述自定义字段的字段类型包括文本字段，所述确定自定义字段的标引规则，包括：

对于所述字段类型为文本字段的自定义字段，基于所述文本字段中过滤词汇出现的次数设置的词频过滤规则。
根据权利要求12或13所述的装置，其中，所述标引规则中的全部或部分规则基于与、或、非的逻辑运算进行关联。
根据权利要求13或14所述的装置，其中，所述词频过滤规则还用于：

对所述文件中文本内容出现的过滤词汇进行过滤，

和/或，

对所述文件中所包括的批复信息中出现的过滤词汇进行过滤，其中，所述批复信息包括下述中的至少一种：

文件中内容的注释信息；

文件中内容的批注信息；

文件中内容的备忘信息；

以及与所述注释信息、批注信息、备忘信息各自对应的回复信息。
根据权利要求15所述的装置，其中，所述文件为专利文件，所述词频过滤规则还可以用于对至少下述之一的文本内容进行词频过滤：发明名称、摘要、权利要求、说明书、识别出的说明书附图中所包含的文字信息。
根据权利要求13至16任一项所述的装置，其中，所述文件范围的种类还包括：

对所述待标引文件集合中未标引的文件进行标引、对所述待标引文件集合中新增的文件进行标引。
根据权利要求13至17任一项所述的装置，其中，所述自定义字段的字段类型还包括：

选项字段和/或层级字段。
根据权利要求12至18中任一项所述的装置，其中，所述装置还包括：

规则修改模块，用于响应规则修改指令，对所述自定义字段的标引规则进行修改，得到更新后的标引规则。
根据权利要求12至19中任一项所述的装置，其中，所述装置还包括：

重标引模块，用于利用规则修改模块更新后的标引规则对所述文件范围内的文件进行自定义字段的标引处理。
根据权利要求19或20所述的装置，其中，所述对所述自定义字段的标引规则进行修改，得到更新后的标引规则包括：

根据所述标引处理的结果调整所述标引规则中的参数值和/或运算逻辑，得到更新后的标引规则。
一种文件的分类处理装置，包括：

权限识别模块，用于识别操作账号的操作权限，所述操作权限包括预先设置的不同账号类型可处理的业务内容；

数据获取模块，用于在所述操作账号具有转换操作权限时，根据为所述操作账号分配的业务字段获取对应的包含第二字段的文件数据集合，其中，所述的包含第二字段的文件数据集合中的第二字段，包括由匹配不同或相同操作权限的操作账号对文件数据进行处理获得的数据信息；

第一转换模块，用于响应第二字段的第一转换操作，将所述文件数据集合中的第二字段转换为目标字段类型的分类字段；

展示模块，用于展示所述第二字段转换操作后的分类结果。
根据权利要求22所述的装置，所述装置还包括：

修改模块，用于响应第二字段的修改操作，对所述文件数据集合中的第二字段进行修改，得到修改后的字段数据。
一种服务器，包括：

至少一个处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至11中任一项所述的方法。
一种计算机可读存储介质，当所述计算机可读存储介质中的指令被服务器的处理器执行时，使得所述服务器能够执行如权利要求1至11中任一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。
一种专利管理系统，包括权利要求12至23中任意一项所述的装置；

或者，专利管理系统的处理器执行存储器存储的可执行指令时，实现如权利要求1至11中任一项所述的方法；

或者，所述专利管理系统包括权利要求26所述的计算机程序产品。