WO2020253636A1 - 样本标注信息的审核方法及装置 - Google Patents

样本标注信息的审核方法及装置 Download PDF

Info

Publication number
WO2020253636A1
WO2020253636A1 PCT/CN2020/095978 CN2020095978W WO2020253636A1 WO 2020253636 A1 WO2020253636 A1 WO 2020253636A1 CN 2020095978 W CN2020095978 W CN 2020095978W WO 2020253636 A1 WO2020253636 A1 WO 2020253636A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
sample
identification
samples
model
Prior art date
Application number
PCT/CN2020/095978
Other languages
English (en)
French (fr)
Inventor
徐青松
李青
Original Assignee
杭州睿琪软件有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杭州睿琪软件有限公司 filed Critical 杭州睿琪软件有限公司
Publication of WO2020253636A1 publication Critical patent/WO2020253636A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种样本标注信息的审核方法及装置,所述方法包括:获取需要进行审核的标注样本并组成训练样本集;将训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型;获取作为测试使用的识别样本集,针对识别样本集中的每一识别样本,通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于预设阈值的识别结果对应的第一识别模型确定为目标识别模型;对目标识别模型对应的子样本集中的标注样本进行标注信息审核。应用本发明提供的方案可以快速审核样本的标注结果。

Description

样本标注信息的审核方法及装置 技术领域
本发明涉及人工智能技术领域,尤其涉及一种样本标注信息的审核方法、装置、电子设备和计算机可读存储介质。
背景技术
在人工智能领域的模型训练中需要对样本进行标注,比如通过人工来对样本进行标注,或者通过预先建立好的神经网络识别模型对样本进行自动识别并标注。为保证模型训练的准确率,还需要对样本的标注信息是否准确进行审核。
目前,通常是由人工对所有已标注的样本的标注信息进行审核。然而,由于样本集中,样本的数量比较大,这样就会花费较多时间和人力来审核样本的标注信息。
发明内容
本发明的目的在于提供一种样本标注信息的审核方法、装置、电子设备和计算机可读存储介质,以快速审核样本的标注信息。具体技术方案如下:
第一方面,本发明提供了一种样本标注信息的审核方法,所述方法包括:
获取需要进行审核的多个标注样本并组成训练样本集;其中,每个所述标注样本预先标注有标注信息;
将所述训练样本集分为多个子样本集,对所述多个子样本集分别进行训练,建立相应的多个第一识别模型;每个所述第一识别模型均为基于神经网络的模型;
获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的所述多个第一识别模型分别进行识别,得到所述多个第一识别模型对每个所述识别样本的多个识别结果,统计所述多个识别结果中各种不同的识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的所述第一识别模型确定为目 标识别模型;
对所述目标识别模型对应的所述子样本集中的标注样本进行标注信息审核。
可选的,当存在出现次数均不小于预设阈值的多个识别结果时,所述方法还包括:
将目标识别结果对应的第一识别模型确定为目标识别模型;
其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果。
可选的,当各识别结果的出现次数均小于所述预设阈值,所述方法还包括:
对该识别样本进行审核,得到该识别样本的审核结果。
可选的,对该识别样本进行审核之后,所述方法还包括:
判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;
如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;
如果不存在,则将全部第一识别模型确定为目标识别模型。
可选的,所述预设数量大于或等于3。
优选的,所述预设数量大于或等于5。
可选的,将所述训练样本集分为预设数量个子样本集,包括:
将所述训练样本集平均分为预设数量个子样本集,任意两个子样本集中样本的数量差小于或等于1。
可选的,获取作为测试使用的识别样本集,包括:
从需要进行审核的标注样本中获取部分标注样本组成作为测试使用的识别样本集。
可选的,对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核,包括:
将所述目标识别模型对应的子样本集中的标注样本发送给校验客户端, 以使所述校验客户端对接收的标注样本进行标注信息审核。
可选的,所述校验客户端为通过预先训练建立的第二识别模型对接收的标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值;或
所述校验客户端为对接收的标注样本进行人工审核的客户端。
第二方面,本发明还提供了一种样本标注信息的审核装置,所述装置包括:
获取模块,用于获取需要进行审核的多个标注样本并组成训练样本集;其中,每个所述标注样本预先标注有标注信息;
训练模块,用于将所述训练样本集分为多个子样本集,对所述多个子样本集分别进行训练,建立相应的多个第一识别模型;每个所述第一识别模型均为基于神经网络的模型;
识别模块,用于获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的所述多个第一识别模型分别进行识别,得到所述多个第一识别模型对每个所述识别样本的多个识别结果,统计所述多个识别结果中各种不同的识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的所述第一识别模型确定为目标识别模型;
审核模块,用于对所述目标识别模型对应的所述子样本集中的标注样本进行标注信息审核。
可选的,所述识别模块还用于:
当存在出现次数均不小于预设阈值的多个识别结果时,将目标识别结果对应的第一识别模型确定为目标识别模型;
其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果。
可选的,所述识别模块还用于:
当各识别结果的出现次数均小于所述预设阈值,对该识别样本进行审核,得到该识别样本的审核结果。
可选的,所述识别模块还用于:
对该识别样本进行审核之后,判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;如果不存在,则将全部第一识别模型确定为目标识别模型。
可选的,所述预设数量大于或等于3。
优选的,所述预设数量大于或等于5。
可选的,所述训练模块将所述训练样本集分为预设数量个子样本集,包括:
将所述训练样本集平均分为预设数量个子样本集,任意两个子样本集中样本的数量差小于或等于1。
可选的,所述识别模块获取作为测试使用的识别样本集,包括:
从需要进行审核的标注样本中获取部分标注样本,组成作为测试使用的识别样本集。
可选的,所述审核模块对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核,包括:
将所述目标识别模型对应的子样本集中的标注样本发送给校验客户端,以使所述校验客户端对接收的标注样本进行标注信息审核。
可选的,所述校验客户端为通过预先训练建立的第二识别模型对接收的标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值;或
所述校验客户端为对接收的标注样本进行人工审核的客户端。
第三方面,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器均通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的所述计算机程序时,实现上述第一方面所述的样本标注信息的审核方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的样本标注信息的审核方法。
与现有技术相比,本发明首先获取需要进行审核的标注样本并组成训练样本集,然后将训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型,再获取作为测试使用的识别样本集,针对识别样本集中的每一识别样本,均通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于预设阈值的识别结果对应的第一识别模型确定为目标识别模型,进而对所确定的目标识别模型对应的子样本集中的标注样本进行标注信息审核。相比于现有技术由人工对样本集中所有样本的标注信息进行审核的方式,本发明可以实现对样本标注信息的快速审核,降低时间和人力成本;同时,本发明将训练样本集分为多个子样本集并训练建立多个第一识别模型,这种方式特别适用于训练样本集包含大量需要审核的标注样本的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的样本标注信息的审核方法的流程示意图;
图2是本发明一实施例提供的样本标注信息的审核装置的结构示意图;
图3是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种样本标注信息的审核方法、装置、电子设备及计算机可读存储介质作进一步详细说明。根据权利要 求书和下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
为解决现有技术的问题,本发明实施例提供了一种样本标注信息的审核方法、装置、电子设备及计算机可读存储介质。
需要说明的是,本发明实施例的样本标注信息的审核方法可应用于本发明实施例的样本标注信息的审核装置,该样本标注信息的审核装置可被配置于电子设备上。其中,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
图1是本发明一实施例提供的一种样本标注信息的审核方法的流程示意图。请参考图1,一种样本标注信息的审核方法可以包括如下步骤:
步骤S101,获取需要进行审核的标注样本并组成训练样本集;其中,所述标注样本预先标注有标注信息。
需要进行审核的标注样本可以为通过人工客户端进行识别和标注的样本,也可以为通过预先训练建立的识别模型进行自动识别和标注的样本,本实施例对此不做限定。
标注样本可以为各种不同类型物体的图片,例如试卷、动植物、景点、车辆、人脸或部分人体组成部分、物品、票据等。以试卷为例,对试卷样本进行标注的过程可以为:利用一区域识别模型识别试卷上各个题目的区域,并对各个区域进行切分形成区域样本图片,然后利用一字符识别模型识别各个区域样本图片的字符内容并进行标注处理。
本实施例不限定标注样本的类型,但是组成同一个训练样本集的各个标注样本的类型必须是相同的,并且各个标注样本的标注信息的类型也必须是相同的。例如,组成训练样本集A的各个标注样本均为包含字符的图片,且标注信息均为图片上的字符内容。再如,组成训练样本集B的各个标注样本均为人脸图像,且标注信息均为性别。又如,组成训练样本集C的各个标注样本均为人脸图像,且标注信息均为年龄。在实际应用中,对于训练样本集B和C而言,两个样本集中的样本可以是相同的,但是由于标注信息的类型不 同,因此组成了两个不同的训练样本集。
步骤S102,将所述训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型;所述第一识别模型为基于神经网络的模型。
本实施例中,可以将训练样本集中的标注样本按照实际数量尽可能均分给预设数量个子样本集,多出来的余数再按照顺序分别依次分配一个样本给相应的子样本集,直到所有样本全部分配完毕。
具体来说,也就是将训练样本集平均分为预设数量个子样本集,并且使得任意两个子样本集中样本的数量差小于等于1。举例而言,训练样本集中样本数量为1002个,子样本集的数量设定为10个,那么按照上述分配原则,首先将1000个样本均分给10个子样本集,然后将剩余的2个样本分配给其中的2个子样本集,这样,任意两个子样本集中样本的数量差不超过1个。
这种分配方式可以使得各个子样本集中样本数量大致相同,进而在对各个子样本集分别进行训练建立多个第一识别模型时,可以使得训练建立的各个第一识别模型的识别准确率之间不会因训练样本的数量差异而产生差异。
本领域技术人员可以理解的是,第一识别模型是基于子样本集中的样本以及各个样本的标注信息进行训练建立的。样本类型不同,或者样本类型相同但标注信息的类型不同,则训练建立的第一识别模型是不同的。例如,若样本图片为包含字符的图片,标注信息为字符内容,则训练建立的第一识别模型为字符识别模型。若样本为人脸图像,标注信息为性别,则训练建立的第一识别模型用于识别人脸图像中人的性别,若样本为人脸图像,标注信息为人的年龄,则训练建立的第一识别模型用于识别图像中人的年龄。由于步骤S101中训练样本集中各个标注样本的类型相同且标注信息的类型相同,因此训练建立的各个第一识别模型的类型相同。
训练建立的各个第一识别模型是基于神经网络的模型,进一步的可以为深度卷积神经网络或者其他神经网络模型,例如R-CNN、Fast R-CNN、Faster R-CNN、SPP-net、R-FCN、FPN、YOLO、SSD、DenseBox、RetinaNet,以及结合RNN算法的RRC detection、结合DPM的Deformable CNN等。
通常,所述预设数量可以设定为大于等于3,优选的,所述数量设定为大于等于5。所述预设数量可以根据实际应用中训练样本集中标注样本的数量确定。
步骤S103,获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的第一识别模型确定为目标识别模型。
本实施例中,可以从需要进行审核的标注样本中获取部分标注样本组成作为测试使用的识别样本集,例如,从训练样本集中随机抽取部分标注样本,抽取比例可以为5%~20%,识别样本集中样本数量占训练样本集中样本总数量的比例可以视审核结果调整。
针对每一识别样本,均通过步骤S102中建立的多个不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果。举例而言,步骤S102建立的第一识别模型数量为10个,每一第一识别模型对三个识别样本X、Y、Z的识别结果如下表表一所示:
表一
第一识别模型 识别样本X 识别样本Y 识别样本Z
模型1 A A A
模型2 B B A
模型3 C C A
模型4 A A B
模型5 A A B
模型6 A A C
模型7 A A C
模型8 A C C
模型9 A C D
模型10 C C D
统计识别样本X对应的各识别结果的出现次数可知,识别结果A出现了7次,识别结果B出现了1次,识别结果C出现了2次。如果预设阈值设定为4,由于识别结果A出现的次数最多且出现次数7超过了预设阈值,可以认为识别结果A是识别样本X的正确识别结果,即可以认为识别结果为A的第一识别模型能够对识别样本X进行正确的识别、而识别结果为B或C的第一识别模型(模型2、3、10)不能够对识别样本X进行正确识别,进而也可以认为用于训练建立模型2、3、10的子样本集中标注样本的标注信息可能不准确从而导致这三个模型的识别准确率较低。因此,在针对识别样本X的处理过程中,将模型2、3、10确定为目标识别模型。
进一步的,当存在出现次数均不小于预设阈值的多个识别结果时,还可以将目标识别结果对应的第一识别模型也确定为目标识别模型;其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果,也就是说在出现次数不小于预设阈值的识别结果中所述目标识别结果的出现次数最多。
例如,表一中10个第一识别模型对识别样本Y的识别结果中,识别结果A出现了5次,识别结果B出现了1次,识别结果C出现了4次。如果预设阈值设定为4,识别结果A和C的出现次数均超过预设阈值,但是识别结果A的出现次数大于C的出现次数,可以认为识别结果A为识别样本Y的正确识别结果的概率更大,识别结果为C的第一识别模型的识别准确率较低,因此也可以认为识别结果为C的第一识别模型(模型3、8、9、10)对应的子训练集中标注样本的标注信息可能不准确。因此,在针对识别样本Y的处理过程中,不仅将模型2确定为目标识别模型,还可以将模型3、8、9、10也确定为目标识别模型。
在实际应用中,若统计各识别结果的出现次数后发现,各识别结果的出现次数均小于所述预设阈值,则可以对该识别样本进行审核,得到该识别样本的审核结果。进一步的,再判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;如果不存在,则将全部 第一识别模型确定为目标识别模型。
举例而言,如表一中10个第一识别模型对识别样本Z的识别结果中,识别结果A出现了3次,识别结果B出现了2次,识别结果C出现了3次,识别结果D出现了2次。如果预设阈值设定为4,则各识别结果的出现次数均小于预设阈值,表示各个第一识别模型均不能对识别样本Z进行正确识别,因此需要对识别样本Z进行审核,得到识别样本Z的审核结果。一方面,若识别样本Z的审核结果为A,则认为识别结果为A的第一识别模型能够对识别样本Z进行正确的识别,识别结果为B、C或D的第一识别模型(模型4~10)不能对识别样本Z进行正确识别,因此将模型4~10确定为目标识别模型。另一方面,若识别样本Z的审核结果为E,而10个第一识别模型对识别样本Z的识别结果中不存在E,则表示10个第一识别模型均不能对识别样本Z进行正确识别,因此将10个第一识别模型全部确定为目标识别模型。
步骤S104,对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核。
本实施例中,可以将步骤S103中确定的目标识别模型对应的子样本集中的标注样本发送给校验客户端,以使所述校验客户端对接收的标注样本进行标注信息审核。
由于本实施例先将训练样本集分为多个子样本集,并训练得到多个第一识别模型,然后获得识别准确率低的第一识别模型作为目标识别模型,只对目标识别模型对应的子样本集中的标注样本进行审核,而不需要对全部样本进行审核,因此可以提高审核效率。
一种实现方式中,所述校验客户端为通过预先训练建立的第二识别模型对接收的标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值。例如第二识别模型的识别准确率超过99%,以保证校验客户端对标注样本的标注信息的审核准确率,通过第二识别模型校验客户端可以实现对标注样本的自动识别和校验,第二识别模型和第一识别模型的类型相同。或者,所述校验客户端也可以为人工客户端,对接收的标注样本进行人工审核。
综上所述,本实施例首先获取需要进行审核的标注样本并组成训练样本集,然后将训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型,再获取作为测试使用的识别样本集,针对识别样本集中的每一识别样本,均通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于预设阈值的识别结果对应的第一识别模型确定为目标识别模型,进而对所确定的目标识别模型对应的子样本集中的标注样本进行标注信息审核。相比于现有技术由人工对样本集中所有样本的标注信息进行审核的方式,本实施例可以实现对样本标注信息的快速审核,降低时间和人力成本;同时,本发明将训练样本集分为多个子样本集并训练建立多个第一识别模型,这种方式特别适用于训练样本集包含大量需要审核的标注样本的场景。
相应于上述样本标注信息的审核方法实施例,本发明一实施例还提供一种样本标注信息的审核装置,图2是本发明一实施例提供的一种样本标注信息的审核装置的结构示意图。请参考图2,一种样本标注信息的审核装置可以包括:
获取模块201,用于获取需要进行审核的标注样本并组成训练样本集;其中,所述标注样本预先标注有标注信息;
训练模块202,用于将所述训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型;所述第一识别模型为基于神经网络的模型;
识别模块203,用于获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的第一识别模型确定为目标识别模型;
审核模块204,用于对所述目标识别模型对应的子样本集中的标注样本进 行标注信息审核。
可选的,所述识别模块203还用于:
当存在出现次数均不小于预设阈值的多个识别结果时,将目标识别结果对应的第一识别模型确定为目标识别模型;
其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果。
可选的,所述识别模块203还用于:
当各识别结果的出现次数均小于所述预设阈值,对该识别样本进行审核,得到该识别样本的审核结果。
可选的,所述识别模块203还用于:
对该识别样本进行审核之后,判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;如果不存在,则将全部第一识别模型确定为目标识别模型。
可选的,所述预设数量大于等于3。
优选的,所述预设数量大于等于5。
可选的,所述训练模块将所述训练样本集分为预设数量个子样本集,具体为:
将所述训练样本集平均分为预设数量个子样本集,任意两个子样本集中样本的数量差小于等于1。
可选的,所述识别模块203获取作为测试使用的识别样本集,具体为:
从需要进行审核的标注样本中获取部分标注样本组成作为测试使用的识别样本集。
可选的,所述审核模块204对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核,具体为:
将所述目标识别模型对应的子样本集中的标注样本发送给校验客户端,以使所述校验客户端对接收的标注样本进行标注信息审核。
可选的,所述校验客户端为通过预先训练建立的第二识别模型对接收的 标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值;或
所述校验客户端为对接收的标注样本进行人工审核的客户端。
综上所述,本实施例首先获取需要进行审核的标注样本并组成训练样本集,然后将训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型,再获取作为测试使用的识别样本集,针对识别样本集中的每一识别样本,均通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于预设阈值的识别结果对应的第一识别模型确定为目标识别模型,进而对所确定的目标识别模型对应的子样本集中的标注样本进行标注信息审核。相比于现有技术由人工对样本集中所有样本的标注信息进行审核的方式,本实施例可以实现对样本标注信息的快速审核,降低时间和人力成本;同时,本发明将训练样本集分为多个子样本集并训练建立多个第一识别模型,这种方式特别适用于训练样本集包含大量需要审核的标注样本的场景。
本发明一实施例还提供了一种电子设备,图3是本发明一实施例提供的一种电子设备的结构示意图。请参考图3,一种电子设备包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的计算机程序时,实现如下步骤:
获取需要进行审核的标注样本并组成训练样本集;其中,所述标注样本预先标注有标注信息;
将所述训练样本集分为预设数量个子样本集,对不同的子样本集分别进行训练,建立不同的第一识别模型;所述第一识别模型为基于神经网络的模型;
获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的不同的第一识别模型分别进行识别,得到每一第一识别模型对该识别样本的识别结果,统计各识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的第一识别模型确定为目标识别模型;
对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
相比于现有技术由人工对样本集中所有样本的标注信息进行审核的方式,本实施例可以实现对样本标注信息的快速审核,降低时间和人力成本;同时,本实施例将训练样本集分为多个子样本集并训练建立多个第一识别模型,这种方式特别适用于训练样本集包含大量需要审核的标注样本的场景。
另外,处理器301执行存储器303上所存放的程序而实现的样本标注信息的审核方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述的样本标注信息的审核方法的方法步骤。
相比于现有技术由人工对样本集中所有样本的标注信息进行审核的方式,本实施例可以实现对样本标注信息的快速审核,降低时间和人力成本;同时,本实施例将训练样本集分为多个子样本集并训练建立多个第一识别模型,这种方式特别适用于训练样本集包含大量需要审核的标注样本的场景。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (20)

  1. 一种样本标注信息的审核方法,其特征在于,所述方法包括:
    获取需要进行审核的多个标注样本并组成训练样本集;其中,每个所述标注样本预先标注有标注信息;
    将所述训练样本集分为多个子样本集,对所述多个子样本集分别进行训练,建立相应的多个第一识别模型;每个所述第一识别模型均为基于神经网络的模型;
    获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的所述多个第一识别模型分别进行识别,得到所述多个第一识别模型对每个所述识别样本的多个识别结果,统计所述多个识别结果中各种不同的识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的所述第一识别模型确定为目标识别模型;
    对所述目标识别模型对应的所述子样本集中的标注样本进行标注信息审核。
  2. 如权利要求1所述的样本标注信息的审核方法,其特征在于,当存在出现次数均不小于预设阈值的多个识别结果时,所述方法还包括:
    将目标识别结果对应的第一识别模型确定为目标识别模型;
    其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果。
  3. 如权利要求1所述的样本标注信息的审核方法,其特征在于,当各识别结果的出现次数均小于所述预设阈值,所述方法还包括:
    对该识别样本进行审核,得到该识别样本的审核结果。
  4. 如权利要求3所述的样本标注信息的审核方法,其特征在于,对该识别样本进行审核之后,所述方法还包括:
    判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;
    如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;
    如果不存在,则将全部第一识别模型确定为目标识别模型。
  5. 如权利要求1所述的样本标注信息的审核方法,其特征在于,所述预设数量大于或等于3。
  6. 如权利要求5所述的样本标注信息的审核方法,其特征在于,所述预设数量大于或等于5。
  7. 如权利要求1所述的样本标注信息的审核方法,其特征在于,将所述训练样本集分为预设数量个子样本集,包括:
    将所述训练样本集平均分为预设数量个子样本集,任意两个子样本集中样本的数量差小于或等于1。
  8. 如权利要求1所述的样本标注信息的审核方法,其特征在于,获取作为测试使用的识别样本集,包括:
    从需要进行审核的标注样本中获取部分标注样本,组成作为测试使用的识别样本集。
  9. 如权利要求1所述的样本标注信息的审核方法,其特征在于,对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核,包括:
    将所述目标识别模型对应的子样本集中的标注样本发送给校验客户端,以使所述校验客户端对接收的标注样本进行标注信息审核。
  10. 如权利要求9所述的样本标注信息的审核方法,其特征在于,所述校验客户端为通过预先训练建立的第二识别模型对接收的标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值;或
    所述校验客户端为对接收的标注样本进行人工审核的客户端。
  11. 一种样本标注信息的审核装置,其特征在于,所述装置包括:
    获取模块,用于获取需要进行审核的多个标注样本并组成训练样本集;其中,每个所述标注样本预先标注有标注信息;
    训练模块,用于将所述训练样本集分为多个子样本集,对所述多个子样本集分别进行训练,建立相应的多个第一识别模型;每个所述第一识别模型 均为基于神经网络的模型;
    识别模块,用于获取作为测试使用的识别样本集,针对所述识别样本集中的每一识别样本,通过建立的所述多个第一识别模型分别进行识别,得到所述多个第一识别模型对每个所述识别样本的多个识别结果,统计所述多个识别结果中各种不同的识别结果的出现次数,当存在出现次数不小于预设阈值的识别结果时,将出现次数小于所述预设阈值的识别结果对应的所述第一识别模型确定为目标识别模型;
    审核模块,用于对所述目标识别模型对应的所述子样本集中的标注样本进行标注信息审核。
  12. 如权利要求11所述的样本标注信息的审核装置,其特征在于,所述识别模块还用于:
    当存在出现次数均不小于预设阈值的多个识别结果时,将目标识别结果对应的第一识别模型确定为目标识别模型;
    其中,所述目标识别结果为所述多个识别结果中除出现次数最多的识别结果以外的识别结果。
  13. 如权利要求11所述的样本标注信息的审核装置,其特征在于,所述识别模块还用于:
    当各识别结果的出现次数均小于所述预设阈值,对该识别样本进行审核,得到该识别样本的审核结果。
  14. 如权利要求13所述的样本标注信息的审核装置,其特征在于,所述识别模块还用于:
    对该识别样本进行审核之后,判断该识别样本的审核结果是否存在于不同的第一识别模型对该识别样本的识别结果中;如果存在,则将识别结果与所述审核结果不同的第一识别模型确定为目标识别模型;如果不存在,则将全部第一识别模型确定为目标识别模型。
  15. 如权利要求11所述的样本标注信息的审核装置,其特征在于,所述预设数量大于或等于3。
  16. 如权利要求11所述的样本标注信息的审核装置,其特征在于,所述 识别模块获取作为测试使用的识别样本集,包括:
    从需要进行审核的标注样本中获取部分标注样本,组成作为测试使用的识别样本集。
  17. 如权利要求11所述的样本标注信息的审核装置,其特征在于,所述审核模块对所述目标识别模型对应的子样本集中的标注样本进行标注信息审核,包括:
    将所述目标识别模型对应的子样本集中的标注样本发送给校验客户端,以使所述校验客户端对接收的标注样本进行标注信息审核。
  18. 如权利要求17所述的样本标注信息的审核装置,其特征在于,所述校验客户端为通过预先训练建立的第二识别模型对接收的标注样本进行审核的客户端,所述第二识别模型的识别准确率高于一定阈值;或
    所述校验客户端为对接收的标注样本进行人工审核的客户端。
  19. 一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器均通过所述通信总线完成相互间的通信;
    所述存储器,用于存放计算机程序;
    所述处理器,用于执行所述存储器上所存放的所述计算机程序时,实现如权利要求1-10中任一所述的方法。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
PCT/CN2020/095978 2019-06-20 2020-06-12 样本标注信息的审核方法及装置 WO2020253636A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910538177.X 2019-06-20
CN201910538177.XA CN110222791B (zh) 2019-06-20 2019-06-20 样本标注信息的审核方法及装置

Publications (1)

Publication Number Publication Date
WO2020253636A1 true WO2020253636A1 (zh) 2020-12-24

Family

ID=67814089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/095978 WO2020253636A1 (zh) 2019-06-20 2020-06-12 样本标注信息的审核方法及装置

Country Status (2)

Country Link
CN (1) CN110222791B (zh)
WO (1) WO2020253636A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034025A (zh) * 2021-04-08 2021-06-25 成都国星宇航科技有限公司 一种遥感图像标注系统和方法
CN113839953A (zh) * 2021-09-27 2021-12-24 上海商汤科技开发有限公司 一种标注方法及装置、电子设备和存储介质
CN114189709A (zh) * 2021-11-12 2022-03-15 北京天眼查科技有限公司 一种审核视频的方法、装置及存储介质和电子设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222791B (zh) * 2019-06-20 2020-12-04 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN110705257B (zh) * 2019-09-16 2021-06-25 腾讯科技(深圳)有限公司 媒体资源的识别方法、装置、存储介质及电子装置
CN110852376B (zh) * 2019-11-11 2023-05-26 杭州睿琪软件有限公司 用于识别生物种类的方法及系统
CN111160188A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 金融票据识别方法、装置、设备及存储介质
CN111259980B (zh) * 2020-02-10 2023-10-03 北京小马慧行科技有限公司 标注数据的处理方法和装置
CN112070224B (zh) * 2020-08-26 2024-02-23 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112328822B (zh) * 2020-10-15 2024-04-02 深圳市优必选科技股份有限公司 图片预标注方法、装置及终端设备
CN114240101A (zh) * 2021-12-02 2022-03-25 支付宝(杭州)信息技术有限公司 一种风险识别模型的验证方法、装置以及设备
CN114219501B (zh) * 2022-02-22 2022-06-28 杭州衡泰技术股份有限公司 样本标注资源分配方法、装置及应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600776B1 (en) * 2013-11-22 2017-03-21 Groupon, Inc. Automated adaptive data analysis using dynamic data quality assessment
US20180114101A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260342A1 (en) * 2006-05-08 2007-11-08 Standard Aero Limited Method for inspection process development or improvement and parts inspection process
CN101359372B (zh) * 2008-09-26 2011-05-11 腾讯科技(深圳)有限公司 分类器的训练方法及装置、识别敏感图片的方法及装置
CN104751188B (zh) * 2015-04-15 2020-04-28 爱威科技股份有限公司 一种图片处理方法及系统
CN108806668A (zh) * 2018-06-08 2018-11-13 国家计算机网络与信息安全管理中心 一种音视频多维度标注与模型优化方法
CN109583468B (zh) * 2018-10-12 2020-09-22 阿里巴巴集团控股有限公司 训练样本获取方法,样本预测方法及对应装置
CN109784391B (zh) * 2019-01-04 2021-01-05 杭州比智科技有限公司 基于多模型的样本标注方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600776B1 (en) * 2013-11-22 2017-03-21 Groupon, Inc. Automated adaptive data analysis using dynamic data quality assessment
US20180114101A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109284784A (zh) * 2018-09-29 2019-01-29 北京数美时代科技有限公司 一种针对直播场景视频的内容审核模型训练方法及装置
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034025A (zh) * 2021-04-08 2021-06-25 成都国星宇航科技有限公司 一种遥感图像标注系统和方法
CN113034025B (zh) * 2021-04-08 2023-12-01 成都国星宇航科技股份有限公司 一种遥感图像标注系统和方法
CN113839953A (zh) * 2021-09-27 2021-12-24 上海商汤科技开发有限公司 一种标注方法及装置、电子设备和存储介质
CN114189709A (zh) * 2021-11-12 2022-03-15 北京天眼查科技有限公司 一种审核视频的方法、装置及存储介质和电子设备

Also Published As

Publication number Publication date
CN110222791B (zh) 2020-12-04
CN110222791A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
WO2020253636A1 (zh) 样本标注信息的审核方法及装置
CN110245716B (zh) 样本标注审核方法及装置
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
WO2020253740A1 (zh) 用于样本审核的人工客户端的状态检查方法及装置
CN109740668B (zh) 深度模型训练方法及装置、电子设备及存储介质
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
WO2020253741A1 (zh) 利用错误样本检查人工客户端状态的方法及装置
US11721229B2 (en) Question correction method, device, electronic equipment and storage medium for oral calculation questions
US11281939B2 (en) Method and apparatus for training an object identification neural network, and computer device
WO2022027913A1 (zh) 目标检测模型生成方法、装置、设备及存储介质
CN108509988B (zh) 一种试卷分数自动统计方法、装置、电子设备及存储介质
CN111401238B (zh) 一种视频中人物特写片段的检测方法及装置
CN110570390B (zh) 一种图像检测方法及装置
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN110728193B (zh) 一种脸部图像丰富度特征的检测方法及设备
CN111242158A (zh) 神经网络训练方法、图像处理方法及装置
CN105302715B (zh) 应用程序用户界面的获取方法和装置
CN112328822A (zh) 图片预标注方法、装置及终端设备
CN114049578A (zh) 一种敏感图片的识别方法和装置
TW201816659A (zh) 一種條形碼的識別方法和裝置
CN114186637A (zh) 流量识别方法、装置、服务器和存储介质
CN113033500A (zh) 动作片段检测方法、模型训练方法及装置
CN112926608A (zh) 一种图像分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20827367

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20827367

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20827367

Country of ref document: EP

Kind code of ref document: A1