WO2021169207A1 - 基于机器学习的物品识别方法及装置 - Google Patents
基于机器学习的物品识别方法及装置 Download PDFInfo
- Publication number
- WO2021169207A1 WO2021169207A1 PCT/CN2020/111373 CN2020111373W WO2021169207A1 WO 2021169207 A1 WO2021169207 A1 WO 2021169207A1 CN 2020111373 W CN2020111373 W CN 2020111373W WO 2021169207 A1 WO2021169207 A1 WO 2021169207A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- item
- probability
- training model
- target
- suspected
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于人工智能领域,本申请提供了一种基于机器学习的物品识别方法及装置,该方法包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。通过本申请,解决了相关技术中对物品识别不准确等技术问题。
Description
本申请要求于2020年02月27日提交中国专利局、申请号为202010123160.0,发明名称为“基于机器学习的物品识别方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及计算机领域,具体而言,涉及一种基于机器学习的物品识别方法及装置。
目前,无人零售行业异常火爆,而对零售商品的识别是技术关键,在便利店场景下实现无人零售的市场中有很大的需求。
相关技术中,通过人工将零售商品的条形码对准扫码器的扫码区,来进行识别零售商品,发明人意识到,该方法存在自动化程度不高的情况,影响用户体验。其次,由于条形码本身存在易变形、易损坏等缺陷,导致扫码器的识别准确率不高等问题。另外,现有的还有采用在零售商品上贴RFID(全称为Radio Frequency Identification,无线射频识别技术)标签,通过采用计算机视觉和深度学习结合的商品识别方法进行识别,但是,贴RFID标签的成本较高,比如标签本身成本、贴标人力成本、贴标时间成本等,平均到单件商品上是占了一定商品售价比例的,尤其是部分零售商品单品利润极低,更加降低了商家利润。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本申请实施例提供了一种基于机器学习的物品识别方法及装置,以至少解决相关技术中对物品识别不准确等技术问题。
根据本申请的一个实施例,提供了一种基于机器学习的物品识别方法,包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
根据本申请的一个实施例,还提供了一种基于机器学习的物品识别装置,包括:第一采集模块,用于通过图像采集装置采集目标物品的第一包装图像;计算模块,用于将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;识别模块,用于将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以下步骤:
通过图像采集装置采集目标物品的第一包装图像;
将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
根据本申请的又一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行以下步骤:
通过图像采集装置采集目标物品的第一包装图像;
将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
通过本申请,将采集目标物品的包装图像输入训练模型中,通过训练模型计算目标物品为疑似物品的概率值,在所述概率值符合预定条件时,将目标物品识别为疑似物品,解决了相关技术中对物品识别不准确等技术问题。
图1是本申请实施例的一种基于机器学习的物品识别方法应用于计算机终端的硬件结构框图;
图2是根据本申请提供的一种基于机器学习的物品识别方法的流程图;
图3是根据本申请实施例提供的商品的文字信息示例图;
图4是根据本申请实施例提供的商品的外观包装信息示例图;
图5是根据本申请一具体实施例提供的一种商品识别方法的示意图;
图6是根据本申请一具体实施例提供的α的试验结果演示图;
图7是根据本申请实施例的一种基于机器学习的物的识别装置的结构框图。
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本申请实施例的一种基于机器学习的物品识别方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的基于机器学习的物品识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于机器学习的物品识别方法,图2是根据本申请提供的一种基于机器学习的物品识别方法的流程图。如图2所示,该流程包括如下步骤:
步骤S202,通过图像采集装置采集目标物品的第一包装图像;
步骤S204,将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值,其中,疑似物品为目标物品的一个或多个预设样本;
本实施例中的疑似物品是指目标物品疑似为一个或多个预设样本中的任一预设样本。
步骤S206,将目标物品识别为概率值符合预定条件的一个疑似物品。
通过上述步骤,将采集目标物品的包装图像输入训练模型中,通过训练模型计算目标 物品为疑似物品的概率值,在所述概率值符合预定条件时,将目标物品识别为疑似物品,解决了相关技术中对物品识别不准确等技术问题。
在一个可选的实施例中,在将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值之前,还包括:采集预设样本的第二包装图像;提取第二包装图像的文字特征和外观特征,其中,外观特征至少包括:第二包装图像的色彩信息,第二包装图像的图案信息,预设样本的形状信息;基于文字特征和外观特征训练初始模型,得到训练模型。
在本实施例中,预先采集目标物品的历史版本的图像数据集,图像中包括文字信息和外观包装信息,其中,文字信息包括物品的logo(商标),名称,或者广告语等文本,外观包装信息即商品的包装设计风格特征信息,包括物品的颜色,图案或者形状等包装设计风格。以市面上coca cola(可口可乐)饮料为例,如图3和图4所示,图3是根据本申请实施例提供的商品的文字信息示例图,图4是根据本申请实施例提供的商品的外观包装信息示例图。
在一个可选的示例中,基于文字特征和外观特征训练初始模型,得到训练模型包括:通过文字特征和卷积神经网络的第一权重系数训练卷积神经网络,得到第一训练模型和第一训练模型的第一模型参数;以及通过外观特征和高斯随机网络的第二权重系数训练高斯随机网络,得到第二训练模型和第二训练模型的第二模型参数。
在一个可选的实施例中,首先,将采集到的图像数据集划分为训练集和测试集,其中,训练集和测试集可以根据生成随机数按比例划分,比如将训练集和测试集按照比例8:2进行划分,若共采集到100张图片,通过生成1~100的随机数,先抽取20张作为测试集,剩下的80张将作为训练集。
其次,根据训练集和测试集分别对卷积神经网络和高斯随机网络,以最小化代价函数为目标进行训练,得到第一训练模型和第一模型参数以及第二训练模型和第二模型参数。其中,卷积神经网络和高斯随机网络的初始模型参数(即上述第一权重系数和第二权重系数)可以来源于非商品信息的预训练,即从学术界公开的大型数据集进行训练得到(比如Imagenet,Imagenet项目是一个用于视觉对象识别软件研究的大型可视化数据库),随后再不断迭代减小优化函数得到,例如,卷积神经网络的输出值与期望目标的差距大小不断迭代减小的过程中,初始权值会通过神经网络反向传播的原理不断改变,最终达到符合商品数据集的参数需求。
根据上述实施例,将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值包括:分别将第一包装图像输入训练模型中的第一训练模型和训练模型中的第二训练模型;通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率;以及通过第二训练模型计算第一包装图像的目标外观特征为疑似物品的外观特征的第二概率;根据第一概率和第二概率计算目标物品为疑似物品的概率值。
可选的,第一训练模型包括:卷积层、池化层、激励层和反卷积层,用于检测物品的包装图像中是否有文本,以及在有文本情况下,检测文本征所位于包装图像中的文本区域,并将文本区域输入文字识别模块中,计算包装图像中的文字与历史版本的预设样本的文字之间的相似度(即上述第一概率);第二训练模型包括:卷积层、池化层、激励层和全连接层,用于计算目标物品的包装与历史版本的预设样本的包装之间的相似度(即上述第二概率)。
优选地,通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率包括:检测第一包装图像中是否存在目标文本;在检测第一包装图像中存在目标文本的情况下,对目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对疑似物品的文本进行N-GRAM编码,得到第二字符串;将第一字符串与第二字符串进行匹配,以计算第一概率。
在一个可选的实施例中,假设有两个字符串:字符串1和字符串2,分别求字符串1的N-GRAM和字符串2的N-GRAM,查找它们的共有子字符串的数量,根据共有的子字符串去定义两个字符串间的N-GRAM距离;然后通过匹配两个字符串之间的N-GRAM距离和公共子字符串数量的概率,得到文字相似度概率。
在一个示例中,以字符串1为coca,字符串2为coco为例,根据公式:|G
N(s)|+|G
N(t)|-2×|G
N(s)∩G
N(t)|,得到字符串1和字符串2之间的N-GRAM距离分值。其中,|G
N(s)|是字符串1的N-GRAM集合,|G
N(t)|是字符串2的N-GRAM集合,N值一般取2或者3。假设N=2,字符串1和字符串2共有的子字符串是co,有1个,每个字符串共分2段,则根据上面公式得到:2+2-2*1=2。
根据上述示例,两个字符串之间的N-GRAM距离越小,两个字符串就越接近。当两个字符串完全相等的时候,它们之间的距离就是0。最后对两个字符串之间的N-GRAM距离分值进行归一化为[0,1],得到文字相似度(即上述第一概率)。
在一个可选的实施例中,根据第一概率和第二概率计算目标物品为疑似物品的概率值y的公式为:y=(1-α)f(W
tx
t)+αf(W
sx
s),其中,f(W
tx
t)表示第一概率;W
t表示第一训练模型的第一模型参数;x
t表示目标文字特征;f(W
sx
s)表示第二概率,W
s表示第二训练模型的第二模型参数;x
s表示目标外观特征;α表示第一概率与第二概率之间的权重系数。在本实施例中,在得到第一概率与第二概率之后,对两个概率值进行加权计算,得到目标物品与疑似物品的相似度(即上述概率值y)。
在一个示例中,将目标物品识别为概率值符合预定条件的一个疑似物品至少包括:在疑似物品为一个预设样本的情况下,在概率值大于或等于阈值时,将目标物品识别为疑似物品;在疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将目标物品识别为最大概率值对应的一个疑似物品。
在本实施例中,在目标物品的历史版本(即上述预设样本)为一个的情况时,若计算出来目标物品与一个疑似物品的概率值y大于或等于阈值(比如90%),则将目标物品识别为疑似物品;在目标物品的历史版本(即上述预设样本)为多个的情况时,分别计算目标物品与每一个疑似物品的概率值y,得到多个概率值,从多个概率值中选择概率值最大的y所对应的预设样本,将目标物品识别为概率值最大的y所对应的预设样本。
可选地,在将目标物品识别为概率值符合预定条件的一个疑似物品之后,还包括:查询疑似物品的价格信息;依据价格信息输出目标物品的待结算金额。在本实施例中,以无人零售场景为例,在识别出目标物品之后,即确定了待结算物品以及待结算物品的价格信息(即上述结算规则),然后输出价格信息,以便用户支付待结算物品的费用。
下面结合一具体实施例对本申请实施例进一步的说明:
图5是根据本申请实施例提供的一商品的识别方法的示意图,如图5所示,先通过摄像头获取目标商品的包装图像(即上述第一包装图像),将目标商品的包装图像输入训练模型中,
针对文字特征的识别,根据输入的目标商品图像,检索历史保存的包装图像(即上述第二包装图像),检测出包装特征向量;通过高斯随机网络提取包装特征向量中的真实特征向量(即有效的文字区域);将文字区域输入文字识别模块,通过计算N-GRAM编码计算目标包装图像中的文字与历史保存的包装图像中的文字相似度(即上述第一概率)。
针对外观特征的识别,根据输入的目标商品图像的外观特征(即上述目标外观特征),检索历史保存的包装图像,对历史保存的包装图像进行随机裁剪,得到随机贴片,通过高斯随机网络计算目标商品的外观特征与历史保存的包装图像的外观特征之间的相似度(即 上述第二概率)。
最后对识别到的文字特征和外观特征进行特征融合,并进行分类,从而确定目标商品为历史保存图像中的物品样本中的其中一个,比如Cola(可乐)。
在本实施例中,通过将目标商品的包装设计风格识别、包装文字区域检测、包装文字识别;最后将识别的结果融合。其中,对于文字特征和外观特征之间的权重调节参数α的确定可以通过多次试验得到,例如α=0.1,0.2,0.4,0.6等,根据多次试验得到,当α=0.4时,效果最好,实验结果演示如下图6所示,图6是根据本申请一具体实施例提供的α的试验结果演示图。
最后,将识别的准确率与相关技术中的其他方法比较。例如,以表1的方式表示目标商品疑似为多个预设商品的概率统计数据。
表1
在本实施例中,如表1所示,当α=0.4时,假设有k=4个物品样本,通过相关技术中采用gk+SC的计算方式,分别计算目标商品疑似为每个物品样本的概率,分别为:60.03,61.78,61.43,61.08;显然概率最大的是61.78;而通过本申请实施例的融合网络(Fus ionNet)计算得到的目标商品疑似为各个物品样本的概率,分别为:85.17,86.39,85.86,85.69,其中,概率最大的是86.39,将概率86.39所对应的物品样本确定为最终的待结算的商品,显然本申请实施例的识别结果的准确率更高。
通过上述实施例,通过机器学习对目标商品的文字特征和外观特征进行识别,来确定目标商品,解决了相关技术中对商品识别不准确的技术问题,本申请实施例的技术方案具有自动化程度高、成本低廉、准确率高等优点,在无人零售行业中,需要购物结账时,不需要商品的条码、标签等标志,通过大量的商品图像来学习商品包装本身的特征,实现了具有自动识别商品图像的能力,进而提高了商品的识别效率。
实施例2
在本实施例中还提供了一种基于机器学习的物品识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本申请实施例的一种基于机器学习的物品识别装置的结构框图,如图7所示,该装置包括:第一采集模块702,用于通过图像采集装置采集目标物品的第一包装图像;计算模块704,连接至上述第一采集模块702,用于将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值,其中,疑似物品为目标物品的一个或多个预设样本;识别模块706,连接至上述计算模块704,用于将目标物品识别为概率值符合预定条件的一个疑似物品。
可选的,上述装置还包括:第二采集模块,用于在将第一包装图像输入训练模型,得到目标物品为疑似物品的概率值之前,采集预设样本的第二包装图像;提取模块,用于提取第二包装图像的文字特征和外观特征,其中,外观特征至少包括:第二包装图像的色彩信息,第二包装图像的图案信息,预设样本的形状信息;训练模块,用于基于文字特征和 外观特征训练初始模型,得到训练模型。
可选的,训练模块包括:第一训练单元,用于通过文字特征和卷积神经网络的第一权重系数训练卷积神经网络,得到第一训练模型和第一训练模型的第一模型参数;以及第二训练单元,用于通过外观特征和高斯随机网络的第二权重系数训练高斯随机网络,得到第二训练模型和第二训练模型的第二模型参数。
可选的,计算模块704包括:输入单元,用于分别将第一包装图像输入训练模型中的第一训练模型和训练模型中的第二训练模型;第一计算单元,用于通过第一训练模型计算第一包装图像的目标文字特征为疑似物品的文字特征的第一概率;以及第二计算单元,用于通过第二训练模型计算第一包装图像的目标外观特征为疑似物品的外观特征的第二概率;第三计算单元,用于根据第一概率和第二概率计算目标物品为疑似物品的概率值。
可选的,第一计算单元包括:检测子单元,检测第一包装图像中是否存在目标文本;编码子单元,用于在检测第一包装图像中存在目标文本的情况下,对目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对疑似物品的文本进行N-GRAM编码,得到第二字符串;计算子单元,用于将第一字符串与第二字符串进行匹配,以计算第一概率。
可选的,第三计算单元用于计算概率值y的公式为:y=(1-α)f(W
tx
t)+αf(W
sx
s),其中,f(W
tx
s)表示第一概率;W
t表示第一训练模型的第一模型参数;x
t表示目标文字特征;f(W
sx
s)表示第二概率,W
s表示第二训练模型的第二模型参数;x
s表示目标外观特征;α表示第一概率与第二概率之间的权重系数。
可选的,识别模块706包括:第一识别单元,用于在疑似物品为一个预设样本的情况下,在概率值大于或等于阈值时,将目标物品识别为疑似物品;第二识别单元,用于在疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,,并将目标物品识别为最大概率值对应的一个疑似物品。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本申请的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。其中,所述计算机可读存储介质可以是非易失性,也可以是易失性的。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过图像采集装置采集目标物品的第一包装图像;
S2,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
S3,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和 上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,通过图像采集装置采集目标物品的第一包装图像;
S2,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;
S3,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (20)
- 一种基于机器学习的物品识别方法,其中,包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
- 根据权利要求1所述的方法,其中,在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,所述方法还包括:采集所述预设样本的第二包装图像;提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
- 根据权利要求2所述的方法,其中,基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型包括:通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
- 根据权利要求1所述的方法,其中,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值包括:分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及通过所述第二训练模型计算所述第一包装图像的目标外观特征为所述疑似物品的外观特征的第二概率;根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
- 根据权利要求4所述的方法,其中,通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率包括:检测所述第一包装图像中是否存在目标文本;在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
- 根据权利要求4所述的方法,其中,根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值y的公式为:y=(1-α)f(W tx t)+αf(W sx s),其中,f(W tx t)表示所述第一概率;W t表示所述第一训练模型的第一模型参数;x t表示所述目标文字特征;f(W sx s)表示所述第二概率,W s表示所述第二训练模型的第二模型参数;x s表示所述目标外观特征;α表示所述第一概率与所述第二概率之间的权重系数。
- 根据权利要求1所述的方法,其中,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品至少包括:在所述疑似物品为一个预设样本的情况下,在所述概率值大于或等于阈值时,将所述目标物品识别为所述疑似物品;在所述疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将所述目标物品识别为最大概率值对应的一个疑似物品。
- 一种基于机器学习的物品识别装置,其中,包括:第一采集模块,用于通过图像采集装置采集目标物品的第一包装图像;计算模块,用于将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;识别模块,用于将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
- 一种计算机设备,其中,所述计算机设备包括存储器和处理器,所述存储器和所述处理器相互连接,所述存储器用于存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序配置用于执行基于机器学习的物品识别方法:其中,所述方法包括:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
- 根据权利要求9所述的计算机设备,其中,在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,所述方法还包括:采集所述预设样本的第二包装图像;提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
- 根据权利要求10所述的计算机设备,其中,基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型包括:通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
- 根据权利要求9所述的计算机设备,其中,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值包括:分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及通过所述第二训练模型计算所述第一包装图像的目标外观特征为所述疑似物品的外观特征的第二概率;根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
- 根据权利要求12所述的计算机设备,其中,通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率包括:检测所述第一包装图像中是否存在目标文本;在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模 型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
- 根据权利要求12所述的计算机设备,其中,根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值y的公式为:y=(1-α)f(W tx t)+αf(W sx s),其中,f(W tx t)表示所述第一概率;W t表示所述第一训练模型的第一模型参数;x t表示所述目标文字特征;f(W sx s)表示所述第二概率,W s表示所述第二训练模型的第二模型参数;x s表示所述目标外观特征;α表示所述第一概率与所述第二概率之间的权重系数。
- 根据权利要求9所述的计算机设备,其中,将所述目标物品识别为所述概率值符合预定条件的一个疑似物品至少包括:在所述疑似物品为一个预设样本的情况下,在所述概率值大于或等于阈值时,将所述目标物品识别为所述疑似物品;在所述疑似物品为多个预设样本的情况下,从多个概率值中选择最大概率值,并将所述目标物品识别为最大概率值对应的一个疑似物品。
- 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时用于实现基于机器学习的物品识别方法,所述方法包括以下步骤:通过图像采集装置采集目标物品的第一包装图像;将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值,其中,所述疑似物品为所述目标物品的一个或多个预设样本;将所述目标物品识别为所述概率值符合预定条件的一个疑似物品。
- 根据权利要求16所述的计算机可读存储介质,其中,在将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值之前,所述方法还包括:采集所述预设样本的第二包装图像;提取所述第二包装图像的文字特征和外观特征,其中,所述外观特征至少包括:所述第二包装图像的色彩信息,所述第二包装图像的图案信息,所述预设样本的形状信息;基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型。
- 根据权利要求17所述的计算机可读存储介质,其中,基于所述文字特征和所述外观特征训练初始模型,得到所述训练模型包括:通过所述文字特征和卷积神经网络的第一权重系数训练所述卷积神经网络,得到第一训练模型和所述第一训练模型的第一模型参数;以及通过所述外观特征和高斯随机网络的第二权重系数训练所述高斯随机网络,得到第二训练模型和所述第二训练模型的第二模型参数。
- 根据权利要求16所述的计算机可读存储介质,其中,将所述第一包装图像输入训练模型,得到所述目标物品为疑似物品的概率值包括:分别将所述第一包装图像输入所述训练模型中的第一训练模型和所述训练模型中的第二训练模型;通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率;以及通过所述第二训练模型计算所述第一包装图像的目标外观特征为所 述疑似物品的外观特征的第二概率;根据所述第一概率和所述第二概率计算所述目标物品为所述疑似物品的概率值。
- 根据权利要求19所述的计算机可读存储介质,其中,通过所述第一训练模型计算所述第一包装图像的目标文字特征为所述疑似物品的文字特征的第一概率包括:检测所述第一包装图像中是否存在目标文本;在检测所述第一包装图像中存在目标文本的情况下,对所述目标文本进行汉语语言模型N-GRAM编码,得到第一字符串;以及对所述疑似物品的文本进行N-GRAM编码,得到第二字符串;将所述第一字符串与所述第二字符串进行匹配,以计算所述第一概率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123160.0A CN111460888A (zh) | 2020-02-27 | 2020-02-27 | 基于机器学习的物品识别方法及装置 |
CN202010123160.0 | 2020-02-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021169207A1 true WO2021169207A1 (zh) | 2021-09-02 |
Family
ID=71679954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/111373 WO2021169207A1 (zh) | 2020-02-27 | 2020-08-26 | 基于机器学习的物品识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111460888A (zh) |
WO (1) | WO2021169207A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460888A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
CN113076755B (zh) * | 2021-04-14 | 2024-04-09 | 京东科技控股股份有限公司 | 关键词提取方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040165748A1 (en) * | 1999-12-08 | 2004-08-26 | Federal Express Corporation | Method and apparatus for reading and decoding information |
CN107480682A (zh) * | 2017-08-25 | 2017-12-15 | 重庆慧都科技有限公司 | 一种商品包装生产日期检测方法 |
CN107748973A (zh) * | 2017-09-29 | 2018-03-02 | 时瑞科技(深圳)有限公司 | 商品识别系统及自动识别售卖或入库方法 |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109886092A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 对象识别方法及其装置 |
CN111460888A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726307B2 (en) * | 2017-06-30 | 2020-07-28 | Ai Systems Co., Ltd. | Real-time identification of moving objects in video images |
CN109635690A (zh) * | 2018-11-30 | 2019-04-16 | 任飞翔 | 基于视觉的商品识别检测方法及装置 |
-
2020
- 2020-02-27 CN CN202010123160.0A patent/CN111460888A/zh active Pending
- 2020-08-26 WO PCT/CN2020/111373 patent/WO2021169207A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040165748A1 (en) * | 1999-12-08 | 2004-08-26 | Federal Express Corporation | Method and apparatus for reading and decoding information |
CN107480682A (zh) * | 2017-08-25 | 2017-12-15 | 重庆慧都科技有限公司 | 一种商品包装生产日期检测方法 |
CN107748973A (zh) * | 2017-09-29 | 2018-03-02 | 时瑞科技(深圳)有限公司 | 商品识别系统及自动识别售卖或入库方法 |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109886092A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 对象识别方法及其装置 |
CN111460888A (zh) * | 2020-02-27 | 2020-07-28 | 平安科技(深圳)有限公司 | 基于机器学习的物品识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111460888A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657602B2 (en) | Font identification from imagery | |
US11514698B2 (en) | Intelligent extraction of information from a document | |
US10635949B2 (en) | Latent embeddings for word images and their semantics | |
JP6098701B2 (ja) | 複数の整理されたオブジェクトを含む画像を解析する方法、システム及びコンピュータ可読プログラム | |
US8644610B1 (en) | Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device | |
WO2019194986A1 (en) | Automated extraction of product attributes from images | |
US20200004815A1 (en) | Text entity detection and recognition from images | |
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
US20150235297A1 (en) | Screenshot-based e-commerce | |
CN109635705B (zh) | 一种基于二维码和深度学习的商品识别方法及装置 | |
EP4062348A1 (en) | Methods, systems, apparatus and articles of manufacture for receipt decoding | |
WO2021169207A1 (zh) | 基于机器学习的物品识别方法及装置 | |
US20210034907A1 (en) | System and method for textual analysis of images | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
US20150186739A1 (en) | Method and system of identifying an entity from a digital image of a physical text | |
US9256805B2 (en) | Method and system of identifying an entity from a digital image of a physical text | |
CN113627508B (zh) | 陈列场景识别方法、装置、设备以及存储介质 | |
CN112308059A (zh) | 用于电子商务的商品信息翻译方法、系统和可读存储介质 | |
CN113935774A (zh) | 图像处理方法、装置、电子设备及计算机存储介质 | |
US20210166028A1 (en) | Automated product recognition, analysis and management | |
JP2023156991A (ja) | 情報処理システム | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
Varghese et al. | An AI-Based Fake Products Identification System | |
CN113408530B (zh) | 一种图像识别方法、装置、设备以及存储介质 | |
JP7343115B1 (ja) | 情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20921240 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20921240 Country of ref document: EP Kind code of ref document: A1 |