WO2019137186A1

WO2019137186A1 - 一种食物识别方法及装置、存储介质、计算机设备

Info

Publication number: WO2019137186A1
Application number: PCT/CN2018/122855
Authority: WO
Inventors: 刁梁; 唐天; 顾海松
Original assignee: 美的集团股份有限公司
Priority date: 2018-01-09
Filing date: 2018-12-21
Publication date: 2019-07-18
Also published as: CN108205664A; CN108205664B

Abstract

一种食物识别方法及装置、存储介质、计算机设备，所述方法包括：确定食物的拍摄路径（101）；指示终端按照所述拍摄路径进行移动（102）；拍摄所述食物，基于拍摄结果生成视频数据（103）；基于所述视频数据识别所述食物（104）。

Description

一种食物识别方法及装置、存储介质、计算机设备

相关申请的交叉引用

本申请基于申请号为201810017522.0、申请日为2018年01月09日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及识别技术，尤其涉及一种食物识别方法及装置、存储介质、计算机设备。

背景技术

随着人工智能以及大数据技术的快速发展，越来越多的产品开始向智能化发展，较之非智能化产品，智能化产品多有功能更加强大，用户体验更加舒适等特点。针对人们的日常健康管理，食物与饮食作为健康的入口，是健康管理主要的监控对象之一，如何便捷快速的定位饮食信息是健康管理的一大难题。

目前，对食物进行识别的方式较多是对食物的图像进行识别，然而，这种识别方式具有识别准确低的缺点，如何准确地识别出食物的信息有待解决。

申请内容

为解决上述技术问题，本申请实施例提供了一种食物识别方法及装置、存储介质、计算机设备。

本申请实施例提供的食物识别方法，包括：

确定食物的拍摄路径；

指示终端按照所述拍摄路径进行移动；

拍摄所述食物，基于拍摄结果生成视频数据；

基于所述视频数据识别所述食物。

本申请实施例中，所述方法还包括：

检测食物的位置；

基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径；

指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。

本申请实施例中，所述检测食物的位置，包括：

拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

基于所述图像数据，确定所述食物的位置。

本申请实施例中，所述方法还包括：

采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；

记录所述视频数据中的每帧图像数据对应的传感器数据。

本申请实施例中，所述基于所述视频数据识别所述食物，包括：

按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据；

将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。

本申请实施例中，所述视频识别模型至少包括：长短期记忆(LSTM，Long Short-Term Memory)模型。

本申请实施例中，所述方法还包括：

根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；

基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径。

本申请实施例提供的食物识别装置，所述装置包括：

第一确定单元，配置为确定食物的拍摄路径；

第一指示单元，配置为指示终端按照所述拍摄路径进行移动；

拍摄单元，配置为拍摄所述食物，基于拍摄结果生成视频数据；

识别单元，配置为基于所述视频数据识别所述食物。

本申请实施例中，所述装置还包括：

检测单元，配置为检测食物的位置；

生成单元，配置为基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径；

第二指示单元，配置为指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。

本申请实施例中，所述检测单元包括：

所述拍摄单元，配置为拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

第二确定单元，配置为基于所述图像数据，确定所述食物的位置。

本申请实施例中，所述装置还包括：

采集单元，配置为采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；

存储单元，配置为记录所述视频数据中的每帧图像数据对应的传感器数据。

本申请实施例中，所述识别单元，配置为按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据；将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。

本申请实施例中，所述视频识别模型至少包括：LSTM模型。

本申请实施例中，所述装置还包括：

更新单元，配置为根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径。

本申请实施例提供的存储介质，其上存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述的食物识别方法。

本申请实施例提供的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，所述处理器执行所述计算机可执行指令时实现上述的食物识别方法。

本申请实施例的技术方案中，通过对食物进行拍摄，得到食物的一系列视频数据，对该一系列视频数据进行识别，得到食物的信息，由于视频数据是在终端移动的过程中拍摄得到，因而视频数据中包括食物处于不同视角的图像数据，对这些不同视角的图像数据进行识别，能大大提高识别准确度。

附图说明

图1为本申请实施例的食物识别方法的流程示意图一；

图2为本申请实施例的食物识别方法的流程示意图二；

图3为本申请实施例的预调整路径移的示意图；

图4为本申请实施例的食物识别方法的流程示意图；

图5为本申请实施例的拍摄路径的示意图；

图6为本申请实施例的食物识别装置的结果组成示意图一；

图7为本申请实施例的食物识别装置的结果组成示意图二；

图8为本申请实施例的计算机设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例中的终端可以指手机、平板电脑、掌上电脑、游戏机、相机等移动设备。终端上至少具有拍摄装置和处理装置，其中，拍摄装置用于提供拍摄功能，拍摄装置可以是任意类型的摄像头；处理装置用于提供识别处理功能，处理装置可以包括但不限于微处理器(MCU，Micro Controller Unit)或可编程逻辑器件(FPGA，Field Programmable Gate Array)等的处理装置。此外，终端还可以包括更多的装置，例如用于存储数据的存储器、用于实现通信功能的传输装置、用于实现显示功能的显示器。本申请实施例的技术方案应用于终端中，以下对本申请实施例的技术方案进行描述。

图1为本申请实施例的食物识别方法的流程示意图一，如图1所示，所述食物识别方法包括以下步骤：

步骤101：确定食物的拍摄路径。

本申请实施例中，食物的种类不做限制，食物可以是未经加工的食物，例如苹果。也可以是通过某种特殊烹饪方法加工过的食物，例如麻婆豆腐。

本申请实施例中，食物的拍摄路径可以根据预设的策略来确定。以下列举出几种策略：

策略一：终端为用户提供多种选项，每种选项对应一种拍摄路径；用户可以选择自己需要的拍摄路径。

策略二：终端粗略检测食物的信息，根据检测到的食物的信息来适应性选择合适的拍摄路径。

策略三：终端提供拍摄路径的若干个设置选项，由用户自定义拍摄路径。

步骤102：指示终端按照所述拍摄路径进行移动。

在一实施方式中，终端的移动通过用户来控制，具体地，用户手持终端，在终端的显示屏上显示有拍摄路径，此外，还可以显示有终端相对于拍摄路径的位置。进一步，在显示屏上显示有箭头，用于指引用户朝哪个方向移动终端，与此同时，指引了终端按照拍摄路径进行移动。这里，指示终端按照所述拍摄路径进行移动，包括两个部分：1)指示终端的位置移动；2)指示终端的姿态改变(即终端的朝向改变)。

在一实施方式中，可以指示终端围绕食物进行水平360度的转动。

步骤103：拍摄所述食物，基于拍摄结果生成视频数据。

本申请实施例中，在终端按照拍摄路径移动的过程中，实时对食物进行拍摄，得到视频数据。

拍摄路径是由一系列连续的位置组成，包括起始位置，若干连续的中间位置，以及终点位置。假设拍摄路径由位置1、位置2、位置3、位置4组成，终端在位置1处拍摄得到一帧图像1，终端在位置2处拍摄得到一帧图像2，终端在位置3处拍摄得到一帧图像3，终端在位置4处拍摄得到一帧图像4。图像1、图像2、图像3以及图像4按时间顺序形成了视频。

可见，视频数据是由一系列按照时间顺序排列的图像数据组成。由于终端的移动，导致视频中不同的图像数据是从不同的视角对食物进行拍摄得到。

步骤104：基于所述视频数据识别所述食物。

本申请实施例中，可以将视频数据输入视频识别模型，通过视频识别模型对视频数据进行处理，得到食物的信息。这里，食物的信息包括但不局限于：食物的名称、食物的来源、食物的种类、食物的烹饪方式等等。

图2为本申请实施例的食物识别方法的流程示意图二，如图2所示，所述食物识别方法包括以下步骤：

步骤201：检测食物的位置。

本申请实施例中，检测食物的位置可以通过以下方式来实现：

1)拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

2)基于所述图像数据，确定所述食物的位置。

上述方案中，可以打开终端的摄像头对取景区域进行拍摄，并对拍摄得到的图像数据进行特征分析，确定出食物的位置。这里，食物的位置是指食物在图像中的位置，也即食物在拍摄画面中的位置。

步骤202：基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径。

初始时，终端的位置可能不在拍摄路径的初始位置，需要将终端移动至拍摄路径的初始位置。应理解，终端的位置包含两个信息：一个是位置坐标，另一个是朝向。终端在不同位置上拍摄得到的画面是不同的。

例如：参照图3，终端在位置1朝向角度1拍摄了食物，食物的位置在拍摄画面的右上角。终端按照预调整路径移动到位置2后(这其中包括位置坐标的改变和角度的改变)，食物的位置在拍摄画面的中间。

步骤203：指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。

本申请实施例中，可以通过在拍摄画面上显示箭头来指示终端朝哪个方向移动。终端移动至拍摄路径的初始位置时，对应的拍摄画面就是食物的第一帧图像。

步骤204：确定食物的拍摄路径。

步骤205：指示终端按照所述拍摄路径进行移动。

步骤206：拍摄所述食物，基于拍摄结果生成视频数据。

步骤207：基于所述视频数据识别所述食物。

图4为本申请实施例的食物识别方法的流程示意图三，如图4所示，所述食物识别方法包括以下步骤：

步骤401：检测食物的位置。

2)基于所述图像数据，确定所述食物的位置。

步骤402：基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径。

步骤403：指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。

步骤404：确定食物的拍摄路径。

步骤405：指示终端按照所述拍摄路径进行移动。

在一实施方式中，参照图5，可以指示终端围绕食物进行水平360度的转动。

步骤406：拍摄所述食物，基于拍摄结果生成视频数据。

步骤407：采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；记录所述视频数据中的每帧图像数据对应的传感器数据。

本申请实施例中，拍摄所述食物的过程中，采集传输器数据。传感器数据包括但不局限于陀螺仪数据。在实时拍摄的过程中，也一并实时采集传感器数据。例如：在时刻T1，采集到的图像数据为P1，传感器数据为S1，在时刻T2，采集到的图像数据为P2，传感器数据为S2，在时刻T3，采集到的图像数据为P3，传感器数据为S3，依此类推。可见，无论是图像数据，还是传感器数据都是基于时间的时序数据。

步骤408：根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径，执行步骤405。

本申请实施例中，在所述终端移动的过程中，根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数。这里，可以基于视觉处理算法对当前时刻对应的图像数据进行处理，得到图像数据的尺度不变特征变换(SIFT，Scale-Invariant Feature Transform)特征，基于图像数据的SIFT特征确定终端当前所处的环境，进而可以确定出当前时刻对应的运动参数和位姿参数。当然，也可以基于当前时刻对应的传感器数据，直接获取所述终端当前时刻对应的运动参数和位姿参数。为了保证提高计算精度，可以结合两种类型的数据来共同确定终端当前时刻对应的运动参数和位姿参数。如果终端移动的时候偏移了之前规划好的拍摄路径，就需要更新拍摄路径。本申请实施例可以较好的基于终端的实施运动情况，更新后续的拍摄路径。

步骤409：按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据。

本申请实施例中，对于同一时刻对应的每帧图像数据和传感器数据进行加权融合，可以得到该时刻对应的融合数据。全部时刻的融合数据按照时间顺序形成了融合时序数据。

本申请实施例中，加权融合的处理过程包括：将图像数据与相应的权值相乘，将传感器数据与相应的权值相乘；将相乘得到的两个结果相加，得到融合数据。本申请实施例中，图像数据、传感器数据以及相应的权值，均可以通过相应的矩阵来表示。

步骤410：将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。

这里，所述视频识别模型至少包括：LSTM模型。应理解，所述视频识别模型还可以是深度学习模型等其他视频识别模型。

本申请实施例中，可以将融合时序数据输入视频识别模型，通过视频识别模型对融合时序数据进行处理，得到食物的信息。这里，食物的信息包括但不局限于：食物的名称、食物的来源、食物的种类、食物的烹饪方式等等。

图6为本申请实施例的食物识别装置的结果组成示意图一，如图6所示，所述食物识别装置包括：

第一确定单元601，配置为确定食物的拍摄路径；

第一指示单元602，配置为指示终端按照所述拍摄路径进行移动；

拍摄单元603，配置为拍摄所述食物，基于拍摄结果生成视频数据；

识别单元604，配置为基于所述视频数据识别所述食物。

本领域技术人员应当理解，图6所示的食物识别装置中的各单元的实现功能可参照前述食物识别方法的相关描述而理解。图6所示的食物识别装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图7为本申请实施例的食物识别装置的结果组成示意图二，如图7所示，所述食物识别装置包括：

第一确定单元601，配置为确定食物的拍摄路径；

识别单元604，配置为基于所述视频数据识别所述食物。

在一实施方式中，所述装置还包括：

检测单元605，配置为检测食物的位置；

生成单元606，配置为基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径；

第二指示单元607，配置为指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。

在一实施方式中，所述检测单元605包括：

所述拍摄单元603，配置为拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

第二确定单元608，配置为基于所述图像数据，确定所述食物的位置。

在一实施方式中，所述装置还包括：

采集单元609，配置为采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；

存储单元610，配置为记录所述视频数据中的每帧图像数据对应的传感器数据。

在一实施方式中，所述识别单元604，配置为按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据；将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。

在一实施方式中，所述视频识别模型至少包括：LSTM模型。

在一实施方式中，所述装置还包括：

更新单元611，配置为根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径。

本领域技术人员应当理解，图7所示的食物识别装置中的各单元的实现功能可参照前述食物识别方法的相关描述而理解。图7所示的食物识别装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例上述装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例还提供一种存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请实施例的上述食物识别方法。

图8为本申请实施例的计算机设备的结构组成示意图，如图8所示，所述计算机设备包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机可执行指令，所述处理器802执行所述计算机可执行指令时实现如下方法步骤：

确定食物的拍摄路径；

指示终端按照所述拍摄路径进行移动；

拍摄所述食物，基于拍摄结果生成视频数据；

基于所述视频数据识别所述食物。

以上涉及计算机设备的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

一种食物识别方法，所述方法包括：

确定食物的拍摄路径；

指示终端按照所述拍摄路径进行移动；

拍摄所述食物，基于拍摄结果生成视频数据；

基于所述视频数据识别所述食物。
根据权利要求1所述的食物识别方法，其中，所述方法还包括：

检测食物的位置；

基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径；

指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。
根据权利要求2所述的食物识别方法，其中，所述检测食物的位置，包括：

拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

基于所述图像数据，确定所述食物的位置。
根据权利要求1所述的食物识别方法，其中，所述方法还包括：

采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；

记录所述视频数据中的每帧图像数据对应的传感器数据。
根据权利要求4所述的食物识别方法，其中，所述基于所述视频数据识别所述食物，包括：

按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据；

将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。
根据权利要求5所述的食物识别方法，其中，所述视频识别模型至少包括：长短期记忆LSTM模型。
根据权利要求4所述的食物识别方法，其中，所述方法还包括：

根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；

基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径。
一种食物识别装置，所述装置包括：

第一确定单元，配置为确定食物的拍摄路径；

第一指示单元，配置为指示终端按照所述拍摄路径进行移动；

拍摄单元，配置为拍摄所述食物，基于拍摄结果生成视频数据；

识别单元，配置为基于所述视频数据识别所述食物。
根据权利要求8所述的食物识别装置，其中，所述装置还包括：

检测单元，配置为检测食物的位置；

生成单元，配置为基于所述食物的位置以及所述拍摄路径的初始位置，生成预调整路径；

第二指示单元，配置为指示所述终端按照所述预调整路径进行移动，其中，所述终端位于所述拍摄路径的初始位置。
根据权利要求9所述的食物识别装置，其中，所述检测单元包括：

所述拍摄单元，配置为拍摄取景区域，基于拍摄结果生成所述取景区域对应的图像数据，其中，所述食物位于所述取景区域；

第二确定单元，配置为基于所述图像数据，确定所述食物的位置。
根据权利要求8所述的食物识别装置，其中，所述装置还包括：

采集单元，配置为采集传感器数据，所述传感器数据用于表示所述终端的位姿信息；

存储单元，配置为记录所述视频数据中的每帧图像数据对应的传感器数据。
根据权利要求11所述的食物识别装置，其中，所述识别单元，配置为按照时间顺序加权融合所述视频数据中的每帧图像数据与对应的传感器数据，生成融合时序数据；将所述融合时序数据输入视频识别模型中，基于所述视频识别模型识别所述食物。
根据权利要求12所述的食物识别装置，其中，所述视频识别模型至少包括：LSTM模型。
根据权利要求11所述的食物识别装置，其中，所述装置还包括：

更新单元，配置为根据所述视频数据中与当前时刻对应的图像数据以及当前时刻对应的传感器数据，计算所述终端当前时刻对应的运动参数和位姿参数；基于所述终端当前时刻对应的运动参数和位姿参数，更新所述拍摄路径。
一种存储介质，其上存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令，所述处理器执行所述计算机可执行指令时实现权利要求1-7任一项所述的方法步骤。