WO2020181553A1

WO2020181553A1 - 用于识别工厂中处于异常状态的生产设备的方法和装置

Info

Publication number: WO2020181553A1
Application number: PCT/CN2019/078152
Authority: WO
Inventors: 莫拉⋅卡洛斯; 韩克�; 哈尔坦托⋅维克多; 张子涵; 任文科; 王文科
Original assignee: 西门子股份公司; 西门子（中国）有限公司
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-09-17

Abstract

一种用于识别工厂中处于异常状态的生产设备的方法、装置、计算设备、计算机可读存储介质及计算机程序产品，该方法包括：获得工厂中的至少一个生产设备周围的环境信息；利用机器学习模型获得环境信息的分类结果，机器学习模型被配置为基于从环境信息中提取的特征来输出对应的分类结果；基于分类结果判断工厂中是否存在处于异常状态的生产设备；以及当判断为工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制候选的处于异常状态的生产设备中的至少一个。

Description

用于识别工厂中处于异常状态的生产设备的方法和装置

技术领域

本公开涉及工业控制领域，更具体地说，涉及用于识别工厂中处于异常状态的生产设备的方法、装置、计算设备、计算机可读存储介质和程序产品。

背景技术

在工厂环境中，生产机器和设备(以下统称“生产设备”)可能会对人类造成伤害和/或对其它对象造成损坏。伤害和/或损坏的一种原因是，生产设备或其移动部件与操作人员或其它对象形成不期望的接触，比如生产设备的机械臂与操作人员碰撞。另外一种可能的原因是，从生产设备上掉落或喷射出可能会对操作人员或其它对象造成伤害和/或损坏的物品，比如生产设备上的移动部件断裂而从生产设备掉落、化学制品从生产设备的某个容器中溢出等等。

目前，通常采用以下几种方法来避免生产设备可能造成的伤害和/或损坏。1)设置安全按钮/脚踏板。持续按压/踩踏安全按钮/脚踏板可以使得生产设备工作，而当松开安全按钮/脚踏板时，会使得生产设备停止工作。2)设置停止开关。停止开关可以具有例如按钮、控制杆或插塞等多种形式。当启用停止开关时，可以使得生产设备停止工作。3)在生产设备外部套设防护笼来避免操作人员或其它对象进入生产设备的移动部件(例如，机械臂)可能触及的区域。在防护笼上可以安装传感器以检测笼门是否被打开。当检测到笼门打开时，停止生产设备的工作。4)在生产设备附近设置挡光板或压力垫。可以通过挡光板或压力垫上的传感器检测操作人员是否进入生产设备的操作区域。当检测到操作人员进入生产设备的操作区域时，停止生产设备的工作。5)对于协作式机器人之类的生产设备，可以在其上设置传感器(例如，使用传感器皮肤)来检测协作式机器人与操作人员或其它对象的接触或碰撞。当检测到接触或碰撞时，停止生产设备的工作。

发明内容

在传统的生产设备的安全保护方法中，通常需要直接的物理接触或传感器的视线关系来启动安全保护机制。例如，对于以上提及的方法1)和方法2)，需要对按钮/脚踏板/开关的按压与松开，而对于以上提及的方法3)、方法4)和方法5)，检测的事件需要发生在传感器的感测范围内。然而，当从生产设备上掉落或喷射出可能会对操作人员或其它对象造成伤害和/或损坏的物品(例如，生产设备上的移动部件断裂而从生产设备掉落，化学制品从生产设备的某个容器中溢出等等)时，传统的生产设备的安全保护方法无法起到保护作用。

本公开的第一实施例提出了一种用于识别工厂中处于异常状态的生产设备的方法，包括：获得工厂中的至少一个生产设备周围的环境信息；利用机器学习模型获得环境信息的分类结果，机器学习模型被配置为基于从环境信息中提取的特征来输出对应的分类结果；基于分类结果判断工厂中是否存在处于异常状态的生产设备；以及当分类结果指示工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制候选的处于异常状态的生产设备中的至少一个。

在该实施例中，通过采集工厂中的环境信息(例如，环境声音和图像)，并利用经训练的机器学习模型来判断生产设备是否正在或者潜在地对操作人员和/或其它对象造成伤害或损坏，从而控制生产设备的操作。因而，该方法允许当从生产设备上掉落或喷射出可能会对操作人员或其它对象造成伤害和/或损坏的物品时，无需与生产设备的直接接触，或者即使不在传感器的视线范围内也能进行检测并正常启动安全机制，例如，使生产设备发出声音/可视化警报，或者紧急关闭生产设备。而且，该方法还允许检测生产设备的异常操作或者潜在的对操作人员或其它对象的伤害和/或损坏并启动安全机制。此外，由于不需要传统方法中的传感器，该方法还能覆盖更大的检测范围。

本公开的第二实施例提出了一种用于识别工厂中处于异常状态的生产设备的装置，包括：信息获取单元，其被配置为获得工厂中的至少一个生产设备周围的环境信息；信息分类单元，其被配置为利用机器学习模型获得环境信息的分类结果，机器学习模型被配置为基于从环境信息中提取的特征来输出对应的分类结果；异常判断单元，其被配置为基于分类结果判断工厂中是否存在处于异常状态的生产设备；以及候选确定单元，其被配置为当判断工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制候选的处于异常状态的生产设备中的至少一个。

本公开的第三实施例提出了一种计算设备，该计算设备包括：处理器；以及存储器，其用于存储计算机可执行指令，当计算机可执行指令被执行时使得处理器执行第一实施例中的方法。

本公开的第四实施例提出了一种计算机可读存储介质，该计算机可读存储介质具有存储在其上的计算机可执行指令，计算机可执行指令用于执行第一实施例的方法。

本公开的第五实施例提出了一种计算机程序产品，该计算机程序产品被有形地存储在计算机可读存储介质上，并且包括计算机可执行指令，计算机可执行指令在被执行时使至少一个处理器执行第一实施例的方法。

附图说明

结合附图并参考以下详细说明，本公开的各实施例的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实施例，在附图中：

图1示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的方法流程图；

图2示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的系统的架构示意图；

图3示出了根据图2的实施例的机器学习模型中卷积神经网络的一个示例架构；

图4示出了根据图2的实施例的机器学习模型中循环神经网络的一个示例架构；

图5示出了图4示例的循环神经网络的时间上展开的架构；

图6示出了图4示例的循环神经网络的单元A的一个示例；

图7示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的装置的框图；以及

图8示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的计算设备的框图。

具体实施方式

以下参考附图详细描述本公开的各个示例性实施例。虽然以下所描述的示例性方法、装置包括在其它组件当中的硬件上执行的软件和/或固件，但是应当注意，这些示例仅仅是说明性的，而不应看作是限制性的。例如，考虑在硬件中独占地、在软件中独占地、或在硬件和软件的任何组合中可以实施任何或所有硬件、软件和固件组件。因此，虽然以下已经描述了示例性的方法和装置，但是本领域的技术人员应容易理解，所提供的示例并不用于限制用于实现这些方法和装置的方式。

此外，附图中的流程图和框图示出了根据本公开的各个实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

本文所使用的术语“包括”、“包含”及类似术语是开放性的术语，即“包括/包含但不限于”，表示还可以包括其他内容。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”等等。

图1示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的方法。参考图1，方法100从步骤101开始。在步骤101中，获得工厂中的至少一个生产设备周围的环境信息。环境信息可以是生产设备周围环境中的声音或图像。当人类被突然发生的事件惊吓或经受突如其来的痛苦时，通常会发出尖叫声，并伴随着惊讶或痛苦的面部表情。因而，在工厂环境中，当生产设备操作异常或者从生产设备上掉落或喷射出可能会对操作人员造成伤害的物品时，可以利用人类对惊吓或痛苦的自然反应来启动安全保护机制。另外，还可以检测生产设备的潜在的对操作人员或其它对象的伤害和/或损坏。例如，当生产设备发出异常操作的噪声或者生产设备的环境中存在破碎声(例如，玻璃破碎声或者物品断裂声)，通常暗示着生产设备操作异常或者生产设备可能或即将对操作人员或其它对象造成伤害和/或损坏。因此，可以捕获或采集至少一个生产设备周围环境中的声音或图像并对其进行分析来判断生产设备是否操作异常或者生产设备是否正在或即将对操作人员或其它对象造成伤害和/或损坏。

在一些实施例中，环境信息可以包括由至少一个声音采集设备采集的声音信号，至少一个声音采集设备被布置在工厂中的至少一个生产设备周围。可以在工厂中的生产设备周围布置一个或多个声音采集设备来采集声音信号。声音采集设备可以包括但不限于摄像机、拾音器或麦克风等等。当使用麦克风作为声音采集设备时，可以使用一个麦克风或麦克风阵列。可以采用任意适当的拓扑结构的麦克风阵列，例如，线性麦克风阵列之类的一维麦克风阵列、圆形麦克风阵列之类的二维麦克风阵列等等。

在一些实施例中，为了获得声音信号在短时间内的特征，在采集到声音信号之后，可以对声音信号进行分帧，然后将分帧后的多帧信号中的每帧信号分别转换为频谱图，以作为机器学习模型(下文中将提及)的输入。在对声音信号进行分帧时，可以对声音信号进行加窗，即用一个窗函数对一段声音信号进行滑动截断，得到多个短时的声音段。在一些实施例中，对声音信号的分帧可以采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。在另一些实施例中，对声音信号的分帧也可以采用连续分段的方法，即前一帧与后一帧之间不存在重叠部分。在分帧后，利用快速傅里叶变换(FFT)之类的时频域变换方法将每帧声音信号从时域变换为频域，以获得多个频谱图。在另一些实施例中，也可以交换对声音信号的分帧和转换为频域的处理顺序。

在一些实施例中，可以对采集到的声音信号进行滤波，以去除不期望的声音来增加机器学习模型预测的准确性。例如，当监测生产设备是否对操作人员造成伤害具有更高的优先级时，需要监测声音信号中是否包含人类尖叫。可以使用DSP滤波器或数字滤波器(例如，带通滤波器)来滤除人类声音频率以外的频率。滤波过程可以在对声音信号进行分帧后或分帧前进行。

在一些实施例中，环境信息可以包括由至少一个图像采集设备采集的图像信号，至少一个图像采集设备被布置在至少一个生产设备周围。图像采集设备可以包括但不限于摄像机、摄像头或照相机等等。例如，可以在每个生产设备附近或周围安装一个摄像头来采集靠近生产设备的操作人员的人脸图像，以识别人类表情。又例如，可以使用安装在工厂车间内的摄像头来采集生产设备的图像，以识别从生产设备上掉落或喷射出可能会对操作人员/其它对象造成伤害/损坏的物品。又例如，也可以同时采集人脸图像和生产设备图像，以识别人类表情以及从生产设备掉落或喷射出物品两者。

继续参考图1，接下来，方法100进行到步骤102。在步骤102中，利用机器学习模型获得环境信息的分类结果，机器学习模型被配置为基于从环境信息中提取的特征来输出对应的分类结果。在一些实施例中，机器学习模型为神经网络模型。在另一些实施例中，机器学习模型也可以是其它种类的机器学习模型。

在环境信息包括声音信号时，分类结果可以包括以下各项中的至少一项：人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音、以及破碎声。当声音信号中包含人类尖叫时，通常可能的情况是操作人员受到突然的惊吓或经受突如其来的痛苦，当声音信号中包含生产设备异常操作的噪声或破碎声时，通常可能的情况是生产设备操作异常或者潜在地对操作人员或其它对象造成伤害和/或损坏。

在环境信号包括图像信号时，分类结果可以包括以下各项中的至少一项：人类惊讶的表情、人类皱眉的表情、人类微笑的表情、以及从生产设备掉落或喷射出物品。类似于声音信号，当图像中人类的表情是惊讶或皱眉时，通常可能的情况是操作人员受到突然的惊吓或经受突如其来的痛苦，或者操作人员发现生产设备处于异常操作的状态，当图像中从生产设备掉落或喷射出物品时，表示生产设备正在或即将对操作人员或其它对象造成伤害和/或损坏。因而，利用机器学习模型获得环境信息的分类结果，能够判断工厂中是否存在处于异常状态的生产设备。

在一些实施例中，机器学习模型被训练成从环境信息中提取特征。在这样的实施例中，步骤102进一步包括：利用机器学习模型从环境信息中提取特征。在另一些实施例中，也可以采用手动方式提取，例如通过人工输入、注释、测量或进行其它配置。

在一些实施例中，在利用机器学习模型获得环境信息的分类结果之前，方法100还包括训练机器学习模型。训练机器学习模型首先包括构建机器学习模型。机器学习模型可以以级联方式使用各式各样的模型的组合，例如，用于提取特征的模型与用于分类的模型进行级联。接着是获得训练样本的特征，该训练样本具有实际分类标记。可以从一个或多个存储器和/或传感器中收集训练样本，训练样本可以被存储和/或传输到缓冲器、存储器、高速缓存、处理器或用于训练的其它设备。也可以从网络或现有的数据库中获得训练样本。训练样本的数量可以根据需要来确定。在一些实施例中，可以对训练样本进行一定的处理以产生额外的训练样本，以此增加模型的鲁棒性。例如，可以在摄像头采集的图片上叠加白噪声以进行模糊化处理、对图片翻转、平移和/或旋转来产生额外的训练样本。在一些实施例中，可以对训练样本进行预处理，例如，当环境信息为声音信号时，可以对训练使用的声音信号样本进行滤波、分帧、转换为频谱等操作。

训练机器学习模型的下一步是利用机器学习模型基于训练样本的特征获得训练样本的分类结果。机器学习模型中的分类器能够通过分类算法获得与训练样本的特征相对应的分类结果。接着，确定实际分类标记与分类结果之间的误差并基于误差来调整机器学习模型的权重/参数。通过比较训练样本的实际分类标记与通过机器学习模型获得的分类结果之间的误差，并使得该误差最小化来调整或优化机器学习模型的权重/参数，从而机器学习模型能够较好地表示输入的训练样本与输出的分类结果之间的关系。在训练好机器学习模型之后，可以将其以文本文件的格式存储在存储器中，以供将来使用。

应当指出，并非每次在利用机器学习模型获得环境信息的分类结果之前都需要训练机器学习模型。如上面提及的，机器学习模型在训练好之后可以被保存在存储器中。因此，可以在应用机器学习模型时直接加载训练好的机器学习模型。

在一些实施例中，可以周期性地或者在需要时重新训练机器学习模型。例如，在训练好的机器学习模型已经被应用一段时间之后，可以将实际应用时所采集到的环境信息作为训练样本的补充以训练模型，从而增加模型的鲁棒性。又例如，当对机器学习模型的架构进行更改时，也需要对具有新架构的机器学习模型进行重新训练。

接着，在步骤103中，基于分类结果判断工厂中是否存在处于异常状态的生产设备。如上面提及的，分类结果的表现形式表示工厂中是否存在处于异常状态的生产设备(例如，人类尖叫、生产设备异常操作的噪声、人类惊讶的表情等等)，因此可以根据分类结果来判断工厂中是否存在处于异常状态的生产设备。在一些实施例中，在环境信息对应多个分类结果时，可以设定规则来根据多个分类结果进行判断。例如，在环境信息包括声音信号时，声音信号会被分成多个帧，可以根据多个帧中的若干个连续帧的分类结果来判断工厂中是否存在处于异常状态的生产设备。又例如，当声音信号为多路声音信号时，可以根据从多路声音信号中的若干个声音信号划分的帧的分类结果来判断工厂中是否存在处于异常状态的生产设备。

随后方法转到步骤104，当判断工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制候选的处于异常状态的生产设备中的至少一个。当识别出工厂中存在处于异常状态的生产设备，比如有生产设备正在或者潜在地对操作人员或其它对象造成伤害和/或损坏时，需要采取一定的安全措施来预防或者阻止这种伤害和/或损坏。例如，紧急停止对操作人员或其它对象造成伤害和/或损坏的生产设备、发出声音和/或可视化警报来引起操作人员的注意等等。这需要在判断为工厂中存在处于异常状态的生产设备时确定哪个或哪些生产设备有可能处于异常状态。可以根据实际需要或工厂设置来确定预定的规则，以确定候选的处于异常状态的生产设备。

在一些实施例中，环境信息包括声音信号，步骤104进一步包括：确定发出声音信号的声源的位置；以及基于声源的位置确定候选的处于异常状态的生产设备。可以使用各种方式对发出声音信号的声源进行定位。在一些实施例中，使用一个麦克风采集声音信号，可以训练一个机器学习模型来实现声源的定位。在训练机器学习模型时，将生产设备和麦克风设置在固定位置，并使得声源在不同位置处发出不同的声音(例如，操作人员发出尖叫、模拟的生产设备异常操作的噪声、模拟的破碎声，等等)，以作为训练样本。在收集到声源在相对于麦克风的不同位置处发出的足够多的声音样本之后，使用这些声音样本和对应的声源相对于麦克风的位置来训练机器学习模型。在另一些实施例中，使用麦克风阵列采集声音信号。麦克风阵列具有对声源进行定位的功能，例如通过基于到达时间差(TDOA)的方法、基于高分辨率谱估计的方法、可控波束的方法、基于子空间的方法等等。

在获得声源的位置后，便可以基于该位置确定候选的处于异常状态的生产设备。可以根据预定的规则来确定候选的处于异常状态的生产设备。预定的规则可以根据工厂设置或实际需要而变化。在一些实施例中，操作人员与生产设备(例如，协作机器人)协同工作。在这样的实施例中，预定的规则可以包括：当分类结果指示人类尖叫时(可能意味着生产设备正在对操作人员造成伤害，例如，生产设备与操作人员碰撞、生产设备上的部件掉落或化学制品溢出等等)，将声源位置附近(例如，在2米的范围内)的所有生产设备都确定为候选的处于异常状态的生产设备；当分类结果指示生产设备异常操作的噪声或破碎声时(可能意味着生产设备操作异常或者生产设备上的某个部件破碎或掉落)，将声源位置所在区域内(例如，1米的范围内)的所有生产设备都确定为候选的处于异常状态的生产设备。在另一些实施例中，操作人员监督一个或多个生产设备的操作。在这样的实施例中，预定的规则可以包括：当分类结果指示人类尖叫时(可能意味着操作人员正在监督的某个或某些生产设备发生故障或操作异常)，将离声源位置较远距离(例如，3米)范围内的所有生产设备作为操作人员正在监督的生产设备都确定为候选的处于异常状态的生产设备；当分类结果指示生产设备异常操作的噪声或破碎声时，将声源位置所在区域内(例如，1米的范围内)的所有生产设备都确定为候选的处于异常状态的生产设备。

在一些实施例中，操作人员与生产设备(例如，协作机器人)协同工作，并且在生产设备旁布置摄像头来拍摄操作人员的人脸图像。在这样的实施例中，预定的规则可以包括：当分类结果指示人类惊讶的表情或皱眉的表情时(可能意味着生产设备正在对操作人员造成伤害)，将与所采集的人脸图像对应的操作人员所操作的生产设备作为候选的处于异常状态的生产设备。在另一些实施例中，操作人员监督一个或多个生产设备的操作，并且在生产设备附近布置摄像头来拍摄操作人员的人脸图像。在这样的实施例中，预定的规则可以包括：当分类结果指示人类惊讶的表情或皱眉的表情时(可能意味着操作人员正在监督的某个或某些生产设备发生故障或操作异常)，将与所采集的人脸图像对应的操作人员所监督的所有生产设备都确定为候选的处于异常状态的生产设备。

以上仅列举了基于预定的规则确定候选的处于异常状态的生产设备的一些示例。在其它实施例中，可以根据需要设定其它预定的规则来确定候选的处于异常状态的生产设备。

在一些实施例中，确定候选的处于异常状态的生产设备后，可以向所确定的候选的处于异常状态的生产设备中的至少一个发送控制信号，例如，控制信号指示使得候选的处于异常状态的生产设备中的至少一个停止操作。在另一些实施例中，确定候选的处于异常状态的生产设备后，可以发出声音和/或可视化警报，指示这些候选的生产设备可能处于异常状态。操作人员或其它工作人员收到警报后，先查看这些生产设备，再控制生产设备的操作。在另一些实施例中，也可以根据需要预先设置发送控制信号还是发出警报，例如，在异常状态为紧急状态时(例如，操作人员受到伤害)，直接向所有候选的处于异常状态的生产设备发送停止操作的控制信号，在异常状态为非紧急状态时(例如，生产设备操作异常)，发出警报进行指示。

因而，以上方法允许当从生产设备上掉落或喷射出可能会对操作人员或其它对象造成伤害和/或损坏的物品时，无需与生产设备的直接接触，或者即使不在传感器的视线范围内也能进行检测并正常启动安全机制。而且，该方法还允许检测生产设备的异常操作或者潜在的对操作人员或其它对象的伤害和/或损坏并启动安全机制。此外，由于不需要传统的安全保护方法中的传感器，该方法还能覆盖更大的检测范围。

下面参照一个具体的实施例来说明图1所示的用于识别工厂中处于异常状态的生产设备的方法。图2示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的系统的架构示意图200。在图2中示出的实施例中，一共有三个生产设备202a、202b和202c。操作人员与生产设备202a-202c协同工作，需要监测生产设备202a-202c是否正常操作以及是否对操作人员产生伤害。在生产设备202a-202c旁布置麦克风203a、203b、203c和203d，这些麦克风构成了线性麦克风阵列，用于采集生产设备202a-202c 周围环境中的声音。使用麦克风阵列能够覆盖工厂中较大的工作区域。计算设备201(例如，服务器)与麦克风阵列203a-203d以及生产设备202a-202c的控制器通信连接(有线地或无线地)，从而能够接收麦克风阵列203a-203d所采集的声音信号并对该声音信号进行分帧、频域变换、通过机器学习模型分类等一系列处理操作，并根据分类结果和预定的规则向生产设备202a-202c的控制器发送相应控制信号。

接下来描述机器学习模型的训练过程。在本实施例中，机器学习模型的训练和应用都在相同的计算设备201上进行，即先进行机器学习模型的训练，然后将训练好的模型存储在本地存储器中，供将来使用。在一些实施例中，训练好的模型也可以直接被应用，而不存储以用于将来的使用。在另一些实施例中，机器学习模型的训练和应用可以在不同的计算设备上进行。例如，可以在具有较高配置的另一计算设备上训练机器学习模型，并在训练完成后将该机器学习模型以文件形式存储。当应用该机器学习模型时，仅需在计算设备上加载该训练好的机器学习模型。

训练机器学习模型首先需要构建机器学习模型。在本实施例中，采用神经网络模型作为机器学习模型。下面结合图3-图6描述图2的实施例中所使用的一个具体的机器学习模型。图3示出了根据图2的实施例的机器学习模型中卷积神经网络的一个示例架构。图4示出了根据图2的实施例的机器学习模型中循环神经网络的一个示例架构。图5示出了图4示例的循环神经网络的时间展开的架构。图6示出了图4示例的循环神经网络的单元A的一个示例。如上面提及的，在图2的实施例中，通过布置在工厂中的三个生产设备202a-202c旁边的麦克风阵列203a-203d来采集工厂环境中的声音。声音的特征总体上随时间变化，但在一段较短的时间间隔内，又保持基本平稳。因此，为了表征声音随时间的变化状态或程度，在图2的实施例中，可以在时域和频域两者上提取声音信号的特征来训练和应用机器学习模型。在图2的实施例中，机器学习模型可以是卷积神经网络(RNN)和循环神经网络(RNN)的级联。

图3示出了作为卷积神经网络的AlexNet神经网络的架构300。如图3中示出的，该网络架构300的第一层结构301为具有96个11×11卷积核的4重卷积操作的卷积层和两个池化层，第二层结构302为具有256个5×5卷积核的卷积层和两个池化层，第三层结构303和第四层结构304均为具有384个3×3卷积核的卷积层，第五层结构305为具有256个3×3卷积核的卷积层和两个池化层，第六层结构306和第七层结构307均为具有4096维向量输出的全连接层，第八层结构308为具有1000维向量输出的全连接层。声音信号的每个帧在被转换为频谱图之后输入该网络架构的第一层结构303并从第八层结构308输出。在卷积层中，计算权重和局部区域图像像素值的内积，从而提取局部区域的特征，在整副图像上滑动地重复计算这个过程，提取得到整副图像关于此权重向量的特征信息。在全连接层中，将输入到该层的特征信息转换为多维的特征向量。因此，在图3的示例中，卷积神经网络从频谱图中提取1000维的特征向量。

通过卷积神经网络提取关于每帧声音信号的频域特征之后，利用循环神经网络提取关于声音信号的时域特征。在图4示出的循环神经网络的架构400中，通过图3示例的卷积神经网络Alexnet提取的当前时间点t的帧的1000维特征向量(在图4中用x _t表示，t表示当前帧相对于整段声音信号的起始时间，例如0ms，10ms，20ms……)被输入到RNN单元A中。RNN单元A随时间在其自身内部迭代权重或参数。参考图5，上一时间点t-1的RNN单元A的输出结果h _t-1作为当前时间点t的RNN单元A的输入，从而最终的输出h _t能够保留从时间0开始的特征输入，具有先前输入的“知识记忆”并与“当前知识”集成并更新RNN单元A中的参数。通过这样的方式，在提取每帧声音信号的特征时，能够考虑到该帧与先前帧的关联性，因而增加模型的鲁棒性。

图6示出了RNN单元A所采用的门控循环单元(GRU)的架构600。本领域技术人员应当理解，RNN单元A可以采用其它类型的结构，包括但不限于长短期记忆网络(LSTM)和具有窥视孔的长短期记忆网络(LSTM with peephole)等等。参考图6，在本实施例中，在GRU架构中，将“忘记门”和“输入门”合成了一个单一的“更新门”。在该架构中，继承了上一时间点的隐藏状态h _t-1的信息，并将其与输入的特征向量x _t组合作为当前时间点t的新的输入。下面给出了“忘记门”输出的状态r _t、“输入门”输出的状态z _t、“更新门”输出的状态

以及最终生成的隐藏状态h _t的计算公式(1)-(4)。“忘记门”和“输入门”采用的是sigmoid激活函数，“更新门”采用的是tanh激活函数，sigmoid激活函数将生成0-1范围之间的值，tanh激活函数将生成-1-1范围之间的值，以更新先前的隐藏状态h _t-1。最终生成的隐藏状态h _t将被作为下一时间点的RNN单元A的输入，使得下一时间点的隐藏状态继承当前时间点的隐藏状态h _t的信息。

z _t＝σ(W _z·[h _t-1，x _t]) (1)

r _t＝σ(W _r·[h _t-1，x _t]) (2)

返回图4，在生成当前时间点的隐藏状态h _t之后，该隐藏状态h _t被输入到全连接层以获得分类结果Y _t。具体来说，在本实施例中，循环神经网络的全连接层具有softmax分类器。该分类器的作用是将隐藏状态h _t转换为N个类别的N个概率值。具有最大概率值的类别将作为当前时间点t的帧的预测类别(即分类结果)Y _t进行输出。在本实施例中，类别可以包括人类尖叫、生产设备异常操作的噪声、生产设备正常操作声音、以及破碎声4个类别。因此，对于当前时间点t的帧，分类器将隐藏状态h _t转换为4个类别的4个概率值。例如，针对当前时间点t的帧所获得的4个概率值分别为0.5、0.2、0.1和0.2，则具有最大概率值0.5的类别——人类尖叫将作为分类结果进行输出。

以上介绍了机器学习模型的一个实施例。在该实施例中，构建了卷积神经网络和循环神经网络的级联架构。在训练模型的过程中，将卷积神经网络和循环神经网络作为端到端模型一起进行训练，因而训练得到的参数更为准确，采用这样的级联方式也易于在将来需要时替换卷积神经网络和循环神经网络的具体架构。在一些实施例中，也可以将卷积神经网络和循环神经网络单独训练。例如，在图3示出的Alexnet的卷积神经网络的最后一层全连接层后增加Softmax分类器来将卷积神经网络单独进行训练。在一些实施例中，也可以采用其它神经网络模型或其它机器学习模型。

训练机器学习模型的下一步是获得训练数据。在图2的实施例中，可以通过麦克风阵列203a-203d收集不同类别的声音样本，包括人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音以及破碎声。在一些实施例中，还可以从网络获得声音样本。例如，可以通过音视频网站或搜索引擎获得不同类别的声音片段作为声音样本。考虑到网络上的声音样本不一定是在工厂环境中采集的，因此，可以对这些声音片段进行叠加工厂背景噪音之类的预处理，使其更符合实际的工厂环境。在一些实施例中，还可以从现有的语音库或声音库中获得声音样本。在一些实施例中，还可以结合麦克风阵列所收集的声音样本、从网络上获得的声音样本、以及从语音库或声音库中获得的声音样本中的任意多个作为声音样本。

在本实施例中，麦克风阵列203a-203d将所采集的声音样本发送给计算设备201，并由计算设备201存储在其存储器中。计算设备201对这些存储的声音信号进行预处理以获得训练样本，包括对声音信号进行分帧以及将分帧后的每帧声音信号转换到频域。在本实施例中，将帧移设为10ms，帧长设为25ms，也就是说，前一帧与后一帧具有15ms的重叠部分，第一帧从声音信号中的0ms到25ms、第二帧从声音信号中的10ms到35ms等等。在分帧后，计算设备201利用快速傅里叶变换(FFT)之类的时频域变换方法将每帧声音信号从时域变换为频域，以获得多个频谱图。

由于在训练模型的过程中需要利用训练样本的实际分类标记来调整模型中的参数，因此，在分帧之后或者在分帧的过程中，还需要对每个帧做出相应的分类标记，即指示该帧属于人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音、破碎声中的一种。这样，训练样本和相应的实际分类标记作为模型输入和对应的期望输出对来训练机器学习模型。

之后，每个频谱图依次被输入到机器学习模型中以进行模型训练。针对当前帧的频谱图，从频谱图中提取一组特征。在本实施例中，利用机器学习模型中的卷积神经网络提取当前帧的频域特征并利用循环神经网络提取当前帧的时域特征。卷积神经网络的输出作为循环神经网络的输入，因此，从卷积神经网络所获得的特征向量被输入到循环神经网络中提取时域特征。在模型被初次用于提取特征和预测分类结果之前，对模型进行初始化。具体来说，卷积神经网络和循环神经网络中的各个权重/参数的初始值可以随机获得，而初始的隐藏状态h ₀可以被设为与特征向量x ₀相等。机器学习模型的分类器针对每个频谱图，基于所提取的特征获得预测的分类结果Y _t。当模型被训练之后，该模型可以自动从频谱图中提取特征并输出预测的分类结果。

然后，针对当前帧的频谱图，获得该帧的实际分类标记与所预测的分类结果Y _t之间的误差。在本实施例中，使用损失函数来表示这种误差，即预测的分类结果Y _t与实际分类标记的不一致程度。接着，基于误差来调整机器学习模型的权重/参数。可以采用优化算法(例如，梯度下降)来求解损失函数的最小值，从而更新模型中的各权重/参数。在机器学习模型的权重/参数被更新之后，针对下一个帧的频谱图重复以上过程，直到机器学习模型收敛，各权重/参数趋向稳定。当机器学习模型收敛时，表示模型已经训练完成，可以将其以文本文件的格式存储在存储器中，以供将来使用。

下面描述利用图2的系统来识别工厂中处于异常状态的生产设备的过程。在该过程中，应用训练好的机器学习模型。在图2所示出的实施例中，线性麦克风阵列203a-203d实时地采集生产设备202a-202c的周围环境中的声音并将所采集到的四路声音信号传输给计算设备201。取决于计算设备201的处理器的计算能力，计算设备201以预定的间隔时间段(例如，5ms、100ms、1s……)将所接收的各路声音信号分别保存为预定时长(例如，1s)的音频文件。随后，计算设备201将所保存的每个音频文件按10ms的帧移和25ms的帧长进行分帧。在其它实施例中，也可以根据需要设置用于分帧的其它长度的帧移和帧长，只要其与训练机器学习模型时使用的帧移和帧长相一致即可。分帧后，计算设备201可以使用DSP滤波器或数字滤波器对每帧进行滤波，例如，滤除5.5kHz以上频率的声音信号。接着，计算设备201通过快速傅里叶变换之类的时频域变换方法将每帧声音信号从时域变换为频域，以获得多个频谱图。以上便完成了将麦克风阵列203a-203d在一段时间(例如，1s)内采集到的声音信号转换为机器学习模型的输入的过程。在其它实施例中，也可以先对所接收的各路声音信号进行预滤波，然后再进行分帧和转换为频域的处理。

随后，将多个频谱图中的每个依次输入到训练好的机器学习模型中。机器学习模型首先从输入的频谱图中提取特征。提取特征的过程与上面所描述的在训练机器学习模型时从频谱图中提取特征的过程相同，在此将不再赘述。机器学习模型随后根据所提取的特征预测该频谱图的分类结果。在本实施例中，分类结果可以是人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音或破碎声中的一个。

在本实施例中，当针对某帧声音信号的分类结果为人类尖叫、生产设备异常操作的噪声或破碎声时，判断为工厂中存在异常操作的生产设备或者存在正在或潜在地对操作人员造成伤害的生产设备。在这些情形下，首先，通过麦克风阵列203a-203d对声音信号的声源进行定位。在本实施例中，使用基于到达时间差(TDOA)的方法对声源进行定位。具体来说，定位的第一步是计算声音信号到达麦克风阵列203a-203d中每对麦克风(203a-203b，203a-203c，203a-203d，203b-203c，203b-203d，203c-203d共6对)之间的时间差。计算时间差的方法包括但不限于通过广义互相关(GCC)、多信道互相关系数(MCCC)的方法等等。第二步是计算声源相对于麦克风阵列203a-203d的方向。可以通过计算出的每对麦克风之间的时间差和每个麦克风的平面坐标列出数学方程来计算。第三步是基于每个麦克风的空间坐标位置计算声源的位置。计算方法可以包括但不限于通过每对麦克风之间的时间差确定双曲线的方法、基于三角测量的方法、基于网格的方法、基于机器学习的方法等等。

在确定声源位置之后，可以根据以下规则来确定候选的处于异常状态的生产设备：当分类结果为人类尖叫时，将声源位置(即操作人员位置)附近(例如，2米内)的所有生产设备都确定为候选的处于异常状态的生产设备；当分类结果为生产设备异常操作的噪声或破碎声时，将声源位置的预定范围内(例如，1米内)的生产设备确定为候选的处于异常状态的生产设备。然后，计算设备201向所有的候选的处于异常状态的生产设备发送控制信号，以停止这些生产设备的操作。

在其它实施例中，也可以根据从麦克风阵列接收到的各路声音信号的多个帧的多个分类结果来判断工厂中是否存在处于异常状态的生产设备。例如，在某个时间，当从来自麦克风阵列的至少三个声音信号划分的帧的分类结果均为人类尖叫、生产设备异常操作的噪声或破碎声时，才判断为工厂中存在处于异常状态的生产设备。又例如，当从来自麦克风阵列的至少一个声音信号划分的至少三个连续帧的分类结果均为人类尖叫、生产设备异常操作的噪声或破碎声时，才判断为工厂中存在处于异常状态的生产设备。应当指出，可以根据需要和工厂设置来设定各种规则，以根据分类结果判断工厂中是否存在处于异常状态的生产设备。

图7示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的装置的框图。参照图7，装置700包括信息获取单元701、信息分类单元702、异常判断单元703和候选确定单元704。信息获取单元701被配置为获得工厂中的至少一个生产设备周围的环境信息。信息分类单元702被配置为利用机器学习模型获得环境信息的分类结果，机器学习模型被配置为基于从环境信息中提取的特征来输出对应的分类结果。异常判断单元703被配置为基于分类结果判断工厂中是否存在处于异常状态的生产设备。候选确定单元704被配置为当判断工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制候选的处于异常状态的生产设备中的至少一个。图7中的各单元可以利用软件、硬件(例如集成电路、FPGA等)或者软硬件结合的方式来实现。

在一些实施例中，环境信息包括由至少一个声音采集设备采集的声音信号，至少一个声音采集设备被布置在至少一个生产设备周围。在一些实施例中，分类结果包括以下各项中的至少一项：人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音、以及破碎声。

在一些实施例中，候选确定单元704被进一步配置为：确定发出声音信号的声源的位置；以及基于声源的位置确定候选的处于异常状态的生产设备。

在一些实施例中，装置700还包括信号分帧模块(未示出)，其被配置为对声音信号进行分帧；以及信号转换模块(未示出)，其被配置为将分帧后的多帧信号中的每帧信号分别转换为频谱图，以作为机器学习模型的输入。

在一些实施例中，环境信息包括由至少一个图像采集设备采集的图像信号，至少一个图像采集设备被布置在至少一个生产设备周围。在一些实施例中，分类结果包括以下各项中的至少一项：人类惊讶的表情、人类皱眉的表情、以及人类微笑的表情。

在一些实施例中，装置700还包括模型训练模块(未示出)，其被配置为训练机器学习模型。在一些实施例中，机器学习模型为神经网络模型。

图8示出了根据本公开的一个实施例的用于识别工厂中处于异常状态的生产设备的计算设备800的框图。从图8中可以看出，用于识别工厂中处于异常状态的生产设备的计算设备800包括处理器801以及与处理器801耦接的存储器802。存储器802用于存储计算机可执行指令，当计算机可执行指令被执行时使得处理器801执行以上实施例中的方法。

此外，替代地，上述方法能够通过计算机可读存储介质来实现。计算机可读存储介质上载有用于执行本公开的各个实施例的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

因此，在另一个实施例中，本公开提出了一种计算机可读存储介质，该计算机可读存储介质具有存储在其上的计算机可执行指令，计算机可执行指令用于执行本公开的各个实施例中的方法。

在另一个实施例中，本公开提出了一种计算机程序产品，该计算机程序产品被有形地存储在计算机可读存储介质上，并且包括计算机可执行指令，该计算机可执行指令在被执行时使至少一个处理器执行本公开的各个实施例中的方法。

一般而言，本公开的各个示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

用于执行本公开的各个实施例的计算机可读程序指令或者计算机程序产品也能够存储在云端，在需要调用时，用户能够通过移动互联网、固网或者其他网络访问存储在云端上的用于执行本公开的一个实施例的计算机可读程序指令，从而实施依据本公开的各个实施例所公开的技术方案。

虽然已经参考若干具体实施例描述了本公开的实施例，但是应当理解，本公开的实施例并不限于所公开的具体实施例。本公开的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

用于识别工厂中处于异常状态的生产设备的方法，包括：

获得工厂中的至少一个生产设备周围的环境信息；

利用机器学习模型获得所述环境信息的分类结果，所述机器学习模型被配置为基于从所述环境信息中提取的特征来输出对应的分类结果；

基于所述分类结果判断所述工厂中是否存在处于异常状态的生产设备；以及

当判断所述工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制所述候选的处于异常状态的生产设备中的至少一个。
根据权利要求1所述的方法，其中，所述环境信息包括由至少一个声音采集设备采集的声音信号，所述至少一个声音采集设备被布置在所述至少一个生产设备周围。
根据权利要求2所述的方法，其中，所述分类结果包括以下各项中的至少一项：人类尖叫、生产设备异常操作的噪声、生产设备正常操作的声音、以及破碎声。
根据权利要求2所述的方法，其中，当判断所述工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备进一步包括：

确定所述声音信号的声源的位置；以及

基于所述声源的位置确定所述候选的处于异常状态的生产设备。
根据权利要求2所述的方法，还包括：

对所述声音信号进行分帧；以及

将分帧后的多帧信号中的每帧信号分别转换为频谱图，以作为所述机器学习模型的输入。
根据权利要求1所述的方法，其中，所述环境信息包括由至少一个图像采集设备采集的图像信号，所述至少一个图像采集设备被布置在所述至少一个生产设备周围。
根据权利要求6所述的方法，其中，所述分类结果包括以下各项中的至少一项：人类惊讶的表情、人类皱眉的表情、人类微笑的表情、以及从生产设备掉落或喷射出物品。
根据权利要求1所述的方法，还包括：训练所述机器学习模型。
根据权利要求1所述的方法，其中，所述机器学习模型为神经网络模型。
用于识别工厂中处于异常状态的生产设备的装置，包括：

信息获取单元，其被配置为获得工厂中的至少一个生产设备周围的环境信息；

信息分类单元，其被配置为利用机器学习模型获得所述环境信息的分类结果，所述机器学习模型被配置为基于从所述环境信息中提取的特征来输出对应的分类结果；

异常判断单元，其被配置为基于所述分类结果判断所述工厂中是否存在处于异常状态的生产设备；以及

候选确定单元，其被配置为当判断所述工厂中存在处于异常状态的生产设备时，基于预定的规则确定候选的处于异常状态的生产设备，以控制所述候选的处于异常状态的生产设备中的至少一个。
根据权利要求10所述的装置，其中，所述环境信息包括由至少一个声音采集设备采集的声音信号，所述至少一个声音采集设备被布置在所述至少一个生产设备周围。
根据权利要求11所述的装置，其中，所述候选确定单元被进一步配置为：

确定所述声音信号的声源的位置；以及

基于所述声源的位置确定所述候选的处于异常状态的生产设备。
根据权利要求10所述的方法，其中，所述环境信息包括由至少一个图像采集设备采集的图像信号，所述至少一个图像采集设备被布置在所述至少一个生产设备周围。
根据权利要求10所述的装置，还包括：

模型训练模块，所述模型训练模块被配置为训练所述机器学习模型。
计算设备，包括：

处理器；以及

存储器，其用于存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述处理器执行根据权利要求1-9中任一项所述的方法。
计算机可读存储介质，所述计算机可读存储介质具有存储在其上的计算机可执行指令，所述计算机可执行指令用于执行根据权利要求1-9中任一项所述的方法。
计算机程序产品，所述计算机程序产品被有形地存储在计算机可读存储介质上，并且包括计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据权利要求1-9中任一项所述的方法。