WO2023184754A1

WO2023184754A1 - 可配置实时视差点云计算装置及方法

Info

Publication number: WO2023184754A1
Application number: PCT/CN2022/101751
Authority: WO
Inventors: 孟照腾; 蒿杰; 胡文庆; 孙亚强; 舒琳; 历宁; 范秋香
Original assignee: 中国科学院自动化研究所; 广东人工智能与先进计算研究院
Priority date: 2022-04-01
Filing date: 2022-06-28
Publication date: 2023-10-05
Also published as: CN114897665A

Abstract

本申请提供一种可配置实时视差点云计算装置和方法，包括图像缓存单元、缓存控制器、PE阵列、结果整形模块、最小值搜索模块以及配置解析模块；图像缓存单元用于输出指定窗口大小和滑窗顺序的图像窗口数据；缓存控制器用于控制图像缓存单元输出图像窗口数据，并分发至PE阵列中的PE；PE阵列用于生成指定结构的若干PU，并得到SAD匹配代价计算结果；结果整形模块用于对匹配代价进行数据字段添加；最小值搜索模块用于对匹配代价逐级搜索最小值得到视差值；配置解析模块用于解析接收到的配置信息，生成相应的控制信号分别输入其他模块，可以实现视差点云计算实时进行，匹配参数可配置且无需重构。

Description

可配置实时视差点云计算装置及方法

相关申请的交叉引用

本申请要求于2022年04月01日提交的申请号为202210348784.1，发明名称为“可配置实时视差点云计算装置及方法”的中国专利申请的优先权，其通过引用方式全部并入本文。

技术领域

本申请涉及微电子技术领域，尤其涉及一种可配置实时视差点云计算装置及方法。

背景技术

立体匹配是双目立体视觉中的关键环节，立体匹配算法根据像素信息相似性来搜索左右图的对应点，从而确定视差。通过对全图的像素点进行对应点搜索，可以生成整张图的视差点云，进而用于测距或三维重建等任务。立体匹配算法可以部署在中央处理器(Central Processing Unit,CPU)、图形处理器(Graphic Processing Unit，GPU)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)等不同的平台上。

CPU和GPU具有较好的可编程性，可以最大程度地适配不同的匹配参数，能够满足不同场景的立体匹配任务，但其实时性差，无法满足高实时性的应用需求；ASIC具有较高的能效与实时性，但其灵活性较差，无法适应不同的匹配参数。FPGA可以有效地加速计算密集型任务，但现有技术只能通过重构来适配不同的匹配参数，重构设计的时间成本较大。

发明内容

针对现有技术存在的问题，本申请提供一种可配置实时视差点云计算装置和方法。

第一方面，本申请提供一种可配置实时视差点云计算装置，包括：

图像缓存单元、缓存控制器、处理单元PE阵列、结果整形模块、最小值搜索模块以及配置解析模块；

其中，所述图像缓存单元与所述缓存控制器连接，用于在所述缓存控制器的控制下，按照指定窗口大小和滑窗顺序，对缓存的双目图像数据进行整形后输出图像窗口数据至所述缓存控制器；

所述缓存控制器分别与所述配置解析模块和所述PE阵列连接，用于根据所述配置解析模块传递的控制信号，控制所述图像缓存单元输出图像窗口数据，所述图像窗口数据经所述缓存控制器分发至所述PE阵列中的PE；

所述PE阵列分别与所述配置解析模块和所述结果整形模块连接，用于根据所述配置解析模块传递的控制信号，生成指定结构的若干PU，并基于所述指定结构的若干PU对输入的图像窗口数据进行处理，得到SAD匹配代价计算结果输出至所述结果整形模块；

所述结果整形模块分别与所述配置解析模块和所述最小值搜索模块连接，用于根据所述配置解析模块传递的控制信号，对输入的SAD匹配代价计算结果进行字段添加后输出至所述最小值搜索模块；

所述最小值搜索模块与所述配置解析模块连接，用于根据所述配置解析模块传递的控制信号和最小值搜索算法，对输入的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值；

所述配置解析模块用于对接收到的配置信息进行解析，生成相应的控制信号分别输入至所述缓存控制器、所述PE阵列、所述结果整形模块和所述最小值搜索模块。

可选地，所述PE阵列中的PE采用上下左右互联的方式，在垂直方向上进行中间结果的传递，在水平方向上进行操作数及匹配代价的传递。

可选地，所述PE阵列中包括以下类型PE中的一种或多种：

Ultra PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值，以及部分和的累加操作；

Standard PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值，以及部分和的累加操作；

Lite PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值的操作；

其中，所述Ultra PE对应的计算资源大于所述Standard PE。

可选地，所述PE阵列中的每一列均可配置成一个或者多个PU，所述PU用于执行指定窗口大小的SAD匹配代价计算操作。

可选地，所述PU中，第一行的PE为所述Ultra PE或所述Standard PE。

第二方面，本申请还提供一种可配置实时视差点云计算方法，包括：

所述配置解析模块对接收的配置信息进行解析，生成相应的控制信号，分别输入至所述缓存控制器、所述PE阵列、所述结果整形模块和所述最小值搜索模块；

所述缓存控制器根据所述配置解析模块传递的控制信号，按照指定窗口大小和滑窗顺序，控制所述图像缓存单元输出一路或多路双目图像数据对应的图像窗口数据；

所述PE阵列根据所述配置解析模块传递的控制信号，生成指定结构的若干PU，并基于所述指定结构的若干PU对输入的图像窗口数据进行处理，得到所述图像窗口数据对应的SAD匹配代价计算结果；

所述结果整形模块根据所述配置解析模块传递的控制信号，对所述PE阵列输出的所述SAD匹配代价计算的结果添加字段；

所述最小值搜索模块根据所述配置解析模块传递的控制信号和最小值搜索算法，对添加字段后的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值。

可选地，所述配置信息包括：

图像分辨率、匹配窗口大小、视差搜索深度、双目图像数据的路数以及PE工作模式。

可选地，所述配置信息的确定方式包括：

确定满足单数据流或者多数据流性能指标；

根据所述PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源；

根据分配的计算资源生成配置信息。

可选地，在数据流数量为两个的情况下，所述根据所述PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源，包括：

确定在为每个数据流都分配一个单位计算资源后所述PE阵列中剩余可分配的计算资源；

若所述剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，且满足第一条件，则继续为每个数据流都分配一个单位计算资源；

若所述剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，但不满足第一条件，则根据第一数值和第二数值之间的大小关系，单独为每个数据流分配单位计算资源；

其中，所述第一数值根据每个数据流对应的视差搜索深度和视频帧率确定，所述第二数值根据当前已分配给每个数据流的单位计算资源个数确定，所述第一条件根据所述第一数值、所述第二数值以及预设阈值确定。

可选地，所述方法还包括：

若所述剩余可分配的计算资源仅可以为目标数据流提供单位计算资源，则将所述剩余可分配的计算资源全部分配给目标数据流。

本申请提供的可配置实时视差点云计算装置及方法，通过配置解析模块实现适配不同的匹配参数，同时无需重构FPGA；通过PE阵列并行流水结构完成SAD匹配代价的计算，满足高实时性要求，保证了适配不同的匹配信息与高实时性的兼顾。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的基于FPGA的可配置实时视差点云生成系统的整体框图；

图2是本申请提供的可配置实时视差点云计算装置的结构示意图；

图3是本申请提供的图像缓存单元对分辨率的兼容方法示意图；

图4是本申请提供的PSAD和PSUM定义示意图；

图5是本申请提供的SAD匹配代价计算流水设计示意图；

图6是本申请提供的全并行流水SAD计算阵列示意图；

图7是本申请提供的Ultra PE内部结构图；

图8是本申请提供的可配置实时视差点云计算方法的流程示意图；

图9是本申请提供的资源感知型配置生成流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

双目立体视觉作为一种获取场景深度信息的常用手段，具有良好的可靠性和鲁棒性，广泛应用于移动机器人、自动驾驶、工业自动化及自动监控等领域。立体匹配是双目立体视觉中的关键环节。立体匹配算法根据像素信息相似性来搜索左右图的对应点，从而确定视差。通过对全图的像素点进行对应点搜索，可以生成整张图的视差点云，进而用于测距或三维重建等任务。目前立体匹配算法可以分为局部匹配算法、全局匹配算法和半全局匹配算法。局部匹配算法由于其独特的实时性特性，被广泛应用于高实时性的应用中。

立体匹配算法可以部署在如CPU、GPU、FGPA、ASIC等不同的平台上。CPU和GPU具有较好的可编程性，可以最大程度地适配不同的匹配参数(如匹配窗口大小、视差搜索深度、图像分辨率等)，能够满足不同场景的立体匹配任务，但其实时性差，无法满足高实时性的应用需求。ASIC具有较高的能效与实时性，但其灵活性较差，无法适应不同的匹配参数。FPGA可以有效地加速计算密集型任务，并且能够通过重构来适配不同的匹配参数，能够做到实时性和灵活性的折中，已经成为立体匹配加速的主流方案。

目前已有较多的基于FPGA的立体匹配加速平台，实现了诸如差的绝对值之和算法(Sum of Absolute Differences，SAD)、差的平方和算法(Sum of Squared Differences，SSD)、Census Transform等局部匹配算法的部署。但这些平台只能通过重构设计来适配不同的匹配参数，且重构设计的时间成本较大。因此，本申请提供一种基于FPGA的立体匹配算法解决方案，通过该解决方案可以实现立体匹配任务同时满足实时性、灵活适配不同匹配参数、无需重构的要求。

本申请的核心思想是：通过配置解析模块实现适配不同的匹配参数，同时无需重构FPGA；通过PE阵列流水结构完成SAD匹配代价计算，保证高实时性。

图1为本申请提供的基于FPGA的可配置实时视差点云生成系统的整体框图，从图1中可以看出，左右相机镜头及采集芯片采集到的图像数据，经过高速接口，例如移动产业处理器接口(Mobile Industry Processor Interface，MIPI)、通用串行总线(Universal Serial Bus，USB)、高清多媒体接口(High Definition Multimedia Interface，HDMI)、显示接口(DisplayPort，DP)等传输进FPGA芯片；经过基础图像处理模块之后进入图像畸变校正模块进行成像畸变校正；输出的校正后的像素数据在缓存控制器的调度下，以乒乓缓存的方式以帧为单位缓存至外部存储器中；外部存储器中缓存的图像数被发送至可配置视差点云计算模块进行立体匹配计算过程。立体匹配采用局部匹配算法，以SAD为指标来度量匹配代价。得到的视差数据通过高速接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect Express,PCIE))进行输出。

主控单元(例如FPGA上内置CPU)生成配置信息，并将配置信息发送至各可配置模块，实现匹配参数的配置，其中相机及采集芯片可以通过寄存器配置实现不同分辨率和帧率的调整，基础图像处理模块包括了demosaic、灰度校正、图像色彩格式转换、分辨率裁剪等，可以通过配置寄存器的方式实现由高分辨率向低分辨率的裁剪，图像畸变校正模块可以通过配置寄存器的方式实现不同分辨率的兼容。

本申请提供的基于FPGA的可配置实时视差点云生成系统可以通过配置寄存器的方式实现不同分辨率、匹配窗口宽度、视差搜索深度的配置，且能够支持多组双目数据实时处理。

图2为本申请提供的可配置实时视差点云计算装置的结构示意图，从图2中可以看出，该装置可以应用于基于FPGA的可配置实时视差点云生成系统，该装置包括图像缓存单元200、缓存控制器210、处理单元(Processing Element，PE)阵列220、结果整形模块230、最小值搜索模块240，配置解析模块250。

其中，图像缓存单元200与缓存控制器210连接，用于在缓存控制器210的控制下，按照指定窗口大小和滑窗顺序，对缓存的双目图像数据进行整形后输出图像窗口数据至缓存控制器210；

缓存控制器210分别与配置解析模块250和PE阵列220连接，用于根据配置解析模块250传递的控制信号，控制图像缓存单元200输出图像窗口数据，图像窗口数据经缓存控制器210分发至PE阵列220中的PE；

PE阵列220分别与配置解析模块250和结果整形模块230连接，用于根据配置解析模块250传递的控制信号，生成指定结构的若干算法处理单元(Processing Unit，PU)，并基于指定结构的若干PU对输入的图像窗口数据进行处理，得到SAD匹配代价计算结果输出至结果整形模块230；

其中，PE阵列采用mesh拓扑结构，每个PE与其上下左右四个PE互联，指定结构的PU指的是包含一列若干行PE的算法处理单元，用于完成指定窗口的SAD匹配代价计算，获得计算结果，其行数可以根据配置信息中的图像窗口尺寸确定，例如图像窗口尺寸为3×3大小，则一个PU包含1列3行共3个PE；

SAD匹配代价计算指的是两个窗口(例如左右目图像窗口)的对应像素值的差的绝对值的累加和。

结果整形模块230分别与配置解析模块250和最小值搜索模块240连接，用于根据配置解析模块250传递的控制信号，对输入的SAD匹配代价计算结果进行数据字段添加后输出至最小值搜索模块240；

最小值搜索模块240与配置解析模块250连接，用于基于最小值搜索树，对输入的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值；

配置解析模块250用于对接收到的配置信息进行解析，生成相应的控制信号分别输入至缓存控制器、PE阵列和结果整形模块，最小搜索模块。

从图2中可以看出，图像缓存单元200存储大小为48.64KB，包括38个Bank，每个Bank由一个大小为1280Byte的双端口块随机存取存储器 (Block Random Access Memory，BRAM)组成，可以存储1280Byte的像素数据，例如可以存储480p分辨率(即分辨率为640×480)的左右图像各自一行像素数据，可以存储720p分辨率(即分辨率为1280×720)的左右图像各1/2行像素数据，也可以存储1080p分辨率(即分辨率为1920×1080)的左右图像各1/3行像素数据。但是本领域技术人员应当理解，图像缓存单元200的存储大小、Bank个数及Bank大小，这些并非是限制性的，他们可以根据需要灵活调整。

图3为本申请提供的图像缓存单元对分辨率的兼容方法示意图，从图中可以看出，图像缓存单元200可以为不同分辨率图像进行整形操作，即按照固定窗口大小以及滑窗顺序将像素数据取出或者将像素重新排列，整形后匹配窗口大小为2n+1(n∈N^*,n≤9)(注：1920×1080分辨率下，整形后匹配窗口大小为2n+1(n∈N^*,n≤6))。对于单个图像来说，整形buffer的每一行可以缓存640个像素，其可以完成行像素数量为640*n(n属于正整数)的图片的整形操作。例如，图像按照像素坐标顺序，从Bank0开始逐行缓存。输入图像为480p分辨率，则每行像素占用一个Bank，进行数据整形时，从每个bank中同时读取数据即可完成整形；输入图像为720p分辨率，则每行像素占用两个Bank，进行数据整形时，从第2n-1(n属于正整数)个Bank中同时读取数据即可完成整形；输入图像为1080p分辨率，则每行像素占用3个bank，进行数据整形时，从第3n-1(n属于正整数)个Bank中同时读取数据即可完成整形。当所有Bank写满后，输入数据将从Bank0开始覆盖历史数据，继续进行逐行缓存。

缓存控制器210可以根据配置解析模块250传递的控制信号，生成图像缓存单元的读写控制信号，BRAM中数据的读写(例如从外部存储器读出，写入BRAM，从BRAM读出，分发给PE阵列等)。

PE阵列220完成基于SAD的匹配代价计算。PE阵列中的每一个PE都可以根据配置解析模块250传递的控制信号，被配置为不同工作模式。每一个PE在不同工作模式下(不同窗口宽度、视差搜索深度、分辨率及视频流数量)的计算任务不同，需要的FPGA资源也不一样，根据该架构所能支持的所有计算参数，为每个PE构建了一个配置空间，并且根据配置空间设计了三类PE结构：Ultra PE、Standard PE及Lite PE。这三种PE根据计算任务的不同，分布于阵列中不同的行，较为复杂的计算由Ultra PE完成，其次是Standard PE，简单计算由Lite PE完成，可以最大限度节约FPGA资源消耗；同时PE阵列中的每一个PE采用上下左右互联的方式，可以在水平方向上传递操作数及匹配代价，在垂直方向上传递中间结果，从而实现SAD匹配代价计算的多级流水设计，加速SAD匹配代价计算；PE阵列中的每一列均可配置为包括一个或者多个PU，实现不同搜索深度的匹配代价计算。

结果整形模块230对Ultra PE和Standard PE行生成的SAD计算结果进行字段添加。Ultra PE和Standard PE行生成的SAD匹配代价计算结果，经过水平方向上的互联数据通道传输至结果整形模块，结果整形模块结合配置解析模块传递的控制信号，为对应候选视差(左右窗口中心点横坐标的差)位置的SAD结果添加位置字段，即在每个结果前添加8bit二进制码，用于表示该SAD值在该候选视差下的匹配代价。并将添加字段后的匹配代价发送至最小值搜索模块。

最小值搜索模块240采用最小值搜索树，逐级搜索匹配代价中的最小值，并输出最小匹配代价对应的视差值。

配置解析模块250接收CPU发送的配置信息，包括待处理视频的路数、分辨率，搜索深度，匹配窗口大小等信息。配置解析模块250对收到的配置信息进行解析，生成相应的标志信号，供缓存控制器210生成读写地址与读写使能；传递控制信号至PE阵列220、结果整形模块230，最小值搜索模块240。

配置解析模块250实现适配不同的匹配参数，同时无需重构FPGA；通过PE阵列流水结构完成SAD匹配代价的计算，保证实时性，从而克服了现有技术无法兼顾实时性与同时适配不同的匹配信息的缺陷。

可选地，PE阵列中的PE采用上下左右互联的方式，在垂直方向上进行中间结果的传递，在水平方向上进行操作数及最终匹配代价的传递。

具体地，在SAD匹配代价的计算过程中，将PE阵列中的每一个PE采用上下左右互联的方式，可以在水平方向上传递操作数及匹配代价，在垂直方向上传递中间结果。水平方向上，充分利用立体匹配流水模式中的数据复用特点，在PE阵列内传递操作数及最终SAD匹配代价，避免远距离数据访存。在垂直方向上，完成左右窗匹配代价计算过程中部分和的传递以及累加。

图4为是本申请提供的PSAD和PSUM定义示意图。从图4中可以看出，PSAD表示对左图和右图的同一列中处于同一对应位置的像素值求绝对差值，并将这一列的绝对差值相加。

图5为本申请提供的SAD匹配代价计算流水设计示意图。首先说明SAD求取过程：对于两幅输入图像(左图和右图)，依次扫描左图的每一个像素点(称为锚点)，在扫描左图的每一个像素点时，进行如下操作：以每一个锚点为中心构造一个固定尺寸的匹配窗口(如3×3、5×5……)，选择出窗口覆盖区域的所有像素点；同样用窗口覆盖右图对应位置，并且选择出覆盖区域的所有像素点；求取左图覆盖区域与右图覆盖区域对应像素点的灰度值之差的绝对值，并将绝对值相加；以1为步长，向左移动右图的覆盖区域，并取出覆盖区域的所有像素点，并求SAD值；重复上一步骤，直到右图覆盖区域中心位置超出视差搜索范围；找到此范围内最小SAD值对应的窗口，其中心点即为左图锚点的对应点，左图锚点和其在右图的对应点的横坐标的差值即为该锚点的视差。

图5中的(a)部分展示了左图像素值为98(3×3窗口的中心点)的一个锚点的视差搜索计算过程，其中窗口尺寸为3×3，搜索范围为4，搜索过程中，依次计算左图窗口数据与右图窗口1、2、3、4的SAD值，并求取最小SAD值，进而得到视差。如图5中的(b)部分展示了本申请提出的计算架构中SAD计算流水的实现过程，示例性的，SAD并行过程如下，两个3×3大小的窗口进行SAD计算过程可以划分为3个子过程，将子过程命名为PSAD过程，PSAD过程的结果定义为PSUM，则SAD计算结果可以通过若干PSUM相加得到。

图5中的(a)部分所示的计算过程以一个完整的SAD计算为基本粒度，此计算方式存在数据的重复访存。为了实现高效的流水计算，现将SAD计算过程调整为图5中的(b)部分所示的形式，该形式以一个PSAD计算为粒度，通过PSUM的累加实现SAD的计算过程。具体来说，t1时刻，左图中①所示的子窗口与右图中①所示的4个子窗口并行执行4个PSAD过程，产生4个PSUM，从右至左分别为PSUM1_1、PSUM1_2、PSUM1_3、 PSUM1_4(PSUMn_m：左图子窗口n与右图n所示的子窗口集合中从右向左的第m个子窗口的PSAD结果)；t2时刻，左图中②所示的子窗口与右图中②所示的4个子窗口并行执行4个PSAD过程，产生4个PSUM，从右至左分别为PSUM2_1、PSUM2_2、PSUM2_3、PSUM2_4······以此类推。这种计算方式下，图5中的(a)部分所示的窗口1的SAD过程可以由PSUM1_1、PSUM2_1、PSUM3_1相加得到，记为SUM。这种流水方式可以充分挖掘右图的数据复用性。当计算以左图中90为中心点，视差为0的两个窗口的匹配代价时，采用SUM加上PSUM4_1(图5中的(b)部分左图中④所示的子窗口与右图中④所示的子窗口集合中从右向左第一个子窗口的PSAD结果)再减去PSUM1_1的方式，避免冗余计算。此种计算方式需要对历史PSUM进行本地缓存。

示例性地，图6为本申请提供的全并行流水SAD计算阵列示意图，该阵列由三行四列PE组成，可配置为四个PU(PU1、PU2、PU3及PU4)，完成窗口尺寸为3×3，搜索范围为四的全视差并行计算过程。图5中的(b)部分左图的每一个子窗口需要跟右图的四个子窗口进行PSAD计算，每个PSAD计算由一列PE(即1个PU)完成，每一列PE中PE的个数由窗口尺寸决定，因此完成该全视差并行计算需要四列这样的PE，PE之间可以在上下左右方向进行数据传递。整个SAD计算阶段分为两个子阶段，分别进行操作数填充和流水线计算。

(1)操作数填充阶段：

clk1～clk4：如图5中的(b)部分所示，缓存控制器将左图①子窗口中的三个数取出，分别多播给图6中的PE00-PE03、PE10-PE13、PE20-PE23(将43多播给PE00-PE03，87多播给PE10-PE13，34多播给PE20-PE23)；缓存控制器依次取出右图①中的四个子窗口数据，通过阵列的横向数据传递路径，将四个子窗口数据发送至12个PE(将88发送至PE03，59发送至PE13，88发送至PE23，1发送至PE02，45发送至PE12，6发送至PE22，42发送至PE01，58发送至PE11，14发送至PE21，69发送至PE00，72发送至PE10，0发送至PE20)。

流水线计算阶段：

clk5：各PE计算寄存器中两个操作数的差并取绝对值。以PE00为例，计算两个操作数(43和69)的AD值(26)并寄存。

clk6：更新各PE寄存器中的操作数，计算更新后的两个操作数的AD值，并且将clk5时刻产生的AD值按照列进行相加。具体来说，PE03操作数更新为1，PE13操作数更新为45，PE23操作数更新为6，PE02操作数更新为42，PE12操作数更新为58，PE22操作数更新为14，PE01操作数更新为69，PE11操作数更新为72，PE21操作数更新为0，PE00操作数更新为55，PE10操作数更新为80，PE20操作数更新为87。右图②的四个子窗口与右图①的四个子窗口存在可复用的值，因此仅从缓存buffer(PE内部结构)中取出最右侧子窗口的值，即55、80、87，并将其发送至PE00、PE10、PE20即可。其余三个子窗口中的操作数，由左侧PE横向传递给右侧PE即可。以PE00为例，计算寄存器中两个操作数(98和55)的AD值(43)并寄存。AD值的相加分为两步完成：以第一列为例，第一步完成PE00与PE10中AD值的相加并产生中间结果p，第二步完成PE20中AD值与中间结果p的相加。clk6时刻完成上述过程的第一步。PE10的AD值(15)传递给PE00，并与PE00的AD值(26)相加，并将中间结果(41)暂存。其余列过程与第一列相同。

clk7：更新各PE寄存器中的操作数，计算更新后的两个操作数的AD值，并完成clk5时刻产生的AD值相加的第二步，同时完成clk6时刻产生的AD值相加的第一步。PE操作数的更新和操作数的AD值计算与上述过程类似。AD值相加具体来说，以第一列为例，PE20将clk5时刻产生的操作数(34和0)的AD值(34)，传递给PE00，并与clk6时刻的中间结果(41)相加，得到PSUM1_1(75)。PE10将clk6时刻产生的操作数(98和80)的AD值(18)传递给PE00，并与PE00在clk6时刻产生的操作数(98和55)的AD值(43)相加，产生中间结果(61)。其余列与第一列相同。

clk8：更新各PE寄存器中的操作数，计算更新后的两个操作数的AD值，并完成clk6时刻产生的AD值相加的第二步，同时完成clk7时刻产生的AD值相加的第一步。PE操作数的更新和操作数的AD值计算与上述过程类似。AD值相加具体来说，以第一列为例，PE20将clk6时刻产生操作数(39和87)的AD值(48)，传递给PE00，并与clk7时刻的中间结果(61)相加，得到PSUM2_1(109)。PE10将clk7时刻产生操作数(90和 1)的AD值(89)传递给PE00，并与PE00在clk7时刻产生的操作数(44和56)的AD值(12)相加，产生中间结果(101)。其余列与第一列相同。

clk9：完成clk7时刻产生的AD值相加的第二步，同时将PSUM1_1～4与PSUM2_1～4分别相加。具体来说，以第一列为例，PE20将clk7时刻操作数(45和45)的AD值(0)，传递给PE00，并与clk8时刻的中间结果(101)相加，得到PSUM3_1(101)。在PE00中，将PSUM1_1(75)与PSUM2_1(109)相加，得到中间结果q(184)。其余列与第一列相同。

clk10：完成中间结果q与PSUM3_1的相加，产生最终SUM值。具体来说，以第一列为例，在PE00中，完成PSUM3_1(101)与中间结果q(184)的相加，得到最终SUM值(285)。其余列与第一列相同。

其中PSUM值在PE之间垂直向上传递，右图的数据和Ultra PE和Standard PE行生成的SAD计算结果在PE之间横向传递，从而加快SAD匹配代价的计算，减少重复读取数据带来的时间浪费。通过上述PE连接方式，更加有利于SAD匹配代价的多级流水设计实现，达到数据传输与计算的实时性要求。

可选地，PE阵列中包括以下类型PE中的一种或多种：

其中，Ultra PE对应的计算资源大于Standard PE。

具体地，在PE阵列的排布时，PE阵列中包括三种类型PE中的一种或多种，例如，可以全部由Ultra PE生成PE阵列；也可以由Ultra PE与Standard PE来生成PE阵列；还可以Ultra PE、Standard PE及Lite PE三种共同生成PE阵列。

图7为本申请提供的Ultra PE内部结构图。从图7可以看出，Ultra PE内部包括如下部件：AD值累加单元701～705，用于完成垂直方向上的PE 传递而来的中间结果(AD值)的累加，并产生PSUM，经过数据互联传递给其他PE；AD计算单元706，用于完成两个操作数的差并取绝对值(以下称为AD值)的计算过程；PSUM缓存单元707，用于完成分时复用时历史PSUM的本地暂时缓存；PSUM累加单元708；匹配代价缓存单元709；操作数缓存单元710，用于分时复用时的操作数暂存。

需要说明的是Ultra PE内计算资源最多，Standard PE次之，Lite PE最少。Standard PE包含图7中的AD值累加单元701～703；AD计算单元706；PSUM缓存单元707；PSUM累加单元708；匹配代价缓存单元709；操作数缓存单元710。Lite PE仅包含图6中的AD计算单元706和操作数缓存单元710。

具体地，AD值累加单元701～705，包括一个加法器、两个寄存器(A和B)、一个MUX和一个DEMUX。具体地，加法器的操作数1来源于纵向的数据总线，由其他PE传递而来；操作数2为历史累加结果或者0；当完成一个PSAD的累加后，将操作数2置零，来进行下一个PSAD计算过程；累加的中间值寄存在A和B中，A和B组成一个深度为2的FIFO；MUX可以选择从A或者B中获取累加值(图中上方的寄存器为B，下方的寄存器为A)；从B中获取累加的中间值可以实现寄存一拍(延时一个预设的时钟周期)的效果；5个AD值累加单元的输出连接到MUX，MUX选通有效的PSUM，并且将其分别送入PSUM缓存单元707和PSUM累加单元708。

AD计算单元706，输入为左右图像像素数据，输出经过一个由三个寄存器组成的FIFO，MUX可以选择从三个寄存器中获取AD值，从而达到打一拍(延时一个预设的时钟周期)或者打两拍的效果。

PSUM累加单元708，有三个操作数，分别为当前PSUM值，历史PSUM值与历史匹配代价，其中PSUM值由AD累加单元701～705产生，经MUX选通后传递而来，历史PSUM值缓存在PSUM值缓存707中，历史匹配代价缓存在匹配代价缓存单元中709中。

本领域技术人员应当理解，图中AD值累加单元、AD计算单元等的个数及寄存器个数并非是限制性的，他们可以根据需要调整。

根据SAD多级流水计算对计算资源的不同需求，设计不同的PE结构，有效提升了阵列利用率，节约了FPGA资源，降低了FPGA功耗。

可选地，PE阵列中的每一列均可配置为包括一个或者多个PU，所述PU用于执行指定窗口大小的SAD匹配代价计算操作。

具体地，为了空间上进行尽可能多的视差并行计算，同时也为了兼容不同的匹配窗口尺寸、不同的视差搜索深度，PE阵列的每一列都可以配置成为一个或者多个一定尺寸的PU，例如PE阵列的每一列有10个PE，可以配置成3个计算3×3窗口匹配代价的PU，并行完成三次SAD匹配代价计算，或配置成计算2个5×5窗口匹配代价的PU，并行完成两次SAD匹配代价计算，或配置成计算1个9×9窗口匹配代价的PU，完成一次SAD匹配代价计算。

可选地，PE阵列每一列有19个PE，这些PE可以被配置为如表1所示的22种计算单元的组合，通过以下配置组合实现不同窗口尺寸的兼容。需要说明的是表格中的数字表示能够计算相应窗口大小的左右窗口匹配代价的计算单元的个数，以组合1为例，意为每一列PE可以配置为5个用于计算尺寸为3×3的左右窗口匹配代价的计算单元。

表1:PE阵列中单列PE的配置组合

在此基础上，结合分时复用的方法，可以兼容更大的视差搜索深度。例如，PE阵列的每一列有19个PE，一共25列，每列PE可以配置成5个用于计算尺寸为3×3的左右窗口匹配代价的PU，则25列PE可以提供125个3×3窗口的并行处理算力。当视差搜索深度小于等于125时，阵列可以做到全视差并行计算，当视差搜索深度大于125时，采用分时复用的方式进行计算。

本申请的实施例，共提供了3种分时复用配置，即分时复用2次、4次和8次，表2展示了此阵列在不同的分时配置下，可以达到的最大搜索深度。

表2:不同窗口宽度及复用次数下的理论最大搜索深度

按照上述操作，装置可以兼容不同的窗口尺寸、不同的搜索深度，实现窗口尺寸、搜索深度的可配置，同时最大限度的并行设计，也使装置满足高实时性要求。

可选地，该PU中，第一行的PE为Ultra PE或Standard PE。

具体地，在计算匹配代价的过程中，垂直方向上完成中间结果向上传递，因此每个PU在第一行进行最终结果的累加，因此第一行可以采用Ultra PE或者Standard PE。

更进一步地，在整个PE阵列中求取SAD时，综合考虑资源消耗和不同窗口尺寸兼容性，凡是出现加法器的行，都应该是Ultra PE或者Standard PE，当加法器需求较多(例如5个)，则只能使用Ultra PE；仅进行AD值计算的行，都可以用Lite PE；

基于这个设计思路，示例性地，在一个19行25列的PE阵列中，其中每一列PE可以配置成一个或者多个完成SAD计算的PU。其中Ultra PE在第0行和第9行，Standard PE在第2、4、6、8、11、13、15行，Lite PE在第1、3、5、7、10、12、14、16、17、18行，这个排布设计可以达到资源配置最优，不会造成设计冗余。

在PU顶端布局Ultra PE或Standard PE，可以实现资源消耗少，装置功耗小的优点。

本申请各实施例提供的方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此方法和装置的实施可以相互参见，重复之处不再赘述。

图8为本申请提供的可配置实时视差点云计算方法的流程示意图，如图8所示，该方法包括如下步骤：

步骤800、配置解析模块对接收的配置信息进行解析，生成相应的控制信号，分别输入至缓存控制器、PE阵列、结果整形模块和最小值搜索模块。

步骤801、缓存控制器根据配置解析模块传递的控制信号，按照指定窗口大小和滑窗顺序，控制图像缓存单元输出一路或多路双目图像数据对应的图像窗口数据。

步骤802、PE阵列根据配置解析模块传递的控制信号，生成指定结构的若干PU，并基于指定结构的若干PU对输入的图像窗口数据进行处理，得到图像窗口数据对应的SAD匹配代价计算结果。

步骤803、结果整形模块根据配置解析模块传递的控制信号，对PE阵列输出的SAD匹配代价计算的结果添加字段。

步骤804、最小值搜索模块根据配置解析模块传递的控制信号和最小值搜索算法，对添加字段后的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值。

通过配置解析模块实现适配不同的匹配参数；通过PE阵列流水结构完成SAD匹配代价的计算，保证高实时性，从而克服了现有技术无法兼顾高实时性与同时适配不同的匹配信息的缺陷。

可选地，可配置实时视差点云计算方法配置信息包括图像分辨率、匹配窗口大小、视差搜索深度、双目图像数据的路数以及PE工作模式。

具体地，图像分辨率支持480p、720p、1080p等；匹配窗口大小包括3×3、5×5、13×13等；视差搜索深度视应用场景而定，由使用人员指定；双目图像数据包含了左右两幅图各自的数据流，简称为左右数据流对，双目图像数据的路数指的是左右数据流对的数量；PE工作模式包括Ultra PE，Standard PE，Lite PE。在SAD匹配代价并行计算过程中，PE阵列里需要使用加法器的行均使用Ultra PE和Standard PE(加法器较多时使用Ultra PE)，仅做AD值计算的行使用Lite PE。

这些配置信息可以通过配置解析模块传递和解析，从而实现了灵活适配不同的匹配参数的功能。

可选地，配置信息的确定方式包括：

确定满足单数据流或者多数据流性能指标；

根据PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源；

根据分配的计算资源生成配置信息。

具体地，数据流是指一个左右目视频数据流对，多数据流即多个左右目视频数据流对。

单位计算资源是指由若干个PE组成的可以用于处理一定大小窗口匹配代价的单元，例如对于3×3大小的窗口，其计算单元为一个3行1列的PE矩阵，包含3个PE。

图2的各模块都可配置为多数据流共享模式。其中图像缓存单元200可以支持多路不同分辨率数据流的整形，PE阵列通过资源感知型的配置信息生成方法，根据数据流参数和帧率要求在空间上划分给不同的数据流，从而提高计算资源的利用率。

在为数据流分配计算单元时，首先检查配置生成要求，即是否为多数据流，在多数据流情况下，根据本设计的多数据流配置空间，检查架构算力是否满足要求多数据流性能指标(即在指定的窗口宽度及视差搜索深度下，满足或者接近帧率要求)，若是多数据流以及满足性能指标，则进入配置生成流程，否则进入单数据流配置流程或者报错。

确定资源配置的过程中，根据PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的帧率要求分配计算资源，例如，从配置资源空间分配资源给待分配数据流后，根据待分配数据流已经分到的计算资源的比例与待分配数据流所需要的计算资源的比例之间的差异动态的调整各数据流分配资源，数据流需要的计算资源由视差搜索深度和视频帧率来表征。

上述方法可以根据阵列计算资源可用情况及每个数据流的指标要求为每个数据流分配计算资源，可以达到充分利用计算资源，平衡不同数据流性能指标的效果。

可选地，在数据流数量为两个的情况下，根据所述PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源，包括：

确定在为每个数据流都分配一个单位计算资源后PE阵列中剩余可分配的计算资源；

若剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，且满足第一条件，则继续为每个数据流都分配一个单位计算资源；

若剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，但不满足第一条件，则根据第一数值和第二数值之间的大小关系，单独为每个数据流分配单位计算资源；

其中，第一数值根据每个数据流对应的视差搜索深度和视频帧率确定，第二数值根据当前已分配给每个数据流的单位计算资源个数确定，第一条件根据所述第一数值、第二数值以及预设阈值确定。

具体地，图9为本申请提供的资源感知型配置生成流程示意图。

从图中可以看出，以为AB两个数据流分配资源为例，其中

为第一条件，δ为人为设定的经验值，是一个小量，例如0.2或者0.5，

为第一数值，

为第二数值，I表示已分配的单位计算资源个数，D表示该数据流要求的搜索深度，F表示该数据流要求的帧率。配置生成流程如下：首先为每个数据流分配一个单位计算资源，然后检查阵列中AB数据流是否都存在可分配的计算资源，满足则检查

是否成立，若上式成立，则继续为AB都分配单位计算资源。若不成立，则检查

与

的大小关系，若

表示A少了，则单独为A分配单位计算资源，否则单独为B分配单位计算资源，继续检查

直到配置生成结束，输出配置信息。

利用上述方法，可以动态的调整各数据流分配资源，从而使资源分配更好，利用率高。

可选地，该资源分配方法还包括：

若剩余可分配的计算资源仅可以为目标数据流提供单位计算资源，则将剩余可分配的计算资源全部分配给目标数据流。

具体地，在为两个数据流分配资源的情况下，首先为每个数据流分配一个单位计算资源，然后检查阵列中AB数据流是否都存在可分配的计算资源，若不满足上述条件，检查阵列中是否剩余可分配给数据流A的单位计算资源，此时数据流A为目标数据流，若有剩余，则将剩余计算资源全部分配给数据流A；如阵列中已经没有单位计算资源可以分配给数据流A，则检查阵列中是否剩余可分配给数据流B的单位计算资源，此时数据流B为目标数据流，若有剩余，则将剩余计算资源全部分配给数据流B，结束配置，并将配置信息输出；若没有剩余计算资源可分配给任意数据流，结束配置，并将配置信息输出。

通过该分配方法，可以在计算资源不能满足同时分配两个数据流，但能满足分配其中一个数据流的情况下，为单个数据流分配资源，实现资源利用最大化。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种可配置实时视差点云计算装置，包括：

图像缓存单元、缓存控制器、处理单元PE阵列、结果整形模块、最小值搜索模块以及配置解析模块；

其中，所述图像缓存单元与所述缓存控制器连接，用于在所述缓存控制器的控制下，按照指定窗口大小和滑窗顺序，对缓存的双目图像数据进行整形后输出图像窗口数据至所述缓存控制器；

所述缓存控制器分别与所述配置解析模块和所述PE阵列连接，用于根据所述配置解析模块传递的控制信号，控制所述图像缓存单元输出图像窗口数据，所述图像窗口数据经所述缓存控制器分发至所述PE阵列中的PE；

所述PE阵列分别与所述配置解析模块和所述结果整形模块连接，用于根据所述配置解析模块传递的控制信号，生成指定结构的若干算法处理单元PU，并基于所述指定结构的若干PU对输入的图像窗口数据进行处理，得到SAD匹配代价计算结果输出至所述结果整形模块；

所述结果整形模块分别与所述配置解析模块和所述最小值搜索模块连接，用于根据所述配置解析模块传递的控制信号，对输入的SAD匹配代价计算结果进行字段添加后输出至所述最小值搜索模块；

所述最小值搜索模块与所述配置解析模块连接，用于根据所述配置解析模块传递的控制信号和最小值搜索算法，对输入的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值；

所述配置解析模块用于对接收到的配置信息进行解析，生成相应的控制信号分别输入至所述缓存控制器、所述PE阵列、所述结果整形模块和所述最小值搜索模块。
根据权利要求1所述的可配置实时视差点云计算装置，其中，所述PE阵列中的PE采用上下左右互联的方式，在垂直方向上进行中间结果的传递，在水平方向上进行操作数及最终匹配代价的传递。
根据权利要求2所述的可配置实时视差点云计算装置，其中，所述PE阵列中包括以下类型PE中的一种或多种：

Ultra PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值，以及部分和的累加操作；

Standard PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值，以及部分和的累加操作；

Lite PE，用于执行SAD匹配代价计算过程中，对两个操作数作差求绝对值的操作；

其中，所述Ultra PE对应的计算资源大于所述Standard PE。
根据权利要求3所述的可配置实时视差点云计算装置，其中，所述PE阵列中的每一列均可配置为包括一个或者多个PU，所述PU用于执行指定窗口大小的SAD匹配代价计算操作。
根据权利要求4所述的可配置实时视差点云计算装置，其中，所述PU中，第一行的PE为所述Ultra PE或所述Standard PE。
一种基于如权利要求1至5任一所述的可配置实时视差点云计算装置执行的可配置实时视差点云计算方法，其中，所述方法包括：

所述配置解析模块对接收的配置信息进行解析，生成相应的控制信号，分别输入至所述缓存控制器、所述PE阵列、所述结果整形模块和所述最小值搜索模块；

所述缓存控制器根据所述配置解析模块传递的控制信号，按照指定窗口大小和滑窗顺序，控制所述图像缓存单元输出一路或多路双目图像数据对应的图像窗口数据；

所述PE阵列根据所述配置解析模块传递的控制信号，生成指定结构的若干PU，并基于所述指定结构的若干PU对输入的图像窗口数据进行处理，得到所述图像窗口数据对应的SAD匹配代价计算结果；

所述结果整形模块根据所述配置解析模块传递的控制信号，对所述PE阵列输出的所述SAD匹配代价计算的结果添加字段；

所述最小值搜索模块根据所述配置解析模块传递的控制信号和最小值搜索算法，对添加字段后的SAD匹配代价计算结果逐级搜索最小值，并输出最小匹配代价对应的视差值。
根据权利要求6所述的可配置实时视差点云计算方法，其中，所述配置信息包括：

图像分辨率、匹配窗口大小、视差搜索深度、双目图像数据的路数以及PE工作模式。
根据权利要求7所述的可配置实时视差点云计算方法，其中，所述配置信息的确定方式包括：

确定满足单数据流或者多数据流性能指标；

根据所述PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源；

根据分配的计算资源生成配置信息。
根据权利要求8所述的可配置实时视差点云计算方法，其中，在数据流数量为两个的情况下，所述根据所述PE阵列中可分配的单位计算资源个数、每个数据流对应的视差搜索深度以及每个数据流对应的视频帧率分配计算资源，包括：

确定在为每个数据流都分配一个单位计算资源后所述PE阵列中剩余可分配的计算资源；

若所述剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，且满足第一条件，则继续为每个数据流都分配一个单位计算资源；

若所述剩余可分配的计算资源可以为每个数据流提供至少一个单位计算资源，但不满足第一条件，则根据第一数值和第二数值之间的大小关系，单独为每个数据流分配单位计算资源；

其中，所述第一数值根据每个数据流对应的视差搜索深度和视频帧率确定，所述第二数值根据当前已分配给每个数据流的单位计算资源个数确定，所述第一条件根据所述第一数值、所述第二数值以及预设阈值确定。
根据权利要求9所述的可配置实时视差点云计算方法，其中，所述方法还包括：

若所述剩余可分配的计算资源仅可以为目标数据流提供单位计算资源，则将所述剩余可分配的计算资源全部分配给所述目标数据流。