WO2023093186A1

WO2023093186A1 - 基于神经辐射场的行人重识别三维数据集构建方法和装置

Info

Publication number: WO2023093186A1
Application number: PCT/CN2022/116174
Authority: WO
Inventors: 王宏升; 陈�光; 鲍虎军
Original assignee: 之江实验室
Priority date: 2022-06-15
Filing date: 2022-08-31
Publication date: 2023-06-01
Also published as: US20230410560A1; CN114758081A

Abstract

本发明公开了一种基于神经辐射场的行人重识别三维数据集构建方法和装置，包括如下步骤：S1：通过一组不同视角的相机对待录入行人进行图像采集；S2：通过场景中的相机射线，采样生成一个三维空间位置点集，将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量；S3：将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器，输出对应的密度和颜色；本发明一种基于神经辐射场的行人重识别三维数据集构建方法和装置，给出了一种全新的行人重识别数据集构建的方法，提供了数据集构建的新思路。相比于传统的数据集构建方法，通过多设备所采集的图像和空间位置，获取数据方式更加直接明了。

Description

基于神经辐射场的行人重识别三维数据集构建方法和装置

相关申请的交叉引用

本发明要求于2022年6月15日向中国国家知识产权局提交的申请号为CN 202210670964.1、发明名称为“基于神经辐射场的行人重识别三维数据集构建方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及行人重识别技术领域，特别涉及一种基于神经辐射场的行人重识别三维数据集构建方法和装置。

背景技术

行人重识别亦称行人再识别，被广泛认为是图像检索的一个子问题。其利用计算机视觉技术，判断视频和图像中是否存在特定行人，且在给定行人图像的情况下，对该行人的图像进行跨设备检索。行人重识别技术可与多种技术相结合，并应用于安保、视频监控、犯人监测等方向。

行人重识别技术存在许多的优势，如利用步态、身体特征和衣着等条件，更加全面地识别人物，且可以在多摄像设备网络下，跨设备对行人进行检索。无论是单独使用还是与其他技术相结合，都能发挥很大的价值，但同时也带来了巨大挑战，如易受穿着、遮挡、姿态和视角等影响。

在采集行人重识别数据时，需要考虑的因素有：数据采集需跨设备；公开的数据集规模远小于实际需求；影响识别的因素众多，处理难度大；监控涉及数据和行人的隐私问题等。都对行人重识别提出了挑战和研究重点。

早期数据集相比于实际的监控网络，数据集中行人和摄像头的数目少，数据量小；时间跨度短，光照条件变化少，缺少不同光照下的数据；场景单一，场景覆盖范围小；更有人工标注费用高、数据采集繁琐困难等不足。数据质量亟待提升，需要更加准确的方法去构建数据集。

发明内容

本发明提供了一种基于神经辐射场的行人重识别三维数据集构建方法和装置，提供数据录入方法的新思路：通过输入表示五维场景的参数，优化并渲染一组图像渲染一组捕获图像；同时通过对方法的改进，可生成不同的渲染图像，丰富和完善数据集，用以应对数据规模小、数据采集难的挑战。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于神经辐射场的行人重识别三维数据集构建方法，包括如下步骤：

S1：通过一组不同视角的相机对待录入行人进行图像采集；

S2：通过场景中的相机射线，采样生成一个三维空间位置点集，将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量；

S3：将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器，输出对应的密度和颜色；

S4：使用神经体渲染方法，将经过每个像素的射线颜色累积到步骤S1中采集的图像中，子步骤如下：

S41：用连续积分定义相机射线的累计透明率，并据此生成射线颜色的定义；

S42：采用求积法对射线颜色进行估计，将射线的近边界到远边界划分为N个间隔均匀的区间，并用分层抽样的方法均匀选取离散点；

S5：引用位置编码、多层级采样以提高步骤S4中射线颜色累计所生成图像的质量，具体为：

S51：引入位置编码：对点的空间位置进行编码，将输入神经网络的三维向量转化为指定维数，增加生成图像的精度；

S52：引入多层级采样：首先采用分层抽样采集一组点，并对神经网络进行初步评估，基于这个初步评估的神经网络的输出，生成概率密度函数，然后沿着每条射线以该概率密度函数进行采集，再结合两次采样的点，对神经网络进行更精确的评估；

S6：将生成图像打上标签，存入数据集。

作为优选的，所述步骤S2中所述三维空间位置点集指所述相机所在的三维空间位置(x，y，z)，所述三维空间位置点集所对应相机的观察方向为d，可将其转化为三维笛卡尔单位向量。

作为优选的，所述步骤S3的具体过程为：采用一个多层感知器，输入相机的空间位置和观察方向(ζ，d)，输出点的颜色和密度(c，σ)，其中ζ为空间位置(x，y，z)，d为观察方向所转化成的三维笛卡尔单位向量，c表示颜色，σ为体积密度。

作为优选的，所述步骤S4中神经体渲染方法具体如下：追踪场景的光线，并对规定长度的光线进行积分来生成图像或者视频，在从三维标量数据生成图像的方法中，需渲染通过场景的任何一条射线的颜色以渲染成为图像。

作为优选的，所述步骤S41的具体过程为：将相机射线标记为r(t)＝o+td，o为射线原点，d为观察方向，t指相机射线经过的空间某点的位置，射线颜色的具体定义如下：

其中t _n和t _f是射线的近边界和远边界，c表示颜色，σ表示体积密度，T(t)是射线从t _n到t这一段路径上的累积透明度，即这条射线从t _n到t路径上没有击中任何粒子的概率，具体为：

作为优选的，所述步骤S42具体为：将射线的近边界t _n和t _f远边界之间的距离[t _n，t _f]分成N个间隔均匀的区间，然后从每个区间中随机抽取一个样本，即t _i服从均匀分布：

则可将射线颜色C(r)的积分公式简化为：

其中

σ _i表示体积密度，c _i表示颜色。

作为优选的，所述步骤S51中引入位置编码的具体方法为：对空间位置ζ和观察方向d进行标准化，并对空间位置和观察方向中的每一个坐标值进行如下编码：

γ(p)＝(sin(2 ⁰πp)，cos(2 ⁰πp)，...，sin(2 ^L-1πp)，cos(2 ^L-1πp))。

作为优选的，所述步骤S52中引入多层级采样的具体子步骤如下：

步骤一：采用分层抽样在射线上采集N _c个点；

步骤二：输入采样点，并在所述采样点位置用求积法对神经网络进行初步评估；

步骤三：通过归一化处理，生成概率密度函数，将所述步骤S42中积分公式重写为：

其中ω _i＝T _i·(1-exp(-σ _i·δ _i))，再将ω _i进行归一化

从而生成一个分段常数的概率密度函数；

步骤四：基于上述概率密度函数，沿着每条射线采集N _f个点；

步骤五：使用上述采集的N _c+N _f个点来对神经网络进行更精确的评估，更好地渲染射线颜色。

本发明还公开了一种基于神经辐射场的行人重识别三维数据集构建装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述基于神经辐射场的行人重识别三维数据集构建方法。

本发明的有益效果：本发明一种基于神经辐射场的行人重识别三维数据集构建方法和装置，给出了一种全新的行人重识别数据集构建的方法，提供了数据集构建的新思路。相比于传统的数据集构建方法，通过多设备所采集的图像和空间位置，获取数据方式更加直接明了；引入了神经辐射场，在已有数据的基础之上重新构建三维图像，并通过改进构建不同效果的图像，模拟了不同场景、不同光照下的图像，很大程度上丰富了数据集；在采集数据并重新构建后，便将数据打上标签，减少了后期人工标注的费用；通过本方法构建的三维数据集，包含更全面、更完善的信息。

附图说明

图1为基于神经辐射场的行人重识别三维数据集构建方法和装置的架构图；

图2为多层级采样的示意图；

图3为本发明实施例的装置示意图；

图2中：1-相机、2-相机射线、3-采样点、4-神经体渲染方法积累的颜色、5-采样物体。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

神经辐射场，作为一项全新的技术，是一种通过输入多张图像，使用多层感知器(神经网络)进行连接并表示三维场景的方法，该多层感知器可存储于一个与压缩图像大小相当的文件之中。在此技术的表示之下，渲染出的图形表现出了让人满意的精度，并可以渲染出任意视角的细节，对复杂场景进行高分辨率的建模。同时，神经辐射场克服了离散体素网格的高存储成本问题。

鉴于此，本发明提供了一种基于神经辐射场的行人重识别三维数据集构建方法和装置，提供数据录入方法的新思路：通过输入表示五维场景的参数，优化并渲染一组图像渲染一组捕获图像；同时通过对方法的改进，可生成不同的渲染图像，丰富和完善数据集，用以应对数据规模小、数据采集难的挑战。

如图1所示，本发明实施例提供一种基于神经辐射场的行人重识别三维数据集构建方法，所述方法包括如下步骤：

步骤一：图像采集：

通过一组不同视角的相机对待录入行人进行多次图像采集，针对一个特定的待录入行人，需要提供大量相机参数已知的图像，即空间位置和观察方向已知的图像。

步骤二：相机空间位置和观察方向数据采集：

通过场景中的相机射线生成一个采样的三维点集，获取点所在的三维空间位置ζ表示为(x，y，z)和相机的观察方向d，表示为

实际上，三维空间位置点集所对应相机的观察方向，可转换为三维笛卡尔单位向量。

步骤三：神经网络输出密度和颜色：

多层感知器，也称人工神经网络，包括输入层、输出层，还有中间的多个隐层，其将每一个输入的维度加权得到输出的维度，并在其中加入激活函数，得到能够学习非线性关系的模型，因而能取得较好的效果。

本发明采用一个多层感知器F _θ：(ζ，d)→(c，σ)。其输入为ζ，一个空间位置(x，y，z)，d为观察方向，用三维笛卡尔单位向量表示；输出为点的颜色和密度，即c为RGB颜色(r，g，b),σ为体积密度。

使用上述方法，可优化其权重Θ，将上述所采集的三维空间位置点集及其观察方向，输入该映射得到对应的体积密度和颜色。

步骤四：体渲染技术合成图像：

体渲染方法，指以三维标量数据生成图像的多种方法，通过常规路径跟踪、光子映射等方式，在复杂的光照下可视化体数据。而神经体渲染是指追踪场景的光线，并对一定长度的光线进行积分来生成图像或者视频的一种方法。

本发明使用经典的体渲染方法，即神经体渲染，估计经过该场景的任何一条射线的颜色。将相机射线标记为r(t)＝o+td，o为射线原点，d为前述观察方向，t指相机射线经过的空间某点的位置。射线颜色用连续积分定义，具体定义如下：

其中t _n和t _f是射线的近边界和远边界，T(t)是射线从t _n到t这一段路径上的累积透明度，即这条射线从t _n到t路径上没有击中任何粒子的概率，具体为：

上述连续神经辐射场渲染视图，需要估计通过所需通过虚拟摄像机每个像素的射线颜色，即估计连续积分C(r)，在本发明中采用求积法对这个连续积分进行数值估计。鉴于多层感知器的特性，它只能查询一组固定的离散点，故而用于渲染离散体素网格的确定性正交会限制场景表示的分辨率。本发明采用分层抽样的方法，：将射线的近边界t _n和t _f远边界之间的距离[t _n，t _f]分成N个间隔均匀的区间，然后从每个区间中随机抽取一个样本，即t _i服从均匀分布：

在整个过程中，分层采样使得多层感知器在连续位置进行评估优化，所以，尽管使用离散样本集估计积分，但能够表示连续场景。则可将积分简化为：

其中

σ _i表示体积密度，c _i表示颜色。

将经过每个像素的射线颜色积累到图像之中，从而生成图像。

步骤五：利用改进方法提高图像质量：

上述过程描述了基于神经辐射场技术的参数采集和图像生成，为提高生成图像的质量，同时对数据集进行进一步的扩充，可对以上方法进行如下两种改进：

改进一：位置编码

深度网络更加倾向于低频函数学习。在输入传递到网络之前，使用高频函数将输入映射到更高维度的空间，能够使结果包含高频变化的数据，从而有更好的表现。据此，对空间位置ζ和观察方向d进行标准化，并对空间位置和观察方向中的每一个坐标值进行如下编码：

在本发明中，对于γ(x)，L设置为10，即得到长度为60的向量；对于γ(d)，L设置为4，得到长度为24的向量。位置编码引入了更高维度的空间，因此，使用此位置编码使得多层感知器逼近高频率函数。

重新定义一个多层感知器

其中F′ _θ是一个普通的多层感知器。在此多层感知器输出的基础之上，再对场景中的射线颜色进行渲染，使得图像更加接近真实。

改进二：多层级采样

如图2所示，前述的渲染策略沿着每条相机射线进行估计，对没有有效信息的空间、遮挡区域仍然重复采样，这导致了该策略的低效。此改进方案提出了一种多层级采样，为了提高渲染策略的效率，按预期效果的比例在最终的渲染中采集样本。

图2中的(1)表示“粗”网络的点的采集，也就是按照前文所描述的分层抽样随机采点，采样点数量为N _c，图2中的(2)表示按照归一化处理后生成的概率密度函数采样的点与(1)图中采点合在一起的情况，采样点数量为N _c+N _f。

在这个方案中，优化的不只是一个网络，而是同时对“粗”网络和“细”网络进行优化，以表示场景。首先，用分层抽样采集一组点，并评估“粗”网络。基于这个“粗”网络的输出，生成概率密度函数，然后沿着每条射线以该概率密度函数进行采集，再结合两次采样的点进行“细”网络的评估。具体步骤如下：

1、采用分层抽样在射线上采集N _c个点；

2、输入采样点，并在这些位置用求积法对神经网络进行初步评估，及对网络进行“粗”评估，具体为通过上述公式(2)进行评估；

3、通过归一化处理，生成概率密度函数，将公式(2)重写为

其中ω _i＝T _i·(1-exp(-σ _i·δ _i))，再将ω _i进行归一化

从而生成一个分段常数的概率密度函数，σ _i表示体积密度，c _i表示颜色；

4、基于上述概率密度函数，沿着每条射线采集N _f个点；

5、使用上述采集的N _c+N _f个点来对神经网络进行更精确的评估，即使用上述采集的N _c+N _f个点来估计“细”网络，更好地渲染射线颜色。

值得一提的是，利用上述位置编码、多层级采样两种改进方法生成的图像拥有更高的图像质量，但并不代表步骤四中生成的图像失去了价值。由于行人重识别技如易受穿着、遮挡、姿态、视角和天气等的影响，不同质量、不同状态下的图像都能够丰富行人重识别数据集，为更好的行人重识别创造条件。

步骤六：将生成的图像存入数据集：

将生成的图像打上行人所对应的标签，即以该行人名称标记该图像，得到含有不同质量图像的该行人数据，存入数据集之中。重复以上步骤，最终生成含有多行人的较为完备的数据集。

参见图3，本发明实施例还提供了一种基于神经辐射场的行人重识别三维数据集构建装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于神经辐射场的行人重识别三维数据集构建方法。

本发明一种基于神经辐射场的行人重识别三维数据集构建装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明一种基于神经辐射场的行人重识别三维数据集构建装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于神经辐射场的行人重识别三维数据集构建方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

一种基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：包括如下步骤：

S1：通过一组不同视角的相机对待录入行人进行图像采集；

S2：通过场景中的相机射线，采样生成一个三维空间位置点集，将所述三维空间位置点集所对应相机的观察方向转换为三维笛卡尔单位向量；

S3：将所述三维空间位置点集及其转换为三维笛卡尔单位向量的观察方向输入多层感知器，输出对应的密度和颜色；

S4：使用神经体渲染方法，将经过每个像素的射线颜色累积到步骤S1中采集的图像中，子步骤如下：

S41：用连续积分定义相机射线的累计透明率，并据此生成射线颜色的定义；

S42：采用求积法对射线颜色进行估计，将射线的近边界到远边界划分为N个间隔均匀的区间，并用分层抽样的方法均匀选取离散点；

S5：引用位置编码、多层级采样以提高步骤S4中射线颜色累计所生成图像的质量，具体为：

S51：引入位置编码：对点的空间位置进行编码，将输入神经网络的三维向量转化为指定维数，增加生成图像的精度；

S52：引入多层级采样：首先采用分层抽样采集一组点，并对神经网络进行初步评估，基于这个初步评估的神经网络的输出，生成概率密度函数，然后沿着每条射线以该概率密度函数进行采集，再结合两次采样的点，对神经网络进行更精确的评估；

S6：将生成图像打上标签，存入数据集。
如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S2中所述三维空间位置点集指所述相机所在的三维空间位置(x，y，z)，所述三维空间位置点集所对应相机的观察方向为d，可将其转化为三维笛卡尔单位向量。
如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S3的具体过程为：采用一个多层感知器，输入相机的空间位置和观察方向(ζ，d)，输出点的颜色和密度(c，σ)，其中ζ为空间位置(x，y，z)，d为观察方向所转化成的三维笛卡尔单位向量，c表示颜色，σ为体积密度。
如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S4中神经体渲染方法具体如下：追踪场景的光线，并对规定长度的光线进行积分来生成图像或者视频，在从三维标量数据生成图像的中，渲染通过场景的任何一条射线的颜色以渲染成为图像。
如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S41的具体过程为：将相机射线标记为r(t)＝o+td，o为射线原点，d为观察方向，t指相机射线经过的空间某点的位置，射线颜色的具体定义如下：

其中t _n和t _f是射线的近边界和远边界，c表示颜色，σ表示体积密度，T(t)是射线从t _n到t这一段路径上的累积透明度，即这条射线从t _n到t路径上没有击中任何粒子的概率，具体为：
如权利要求5所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S42具体为：将射线的近边界t _n和t _f远边界之间的距离[t _n，t _f]分成N个间隔均匀的区间，然后从每个区间中随机抽取一个样本，即t _i服从均匀分布：

则可将射线颜色C(r)的积分公式简化为：

其中δ _i＝t _i+1-t _i，
σ _i表示体积密度，c _i表示颜色。
如权利要求1所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S51中引入位置编码的具体方法为：对空间位置ζ和观察方向d进行标准化，并对空间位置和观察方向中的每一个坐标值进行如下编码：

γ(p)＝(sin(2 ⁰πp)，cos(2 ⁰πp)，...，sin(2 ^L-1πp)，cos(2 ^L-1πp))。
如权利要求6所述的基于神经辐射场的行人重识别三维数据集构建方法，其特征在于：所述步骤S52中引入多层级采样的具体子步骤如下：

步骤一：采用分层抽样在射线上采集N _c个点；

步骤二：输入采样点，并在所述采样点位置用求积法对神经网络进行初步评估；

步骤三：通过归一化处理，生成概率密度函数；将所述步骤S42中积分公式重写为：

其中ω _i=T _i·(1-exp(-σ _i·δ _i))，再将ω _i进行归一化
从而生成一个分段常数的概率密度函数；

步骤四：基于上述概率密度函数，沿着每条射线采集N _f个点；

步骤五：使用上述采集的N _c+N _f个点来对神经网络进行更精确的评估，更好地渲染射线颜色。
一种基于神经辐射场的行人重识别三维数据集构建装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8任一项所述基于神经辐射场的行人重识别三维数据集构建方法。