WO2022110196A1

WO2022110196A1 - 一种数据处理方法、装置及系统

Info

Publication number: WO2022110196A1
Application number: PCT/CN2020/132897
Authority: WO
Inventors: 许璐; 胡海燕; 金加靖
Original assignee: 华为技术有限公司
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-02
Also published as: CN115989485A

Abstract

一种数据处理方法、装置及系统，涉及计算机技术领域。该方法中，控制器（220）根据分组周期获取存储阵列（210）中的多个存储区域的特征信息，并对多个存储区域进行分组处理，得到多个存储区域组；依据所述多个存储区域组更新映射关系表，该映射关系表中用于记录多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。由此，通过周期性地更新多个存储区域组，优化存储阵列内的数据排布方式，以降低例如SSD的写放大，从而保障SSD的寿命和提升SSD所在的计算机系统的性能。

Description

一种数据处理方法、装置及系统

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法、装置及系统。

背景技术

随着存储技术的不断发展，以快闪记忆体(NAND Flash)为存储介质的固态硬盘(solid state drive，SSD)逐渐成为主流存储形态。通常，SSD会包含多个NAND Flash颗粒，由于NAND Flash的介质特性，SSD往往采用异步更新下写策略，使得传统SSD中数据排布仅由数据写入次序决定。

然而，在实际业务场景中，由于对不同的数据的访问频次不同，导致不同的数据具有不同的“冷热”程度，也即不同的生命周期。若按照数据写入次序进行数据排布往往会导致不同生命周期的数据的混写，此时，基于NAND Flash的需要先擦除才能再写入、和读写以页为单位、擦除以块(多个页组成)为单位的工作特性，将会带来垃圾回收(garbage collection，GC)的额外数据拷贝，即额外写放大(write amplification，WA)，这会导致SSD的寿命缩短，并降低SSD所在的计算机系统的读写性能。

因此，如何针对SSD内的数据排布方式进行优化，以降低SSD的写放大，从而保障系统性能和SSD的寿命，仍为亟需解决的问题之一。

发明内容

本申请提供一种数据处理方法、装置及系统，通过根据存储阵列中的多个存储区域的历史特征信息来对该多个存储区域进行分组，以便优化SSD内的数据排布方式，以降低SSD的写放大，从而保障系统性能和SSD的寿命。

第一方面，本申请实施例提供了一种数据处理方法，该方法可以可由控制器实现，该控制器例如可以为固态存储设备SSD中的控制器。该方法可以包括：控制器根据分组周期获取存储阵列中的多个存储区域的特征信息，每个存储区域的特征信息表征了所述存储区域的生命周期；在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间；依据所述多个存储区域组更新映射关系表，其中，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。

通过该方案，控制器可以通过根据各个存储区域的历史特征信息来对多个存储区域进行分组并更新映射关系表，以便于控制器可以实时地根据该映射关系表以及所接收到数据处理请求中包含的逻辑地址，来确定相应的目标物理地址并完成相应的数据处理操作，从而优化存储阵列内的数据排布方式，以降低存储阵列的写放大，从而保障系统性能和存储阵列的寿命。其中，以SSD为例，当该数据处理请求为写请求时，则可以将相应区域的数据写入SSD的存储阵列内相应的物理区域，从而完成数据在SSD内的智能化排布。

在一个可能的设计中，所述分组周期为：时间周期；或者，访问次数周期。

通过该方案，可以通过周期性地获取各个存储区域的历史特征信息，以便周期性地对多个存储区域进行分组，以结合各存储区域的实际使用情况进行分组，以便在优化SSD内的数据排布方式的同时，均衡各个存储区域的使用磨损，以尽可能地保障SSD的寿命以及该SSD所在的计算机系统的系统性能。

可以理解的是，本申请实施例中可以通过任何合适的计量方式配置分组周期，以便可以将该数据处理方案灵活地应用于不同的场景中，在此不再赘述。

在一个可能的设计中，在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，包括：根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组；所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率与所述多个存储区域的读写频率的比值。

通过该方案，在对存储阵列中的多个存储区域进行分组划分时，可以根据周期性统计获得的特征信息以及迭代聚簇的方式，以实现对多个存储区域的分组。当应用于不同的场景中时，可以自适应地获得更多的分组，以便将具有不同数据特征的数据划分为相应的类别并存储在相应的物理区域内，从而优化数据在SSD内的数据排布，避免由于数据混写带来的写放大等问题。

在一个可能的设计中，控制器根据分组周期获取存储阵列中的所述多个存储区域的特征信息，包括：在所述分组周期内，根据接收到的数据处理请求中包含的针对每个存储区域的命令信息，获取所述多个存储区域的特征信息。

通过该方案，控制器可以根据接收到的命令信息，自适应地决策特征参数以及相应的分组算法，以便在不同的应用场景中，可以灵活地确定特征参数以及统计特征信息，从而自适应地实现对存储阵列内的多个存储区域的分组。可以理解的是，本申请实施例中，控制器所确定的特征参数可以包括但不限于特征的类型、组别、取值期间等，在此不再赘述。

在一个可能的设计中，所述数据处理请求为I/O请求；所述特征信息包括I/O特征信息。

通过该方案，例如当将该控制器应用于存储系统或者计算机系统中时，可以根据来自于存储系统或者计算机系统的其它器件或功能模块的I/O请求，来完成相应的数据处理方案。

在一个可能的设计中，所述控制器为固态存储设备SSD中的控制器，所述存储阵列包括NAND闪存颗粒。可以理解的是，本申请实施例中，存储阵列可以包括但不限于NAND闪存颗粒，在此不再赘述。

第二方面，本申请实施例提供了一种数据处理装置，包括接口、处理器和缓存；所述接口用于提供连接所述处理器和存储阵列的通道；所述处理器，用于根据分组周期获取所述存储阵列中的多个存储区域的特征信息，并在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，以及依据所述多个存储区域组更新映射关系表，其中，每个存储区域的特征信息表征了所述存储区域的生命周期，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系；所述缓存，用于存放所述映射关系表。

在一个可能的设计中，所述处理器具体用于：根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组；所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率之和与所述多个存储区域的读写频率之和的比值。

在一个可能的设计中，所述处理器具体用于：在所述分组周期内，根据接收到的数据处理请求中包含的针对每个存储区域的命令信息，获取所述多个存储区域的特征信息。

第三方面，本申请实施例还提供了一种存储数据，该存储数据可以包括存储阵列以及上述第二方面中任一项所述的数据处理装置，其中，所述数据处理装置用于根据分组周期获取所述存储阵列中的多个存储区域的特征信息。

第四方面，本申请实施例还提供了一种计算机系统，该计算机系统可以包括主机以及上述第三方面所述的存储系统，其中，所述主机用于向所述存储系统发送数据处理请求，所述存储系统被配置为执行存储的指令，所述存储系统通过执行指令来实现上述第一方面中任一项所述的数据处理方法。

第五方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行上述第一方面提供的方法。

第六方面，本申请实施例还提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述第一方面提供的方法。

附图说明

图1为一种解决方案；

图2为本申请实施例适用的存储系统的结构示意图；

图3为本申请实施例的控制器的逻辑结构示意图；

图4为本申请实施例的数据处理方法的流程示意图；

图5为本申请实施例的数据处理方法的流程示意图；

图6为本申请实施例的数据处理装置的结构示意图；

图7为本申请实施例的计算机系统的结构示意图。

具体实施方式

为了对背景技术中提及的SSD的写放大的问题进行优化，业内提出了两种解决方案：

方案一：

如图1所示，在该方案中，通过上层的应用程序(application，APP)和文件系统(file system)对数据“温度”进行识别后，将数据的温度信息下传至SSD层，从而将不同的温度的数据写入SSD的不同存储区域。其中，在linux系统中，linux层定义了4个write hint等级：short、medium、long、extreme，APP和文件系统在将不同的数据识别对应该4个等级后，将识别结果下传至NVMe驱动(driver)层，由NVMe driver将上层识别结果映射到相应等级对应的存储区域，从而向SSD层传递数据对应的温度信息。

在此方案中，由于不同应用或文件系统对数据识别的理解能力不同，映射到同一等级的数据或者元数据也可能存在较大差异，若想要获得较为准确的识别结果，需要设计者掌握较好的理解与开发技术，对设计者的要求较高。同时，受限于存储区域等级的设定，当APP或者文件系统的识别结果涉及更多数据分类的情况下，无法为每一类数据单独分配相应等级，随着SSD的日益改进，当SSD支持的存储区域等级数量超过之前设定的数量时，当前的等级映射方式也使得无法充分利用SSD的资源。

由此，方案一无法灵活地应用于支持多应用或者多种系统的复杂场景中。

方案二：

在该方案中，通常在SSD盘内预先配置参数，例如温度等级、温度范围等，SSD控制单元根据I/O信息实时调整及判断其对应的温度，以将待写数据写入SSD的对应存储区域。

在此方案中，由于需要实时地调整数据温度，会给SSD带来极大的算法开销。并且，该方案依赖于固化配置的参数，往往限制了温度判断的结果，在参数配置较差的情况下，也会降低温度判断结果的准确性。并且，参数固化的做法使得方案二也不适用于多样化的业务场景中。

由此，上述方案一和方案二，虽然可以在一定程度上降低由于传统SSD的数据写入方式而带来的额外写放大的问题，但是由于方案一和方案二自身的局限性，导致这两种解决方案均无法灵活地应用于不同的场景中。

有鉴于此，本申请实施例提供了一种数据处理方案，该方案可以灵活地应用于多种应用场景中，并可以保障计算机系统性能和SSD的寿命。其中，该方案中，方法和装置是基于同一技术构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

本申请实施例中，控制器可以根据分组周期获取存储序列中的多个存储区域的特征信息，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，然后，依据所述多个存储区域组更新映射关系表，其中，每个存储区域的特征信息表征了所述存储区域的生命周期，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。进而，控制器在接收到(例如来自于主机的)实时的数据处理请求后，可以根据所述映射关系表查找所述数据处理请求中包含的目标逻辑地址所对应的目标存储区域组的分组标识和目标物理地址，然后根据所述分组标识和所述目标物理地址，对所述数据处理请求进行处理。

通过该方案，控制器可以根据接收到的数据处理请求实时地记录各个存储区域的特征信息，并可以周期性地统计各个存储区域的历史特征信息来对多个存储区域进行分组得到多个存储区域组，以便可以根据周期性更新的多个存储区域组的分组信息实现数据在存储阵列内的智能化排布。该方案可以灵活地应用于SSD等所适用的任何场景中，并且可以降低SSD的写放大，从而提升系统性能和SSD的寿命。

以下，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)、计算机系统，由硬件(子)系统和软件(子)系统组成。其中，硬件(子)系统包括由电、磁、光、机械等原理构成的各种物理部件的有机组合，是系统赖以工作的实体；软件(子)系统包括各种程序和文件，用于指挥全系统按指定的要求进行工作。随着计算机技术的发展，现代计算机系统小到微型计算机和个人计算机，大到巨型计算机及其网络，形态、特性多种多样，已广泛用于科学计算、事务处理和过程控制，日益深入社会各个领域，对社会的进步产生深刻影响。

在一种实现方式中，本申请实施例中的计算机系统，可以为终端装置内的计算机系统，是一种向用户提供业务服务、具有语音或数据连通功能的装置。终端装置又可以称为终端设备，还可以称为用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等，终端装置也可以为一种芯片。在本申请后续实施例和描述中，以终端设备为例进行具体描述。

例如，终端设备可以为具有无线连接功能的手持式设备、车载设备等。目前，一些终端设备的举例为：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、智能销售终端(point of sale，POS)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、各类智能仪表(智能水表、智能电表、智能燃气表)等。

在另一种实现方式中，本申请实施例中的计算机系统，可以是服务器，是提供数据连通服务的设备。由于服务器可以响应终端设备的服务请求，并进行处理，因此一般来说服务器应具备承担服务并且保障服务的能力。在本申请中，所述服务器可以为位于数据网络(data network，DN)中的服务器，例如普通服务器，云平台中的服务器；或者为位于核心网内的多接入边缘计算(multi-access edge computing，MEC)服务器等。

(2)操作系统(operating system，OS)：是运行在计算机系统上的最基本的系统软件，例如windows系统、Android系统、IOS系统、windows server系统、Netware系统、Unix系统、Linux系统。本领域技术人员可以理解，其它操作系统中，也可以采用类似的算法实现，本申请对此不做限定。

(3)内核(kernel)：是一个操作系统的核心，是基于硬件的第一层软件扩充，提供操作系统的最基本的功能，是操作系统工作的基础，它负责管理系统的进程、内存、驱动程序、文件和网络系统，决定着系统的性能和稳定性。

(4)、多个，是指两个或两个以上。

(5)、至少一个，是指一个或多个。

(6)、“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

另外，需要理解的是，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

下面结合附图及实施例，详细说明本申请的数据处理方案。

图2为本申请实施例适用的存储系统的结构示意图。参阅图2所示，该存储系统200可以包括存储阵列210和控制器220。其中，存储阵列210可以实现数据存储的功能，控制器220可以实现控制的功能。

参阅图2所示，存储阵列210中可以包括多个存储区域，该多个存储区域可以被控制器周期性地220划分为多个分组，即多个存储区域组，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间。控制器220可以依据该多个存储区域组更新映射关系表，该映射关系表中可以用于记录所述多个存储区域组的分组标识、逻辑地址、以及存储区域的物理地址三者之间的映射关系。进而，控制器220在接收到(例如来自主机的)数据处理请求后，则可以根据该映射关系表查找所述数据处理请求中包含的目标逻辑地址所对应的目标存储区域组的分组标识和目标物理地址，进而，根据所述分组标识和所述目标物理地址，对所述数据处理请求进行处理，例如对目标物理地址进行读取、写入或擦除数据等操作，并得到数据处理请求的处理结果。

本申请实施例中，控制器220在对存储阵列210中的多个存储区域进行分组处理时，可以根据应用场景或业务需求等自适应地决策用于对存储区域进行分组的特征参数，进而可以根据相应特征参数，以及统计得到的各个存储区域的历史特征信息，来对多个存储区域进行分组，并依据分组后得到的多个存储区域组更新映射关系表，以刷新逻辑地址、分组标识以及物理地址三者之间的映射关系。由此，在该存储系统的运行过程中，则能够基于该映射关系表，将实时接收到的数据处理请求映射到相应的目标物理地址。这样，结合存储区域的特征信息来分组和映射，当数据处理请求为写请求时，可以避免对不同生命周期的数据的混写，从而可以降低写放大的发生几率，保障存储系统的寿命以及存储系统所在的计算机系统的性能。

需要说明的是，在具体实施时，该存储系统可以有多种实现方式，例如可以实现为固态存储SSD系统，也可以实现为与SSD系统具有相似特性的存储系统，例如相变存储(phase change memory，PCM)系统，还可以实现为计算机系统中的至少一个存储设备，本申请对此不做限定。可以理解的是，随着存储技术的不断发展，存储系统中的存储阵列的介质可以为SSD颗粒，也可以为后续发展时的任何其它存储介质，本申请对此不做限定。

为了便于理解，下面结合各实施例对本申请的数据处理方案进行介绍时，具体以SSD系统为例进行详细说明，下文中将不再逐一区分和赘述。

在一个示例中，如图3所示，基于控制器220的功能实现，该控制器220可以包括以下逻辑模块：统计模块221、处理模块222和查询模块223。其中，统计模块221和查询模块223可以用于实现前台操作，处理模块222用于实现后台操作。

统计模块221可以用于实现特征采集的功能，其可以在控制器220接收到数据处理请求后，根据该数据处理请求中所包含的命令信息进行信息记录和统计，以便获得相应的特征信息，并可以将所采集的特征信息提供给处理模块222。

处理模块222可以用于实现数据处理的相关算法功能，其可以周期性地根据所获得的多个存储区域的特征信息进行计算，以将多个存储区域进行分组，得到多个存储区域组，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间。并且，处理模块222可以依据所得到的多个存储区域组生成或更新映射关系表。其中，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。

查询模块223可以用于实现数据处理请求的查询功能，在接收到实时的数据处理请求时，查询模块223可以实时地根据上述映射关系表，查找与该数据处理请求中所包含的逻辑地址所对应的目标存储区域组的目标标识和目标物理地址。进而，控制器220则可以根据所述分组标识和所述目标物理地址，对数据处理请求进行处理，并得到数据处理结果。

可以理解的是，在具体实施时，统计模块221可以根据数据处理请求中所包含的任何信息均进行信息记录和统计，并转换为相应的特征信息。或者，统计模块221也可以根据处理模块222的指示，对数据处理请求中包含的某些指定信息进行记录和统计，并转换为相应的特征信息。需要说明的是，由于数据处理请求可以包括读取、写入、擦除等不同的处理类型，因此，统计模块221还可以针对不同类型的数据处理请求中所包含的不同的信息分别执行不同的处理算法，以便获得用于对多个存储区域进行分组的特征信息，本申请对此不做限定。

以数据处理请求为I/O请求为例，统计模块221统计得到的特征信息可以包括I/O特征信息，例如读取频率、写入频率、读写比例、顺序和随机、工作线程数、队列深度、数据记录大小等。当控制器220接收到待处理的I/O请求后，统计模块221可以实时地记录该I/O请求中所包含的I/O信息，并处理得到相应的I/O特征信息。

示例性地，例如，若I/O请求为写请求时，则可以从该I/O请求中获得的I/O信息可以包括处理类型信息：写入；相应地，I/O特征信息可以包括对写入次数的累计增加。又例如，若I/O请求为针对某个逻辑地址的读取/写入请求，则可以获得的I/O信息可以包括对该逻辑地址的处理类型信息：读取/写入，相应地，I/O特征信息可以包括对该逻辑地址的读取/写入次数的累计增加以及对该逻辑地址的读写比例特征。又例如，针对某个逻辑地址，还可以统计其访问次数(例如读取次数、写入次数等之和)，作为所需的相应I/O特征信息。

可以理解的是，当数据处理请求为其它实现，或者该数据处理请求中所包含的信息包括其它信息，统计模块221均可以采用相应的算法来对所记录的信息进行转换，以得到相应的特征信息，在此不再赘述。

基于相应的信息采集规则，统计模块221可以根据预设的分组周期，在每个分组周期内统计所述多个存储区域的特征信息。在所获得的特征信息的统计结果达到预定的分组时机时，触发处理模块222执行对多个存储区域进行分组的相关算法，以获得更新后的分组结果。

示例性地，该分组周期可以为时间周期T。统计模块221在根据时间周期统计各个存储区域的特征信息的同时，可以启动定时器进行时间累计，可以在第一个周期T1的结束时刻时，将之前在T1内累积采集的特征信息提供给处理模块222进行一次分组处理，在时间达到T1之后的第二个周期T2的结束时刻时，将T2内累积采集的特征信息提供给处理模块222进行下一次的分组处理。

由此，通过周期性地统计多个存储区域的特征信息，以使得处理模块222周期性地根据所获得的特征信息进行计算，以将多个存储区域进行分组得到多个存储区域组。由此，即可结合对各个存储区域的实际使用情况，来对多个存储区域进行分组，在降低写放大的发生几率的同时，还可以均衡各个存储区域的使用磨损，尽可能地保障存储阵列的寿命。

可以理解的是，上述基于时间周期作为分组周期触发处理模块222进行分组算法的示例仅是对本申请的一种可选的实现方式的举例说明而非任何限定。在具体实施时，在不同的业务场景中，该分组周期也可以是以其它计量参数确定的分组周期，本申请对此不做限定。

示例性地，例如可以以访问次数周期作为分组周期，通过访问次数的增加作为相对计量，统计模块221在统计特征信息的同时，可以启动定时器进行访问次数累计，当访问次数的累计每增加达到设定的访问次数周期(例如100次)时，即可触发处理模块222执行进行分组的相关算法，以获得更新后的分组结果，以便依据更新后的多个存储区域组更新映射关系表，在此不再赘述。

当触发处理模块222进行分组算法时，处理模块222可以根据在分组周期内从统计模块221所获得的特征信息进行计算，并获得更新后的分组结果以及更新后的所述映射关系表。后续，当接收到数据处理请求后，控制器220则可以通过实时地根据该更新后的映射关系表以及该数据处理请求中所包含的逻辑地址，确定目标存储区域组以及相应的目标物理地址，进而根据数据处理请求对目标物理地址进行读取、写入或擦除数据等操作，并得到数据处理请求的处理结果。

可以理解的是，本申请实施例中，处理模块222在对存储阵列中的多个存储区域进行分组时，可以自适应地决策进行分组所需使用的特征参数以及相应的分组算法。由此，当将上述数据处理方案应用于SSD系统以及应用于不同的用户场景中时，均可以由SSD中的控制器实现对来自于上层的数据处理请求的识别功能以及地址转换功能，可以灵活地应用于SSD所适用的任何场景中，并且不会带来较大的算法开销。

并且，与传统SSD以及前述的方案一和方案二相比，由于根据历史数据处理请求中所包含的命令信息获得多个存储区域的历史特征信息，并周期性地对多个存储区域进行分组，和更新映射关系表，在基于所获得的多个存储区域组和所述映射关系表对后续数据处理请求中包含的逻辑地址进行地址转换时，可以较为准确地获得与该逻辑地址更加适配的目标物理地址，从而有利于实现待处理数据在SSD的存储阵列内的智能化排布，以降低SSD的写放大问题的发生几率，从而保障SSD的存储阵列的寿命以及SSD所在的计算机系统的性能。

为了更好地理解本申请的数据处理方案的具体实现，下面结合图4示出的流程图，对本申请的数据处理方案的方法步骤进行详细说明。其中，该数据处理方法可以由图2或图3所示的控制器实现，该控制器可以SSD中的控制器。

参阅图4，该数据处理方法可以包括：

S401：控制器接收数据处理请求。

该数据处理请求中可以包括针对存储区域的命令信息。该命令信息例如可以包括待处理数据的处理类型(例如读取、或写入、或擦除等)、待处理数据在存储阵列中的逻辑地址、待处理数据的长度(或称为数据记录大小)等，本申请对此不做限定。

可以理解的是，本申请实施例中，存储区域可以是将存储阵列的整个存储空间按照任何合适的粒度划分得到的，例如可以是块(block)，也可以是基于逻辑地址(logical block address，LBA)等进行划分，本申请对此均不做限定。以LBA为例，在一个数据处理请求中所包括的命令信息中，可以包括针对一个LBA的命令信息，也可以包括针对多个LBA的命令信息，本申请对此也不做限定。

一方面，参阅图4右侧，该数据处理方法可以包括以下分支处理流程：

S402：控制器可以根据所述映射关系表查找所述数据处理请求中包含的目标逻辑地址所对应的目标存储区域组的分组标识和目标物理地址。

S403：控制器可以根据所述分组标识和所述目标物理地址，对所述数据处理请求进行处理。

另一方面，参阅图4左侧，该数据处理方法还可以包括以下分支处理流程：

S404：控制器可以记录该数据处理请求中包含的针对存储区域的命令信息，以获得相应存储区域的特征信息。

S405：控制器可以根据分组周期获取存储阵列中的多个存储区域的特征信息。在该分组周期的结束时刻，控制器可以根据在所述分组周期内统计获得的特征信息，对所述多个存储区域进行分组处理，得到多个存储区域组，其中，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间。进而，基于该多个存储区域组，可以获得更新后的映射关系表。其中，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。其中，在S402中所使用的映射关系表，则为每个分组周期后重新对多个存储区域进行分组后获得的更新后的映射关系表。

可以理解的是，在图4所示的流程图中，S401-S404可以是实时的，而S405则可以是基于分组周期而周期性地执行的。示例性地，分组周期可以基于以下信息计量：时间、或者，访问次数。由此，当针对多个存储区域的历史特征信息的统计达到预设的分组周期后，即可触发分组计算流程，从而将多个存储区域分为多个存储区域组。

可以理解的是，在具体实施时，可以根据应用场景或者业务需求等设置上述分组周期，本申请对此不做限定。在多个存储区域的历史特征信息的统计达到该分组周期时触发分组计算流程，从而根据存储区域的历史使用情况周期性地实现对存储区域的分组，由此使得根据对存储区域的分组，获得与数据处理请求中的逻辑地址更加适配的存储区域，从而有利于数据在SSD的存储阵列内的智能化排布，以降低SSD的写放大，从而保障SSD的寿命并提升SSD所在的计算机系统的性能。

在一个示例中，为了更加灵活地应用于多种不同的场景中，S405具体可以包括以下步骤：根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组。其中，所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率之和与所述多个存储区域的读写频率之和的比值。

下面以热度特征表示存储区域的生命周期为例进行示例说明。其中，在分组周期内周期性统计的历史特征信息可以分别包括各个存储区域的热度特征的取值(简称为热度特征值)。参阅图5，当周期性启动分组计算流程后，具体可以通过以下流程将多个存储区域分为多个存储区域组：

S501：控制器遍历在分组周期内统计获得的热度特征值，获取热度特征最大值和热度特征最小值。

S502：分别以热度特征最大值和热度特征最小值为中心点，根据各个热度特征值分别与中心点的距离(即热度特征值的差值)，对各个热度特征值进行聚簇划分，并分别记录相应聚簇的统计信息，例如流量、簇心等。

S503：判断每个聚簇各自的流量占比是否超过预设的比例阈值。

若是，则返回S501，进行迭代聚簇处理，以拆分相应聚簇。

若否，则进入S504，根据聚簇结果输出分组结果，并结束本分组周期的分组计算流程。

可以理解的是，上述S501-S503在具体实施时，可以在本分组周期的起始时刻进行聚簇划分时，首先针对本分组周期内的统计的所有特征信息，获取热度特征最大值和热度特征最小值，然后分别以热度特征最大值和热度特征最小值为中心点，将各个热度特征值与其距离较小的中心点划分至同一聚簇。随后，在S503在所获得的任一个聚簇的流量占比超过预设的比例阈值时，针对相应聚簇，重复执行S501-S503，通过在相应聚簇内迭代，进一步将相应聚簇进行拆分，直至将多个存储区域划分为不满足分组条件的所述多个存储区域组。

示例性地，根据上述迭代分组算法，在根据热度特征值自适应进行分组处理时，根据各个存储区域的实际使用情况，可以将多个存储区域分为冷数据存储区域组和热数据存储区域组，对应的热度特征值区间分别为(0,3000]、(3001,6000]。或者，还可以将多个存储区域分为极冷数据存储区域组、冷数据存储区域组、热数据存储区域组和极热数据存储区域组，对应的热度特征值区间分别为(0,500]、(501,2000]、(2001,400]、(4001,6000]。由此，当应用于不同的场景中时，可以自适应地获得更多的分组，以便优化数据在SSD内的数据排布，避免由于数据混写带来的写放大的问题。

可以理解的是，在本申请的分组算法中，不同存储区域组中包含的存储区域的数量可以相同也可以不同，不同存储区域组所对应的不同的生命周期区间可以是均匀划分的，也可以为非均匀划分的，本申请对此均不作限定。

可以理解的是，在此仅是以热度特征为例来对多个存储区域进行分组的示例说明而非任何限定。在具体实施例中，控制器也可以根据应用场景、业务需求等确定指定特征参数，该指定特征参数例如可以为用于表示存储区域的生命周期的任意参数。进而在后续则可以基于指定特征参数周期性地统计各个存储区域的相应的历史特征信息，并基于所统计的历史特征信息，来对多个存储区域进行分组，并更新映射关系表中所记录的逻辑地址、分组标识以及物理地址三者之间的映射关系。进而，当接收到(例如来自主机的)数据处理请求时，控制器可以根据该数据处理请求中所包含的待处理数据的逻辑地址，在多个存储区域组中确定目标存储区域组以及相应的目标物理地址，然后根据该数据处理请求和目标物理地址进行数据处理操作。

通过该方案，控制器可以根据接收到的数据处理请求实时地记录各个存储区域的特征信息，并可以周期性地统计各个存储区域的历史特征信息并对多个存储区域进行分组，以便可以根据周期性更新的分组信息实现数据在存储阵列内的智能化排布。该方案可以灵活地应用于SSD所适用的任何场景中，并且可以降低SSD的写放大，从而提升系统性能和SSD的寿命。

与传统SSD相比，当将上述数据处理方案应用于计算机系统中时，基于对数据处理请求中所包含的信息的实时统计，以及对存储区域分组的周期性刷新的策略，可以简化操作，降低管理成本，可以最大化利用硬件加速。同时，由于自适应的算法设计，能够快速匹配不同的场景，能够解决当前业界依赖于固化配置的参数的方案的局限性。在真实的业务场景中，例如MySQL数据库，可以极大地提升例如WA、TPMC等性能。

基于相同的技术构思，本申请实施例还提供了一种数据处理装置，该装置600的结构如图6所示，包括接口601、处理器602和缓存603。所述装置600可以应用于图2所示的存储系统中的控制器，并可以实现以上实施例以及实施例提供的数据处理方法。下面对装置600中的各个单元/模块的功能进行介绍。

在一个示例中，所述接口601，用于提供连接所述处理器和存储阵列的通道；所述处理器602，用于根据分组周期获取所述存储阵列中的多个存储区域的特征信息，并在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，以及依据所述多个存储区域组更新映射关系表，其中，每个存储区域的特征信息表征了所述存储区域的生命周期，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系；所述缓存603，用于存放所述映射关系表。

在一个可能的设计中，所述处理器602具体用于：根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组；所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率之和与所述多个存储区域的读写频率之和的比值。

在一个可能的设计中，所述处理器602具体用于：在所述分组周期内，根据接收到的数据处理请求中包含的针对每个存储区域的命令信息，获取所述多个存储区域的特征信息。

在一个可能的设计中，所述数据处理请求为I/O请求，所述特征信息包括I/O特征信息。

在一个可能的设计中，所述控制器为固态存储设备SSD中的控制器，所述存储阵列包括NAND闪存颗粒。

基于以上实施例，本申请实施例还提供了一种计算机系统，该计算机系统可以包括主机以及如图2所示的存储系统，可以实现以上实施例以及实施例提供的方法，具有如图6所示的数据处理装置的功能。参阅图7，该计算机系统700可以包括存储器701、处理器702、收发器703。其中，存储器701、处理器702以及收发器703之间相互连接。

可选的，所述存储器701、所述处理器702、收发器703之间通过总线704相互连接，所述存储器701，用于存储程序代码，处理器702则可以根据从存储器701中获取程序代码并执行相应的处理。所述总线704可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

基于以上实施例，本申请实施例还提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行以上实施例提供的数据处理法。

基于以上实施例，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被计算机执行时，使得计算机执行以上实施例提供的数据处理方法。其中，存储介质可以是计算机能够存取的任何可用介质，例如SSD存储器、PCM存储器等。

综上所述，本申请实施例提供了一种数据处理方法、装置及系统，在该方案中，控制器可以获取存储阵列中的多个存储区域的特征信息，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组；依据所述多个存储区域组更新映射关系表，其中，每个存储区域的特征信息表征了所述存储区域的生命周期；每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间；所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。进而，控制器在接收到实时的数据处理请求后，可以根据所述映射关系表查找所述数据处理请求中包含的目标逻辑地址所对应的目标存储区域组的分组标识和目标物理地址，然后根据所述分组标识和所述目标物理地址，对所述数据处理请求进行处理。由此，根据周期性更新的分组信息实现数据在SSD内的智能化排布。该方案可以灵活地应用于SSD所适用的任何场景中，并且可以降低SSD的写放大，从而提升系统性能和SSD的寿命。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的保护范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种数据处理方法，其特征在于，包括：

控制器根据分组周期获取存储阵列中的多个存储区域的特征信息，每个存储区域的特征信息表征了所述存储区域的生命周期；

在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间；

依据所述多个存储区域组更新映射关系表，其中，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系。
根据权利要求1所述的方法，其特征在于，所述分组周期为：时间周期；或者，访问次数周期。
根据权利要求1或2所述的方法，其特征在于，在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，包括：

根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组；

所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率之和与所述多个存储区域的读写频率之和的比值。
根据权利要求1-3中任一项所述的方法，其特征在于，控制器根据分组周期获取存储阵列中的所述多个存储区域的特征信息，包括：

在所述分组周期内，根据接收到的数据处理请求中包含的针对每个存储区域的命令信息，获取所述多个存储区域的特征信息。
根据权利要求4所述的方法，其特征在于，所述数据处理请求为I/O请求；所述特征信息包括I/O特征信息。
根据权利要求1-5中任一项所述的方法，其特征在于，所述控制器为固态存储设备SSD中的控制器，所述存储阵列包括NAND闪存颗粒。
一种数据处理装置，其特征在于，包括接口、处理器和缓存：

所述接口，用于提供连接所述处理器和存储阵列的通道；

所述处理器，用于根据分组周期获取所述存储阵列中的多个存储区域的特征信息，并在所述分组周期内，根据所述特征信息对所述多个存储区域进行分组处理，得到多个存储区域组，以及依据所述多个存储区域组更新映射关系表，其中，每个存储区域的特征信息表征了所述存储区域的生命周期，每个存储区域组包含至少一个存储区域，不同存储区域组对应于不同的生命周期区间，所述映射关系表中用于记录所述多个存储区域组的分组标识、逻辑地址、以及物理地址三者之间的映射关系；

所述缓存，用于存放所述映射关系表。
根据权利要求7所述的装置，其特征在于，所述分组周期为：时间周期；或者，访问次数周期。
根据权利要求7或8所述的装置，其特征在于，所述处理器具体用于：

根据所述特征信息以及设定的分组条件，对所述多个存储区域进行迭代分组处理，直至得到不满足所述分组条件的所述多个存储区域组；

所述分组条件包括：一个存储区域组的流量占比大于预设的比例阈值，所述流量占比为所述存储区域组包含的所有存储区域的读写频率之和与所述多个存储区域的读写频率之和的比值。
根据权利要求7-9中任一项所述的装置，其特征在于，所述处理器具体用于：

在所述分组周期内，根据接收到的数据处理请求中包含的针对每个存储区域的命令信息，获取所述多个存储区域的特征信息。
根据权利要求10所述的装置，其特征在于，所述数据处理请求为I/O请求；所述特征信息包括I/O特征信息。
根据权利要求7-11中任一项所述的装置，其特征在于，所述控制器为固态存储设备SSD中的控制器，所述存储阵列包括NAND闪存颗粒。
一种存储系统，其特征在于，包括存储阵列以及如所述权利要求7-12中任一项所述的数据处理装置，其中，所述数据处理装置用于根据分组周期获取所述存储阵列中的多个存储区域的特征信息。
一种计算机系统，其特征在于，包括主机以及如权利要求13所述的存储系统，其中，所述主机用于向所述存储系统发送数据处理请求，所述存储系统被配置为执行存储的指令，所述存储系统通过执行指令来实现如权利要求1-6中任一项所述的数据处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行权利要求1-6中任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-6中任一项所述的方法。