WO2012088925A1

WO2012088925A1 - 一种基于数据内容识别的存储方法及装置

Info

Publication number: WO2012088925A1
Application number: PCT/CN2011/079565
Authority: WO
Inventors: 罗姣林
Original assignee: 成都市华为赛门铁克科技有限公司
Priority date: 2010-12-31
Filing date: 2011-09-13
Publication date: 2012-07-05
Also published as: CN102147711B; EP2570912A1; US20130124796A1; CN102147711A; EP2570912A4

Description

一种基于数据内容识别的存储方法及装置

本申请要求于 2010年 12月 31日提交中国专利局，申请号 201010624534.3_: 发明名称为 "一种基于数据内容识别的存储方法及装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据存储领域，尤其涉及一种基于数据内容识别的存储方法及装置。背景技术

当前的存储系统中，基本的数据存储操作为：存储控制器接收来自主机的写请求，根据该写请求对硬盘或磁盘阵列进行写操作，将数据存储到硬盘或磁盘阵列上。

现有技术中，存储介质不能感知上层的应用，无法获得数据的具体属性，比如当前需要存储的数据是一段视频的一个帧，还是 MP3的一帧，还是一段文本或是数据库记录，存储介质无法获知，导致当前的存储系统的存储性能提高不明显，没有实现更好的性能优化。

发明内容

本发明实施例提供的一种基于数据内容识别的存储方法及装置，使得存储设备可以获知待存储数据的属性，并对数据进行优化，提升了存储设备的数据存储性能。

本发明实施例的目的是通过以下技术方案实现的：

一种基于数据内容识别的存储方法，包括：

接收来自主机的数据；

扫描所述数据的内容，以获取所述数据的格式特征；的属性；根据所述数据的属性，对所述数据进行分类存储。

一种基于数据内容识别的存储装置，所述装置包括：

接收模块，用于接收来自主机的数据；

内容扫描模块，用于扫描所述数据的内容，以获取所述数据的格式特征；特征库，用于存储各种内容的格式特征；

特征匹配模块，用于将所述内容扫描模块获取的所述格式特征与内容特征库中的格式特征进行匹配，以判断所述数据的属性；

存储模块，用于根据所述特征匹配模块判断的所述数据的属性，对所述数据进行分类存储。

通过本发明实施例所提供的基于数据内容识别的存储方法及装置，接收来自主机的数据，扫描所述数据的内容，以获取所述数据的格式特征，将所述格式特征与特征库中的格式特征进行匹配，以判断所述数据的属性，根据所述数据的属性，对所述数据进行分类存储，使得存储设备可以获知待存储数据的属性，并对数据进行优化，提升了存储设备的数据存储性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例提供的一种基于数据内容识别的存储方法的应用场景图；

图 2 是本发明实施例提供的一种基于数据内容识别的存储方法的流程图；

图 3是本发明实施例提供的另一种基于数据内容识别的存储方法的流程图；

图 4是本发明实施例提供的基于数据内容识别的存储装置的示意图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图 1所示，为本发明实施例的一种应用场景。主机 101、磁盘阵列控制器 102和磁盘阵列 103, 磁盘阵列控制器 102接收来自于主机 101 的数据存储请求。

本发明实施例提供一种基于数据内容识别的存储方法，以磁盘阵列控制器 102为例，如图 2所示，该方法包括：

步骤 201、接收来自主机的数据；

步骤 202、扫描所述数据的内容，以获取所述数据的格式特征；步骤 203、将所述格式特征与特征库中的格式特征进行匹配，以判断所述数据的属性；

步骤 204、根据所述数据的属性，对所述数据进行分类存储

本发明实施例中，通过接收来自主机的数据，扫描所述数据的内容，以获取所述数据的格式特征，将所述格式特征与特征库中的格式特征进行匹配，以判断所述数据的属性，根据所述数据的属性，对所述数据进行分类存储，使得存储设备可以获知待存储数据的属性，并对数据进行优化，提升了存储设备的数据存储性能。

其中，步骤 202具体可以包括：

扫描所述数据的内容，获取不同的内容对应的特征，其中，所述对应格式特征包括固定字段的数值；例如：对应音频或者视频数据，由于对应不同的数据格式，采用不同的数据封装形式，特定字段的特定数值能够反映该数据的属性，本步骤中，通过获取这些特定字段的特定数值来识别数据的属性，其中，数据的属性包括，数据类型，数据的 IO访问量，数据的访问频繁度等，其中，数据类型可以包括：视频数据、音频数据、图像数据、数据库数据等，对于数据块来说，识别数据的属性以一个数据块为单位，对于文件系统来说，识别数据的属性以一个文件为单位。

其中，步骤 203具体可以包括：

对步骤 202获得的数据的格式特征进行哈希运算，获得与数据的格式特征对应的哈希键值；

将所述哈希键值与内容特征库中的哈希键值进行匹配，其中，内容特征库中保存有哈希键值与数据属性的对应关系。其中，步骤 204具体可以包括：

通过步骤 203获知数据的属性之后，有多种方式对数据的存储进行优化，包括：

根据所述数据的属性，优化数据的存储位置，通过对数据属性的识别，磁盘阵列可以依据数据属性，调整数据的存储位置和关系。例如：将视频数据统一存储在同一个磁盘阵列或同一块硬盘中，如果存储空间允许，也可以存储在逻辑上相邻的位置，这样可以便于对数据的访问操作，提升存储性能；又例如： Flash的写入次数一般只有大约最大 10万次，通常情况下 5万次的时候， Flash的损坏倾向变大，所以每次写入的时候需要将数据重新写入那些写入计数比较少的数据块，丟弃原先的数据块， SSD 通过对数据属性的识别，可以调整 SSD的 "磨损均衡" 算法，当某些数据属性是倾向频繁修改的时候 (比如数据库的 redo数据，文件系统的日志数据等），可以优先将数据写入寿命最长的 Flash颗粒或者暂时放入 Cache, 延长数据在緩存中的保存时间。

或者，

根据所述数据的属性，将 IO访问数据量大的数据存储在快速存储介质中，对数据进行预读取，将 IO访问数据量少的数据存储在慢速存储介质中，例如：对于数据库数据来说，数据库每次的写入操作都有可能会导致 redo日志的修改，而表空间 (TableSpace)的 IO访问非常有规律的，所以通过识别出数据是 redo数据还是 Tablespace数据，将 redo数据放入速度更快的存储介质上，例如：将 redo数据存入 SSD, 将表空间的数据存入较慢的介质上面，这样就可以极大的优化数据库的访问；或者，

根据所述数据的属性，将 10访问频繁的数据存储在緩存中，将 10访问少的数据存储在存储介质中，例如：对于用户经常需要访问的数据，可以将这部分数据直接存储在緩存中，进行预读取操作，对应用户访问较少的数据则可存储在磁盘中。

本步骤中，以上几种优化方式可以结合使用，例如，对于 10访问量大，而且 10访问频繁的数据，可以緩存于大容量的快速介质上。

本发明实施例中，通过接收来自主机的数据，扫描所述数据的内容，以获取所述数据的特征，将所述特征与内容特征库中的特征进行匹配，以判断所述数据的属性，根据所述数据的属性，对所述数据进行分类存储，使得存储设备可以获知待存储数据的属性，并对数据进行优化，提升了存储设备的数据存储性能。

本发明实施例提供了另一种基于数据内容识别的存储方法，如图 3所示，该方法，包括：

步骤 301、生成内容特征库；

步骤 302、接收来自主机的数据；

步骤 303、扫描所述数据的内容，以获取所述数据的格式特征；步骤 304、将所述特征与内容特征库中的格式特征进行匹配，以判断所述数据的属性；

步骤 305、根据所述数据的属性，对所述数据进行分类存储

其中，步骤 301具体可以包括：

对已判断数据属性所述数据的格式特征进行哈希运算，以获得对应的哈希键值；

将所述哈希键值与数据属性进行对应存储在内容特征库中。

其中，步骤 302、步骤 303、步骤 304和步骤 305与步骤 201、步骤 202、步骤 203和步骤 204分别对应，在此不再贅述。

本发明实施例中，通过接收来自主机的数据，扫描所述数据的内容，以匹配，以判断所述数据的属性，根据所述数据的属性，对所述数据进行分类存储，使得存储设备可以获知待存储数据的属性，并对数据进行优化，提升了存储设备的数据存储性能。

本发明实施例中还提供了一种基于数据内容识别的存储装置，如图 4所示，所述装置包括：

接收模块 410, 用于接收来自主机的数据；

内容扫描模块 420, 用于扫描所述数据的内容，以获取所述数据的格式特征；

内容特征库 430, 用于存储各种内容的格式特征；

特征匹配模块 440, 用于将所述内容扫描模块获取的所述格式特征与内容特征库中的格式特征进行匹配，以判断所述数据的属性；存储模块 450, 用于根据所述特征匹配模块判断的所述数据的属性，对所述数据进行分类存储。

其中，所述装置，还包括：

特征库生成模块 460, 用于对已判断数据属性的数据的格式特征进行哈希运算，以获得对应的哈希键值；将所述哈希键值与数据属性进行对应存储在内容特征库 430中。

其中，所述内容扫描模块 420, 具体用于获取不同的内容的对应格式特征，其中，所述对应格式特征包括固定字段的数值。

其中，所述特征匹配模块 440, 包括：

哈希运算单元 441 , 用于对所述数据的特征进行哈希运算，获得与所述数据特征对应的哈希键值；

匹配单元 442, 将所述哈希键值与特征数据库中的哈希键值进行匹配。其中，所述存储模块 450, 包括：

第一存储单元 451 , 用于根据所述数据的属性，优化数据的存储位置；或者，

第二存储单元 452, 用于根据所述数据的属性，将 IO访问数据量大的数据存储在快速存储介质中，将 IO访问数据量少的数据存储在慢速存储介质中；

或者，

第三存储单元 453, 用于根据所述数据的属性，将 IO访问频繁的数据存储在緩存中，将 IO访问少的数据存储在存储介质中。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

权利要求

1、一种基于数据内容识别的存储方法，其特征在于，包括：

接收来自主机的数据；

扫描所述数据的内容，以获取所述数据的格式特征；属性；

根据所述数据的属性，对所述数据进行分类存储。

2、根据权利要求 1所述的基于数据内容识别的存储方法，其特征在于，所述方法之前，还包括：

对已判断数据属性的数据的格式特征进行哈希运算，以获得对应的哈希键值；

将所述哈希键值与数据属性进行对应存储在内容特征库中。

3、根据权利要求 1或 2所述的基于数据内容识别的存储方法，其特征在于，所述扫描所述数据的内容，以获取所述数据的格式特征，包括：

扫描所述数据的内容，获取不同的内容的对应格式特征，其中，所述对应格式特征包括固定字段的数值。

4、根据权利要求 1或 2所述的基于数据内容识别的存储方法，其特征在对所述数据的格式特征进行哈希运算，获得与所述数据特征对应的哈希键值；

将所述哈希键值与特征库中的哈希键值进行匹配。

5、根据权利要求 1或 2所述的基于数据内容识别的存储方法，其特征在于，所述数据的属性包括：数据类型，或数据的 IO访问量，或数据的访问频繁度。

6、根据权利要求 1或 2所述的基于数据内容识别的存储方法，其特征在于，所述方法，根据所述数据的属性，对所述数据进行分类存储，包括：根据所述数据的类型，将相同属性的数据集中存储；或者，

根据所述数据的 10访问量，将 10访问数据量大的数据存储在快速存储介质中，将 10访问数据量少的数据存储在慢速存储介质中；

或者，

根据所述数据的访问频繁度，将 10访问频繁的数据存储在緩存中，将 10 访问少的数据存储在存储介质中。

7、一种基于数据内容识别的存储装置，其特征在于，所述装置包括：接收模块，用于接收来自主机的数据；

8、根据权利要求 7所述的基于数据内容识别的装置，其特征在于，所述装置，还包括：

特征库生成模块，用于对已判断数据属性所述数据的属性的数据的格式特征进行哈希运算，以获得对应的哈希键值；将所述哈希键值与数据属性进行对应存储在内容特征库中。

9、根据权利要求 7或 8所述的基于数据内容识别的装置，其特征在于，所述内容扫描模块，具体用于获取不同的内容的对应格式特征，其中，所述对应格式特征包括固定字段的数值。

10、根据权利要求 7或 8所述的基于数据内容识别的装置，其特征在于，所述特征匹配模块，包括：

哈希运算单元，用于对所述数据的格式特征进行哈希运算，获得与所述数据格式特征对应的哈希键值；

匹配单元 , 将所述哈希键值与内容特征库中的哈希键值进行匹配。

11、根据权利要求 7或 8所述的基于数据内容识别的装置，其特征在于，所述数据的属性包括，数据类型，或数据的 10访问量，或数据的访问频繁度；所述存储模块，包括：

第一存储单元，用于根据所述数据的类型，将相同属性的数据集中存储；或者，

第二存储单元，用于根据所述数据的 10访问量，将 10访问数据量大的数据存储在快速存储介质中，将 10访问数据量少的数据存储在慢速存储介质中；

或者，

第三存储单元，用于根据所述数据的访问频繁度，将 10访问频繁的数据存储在緩存中，将 10访问少的数据存储在存储介质中。