WO2012088925A1 - 一种基于数据内容识别的存储方法及装置 - Google Patents

一种基于数据内容识别的存储方法及装置 Download PDF

Info

Publication number
WO2012088925A1
WO2012088925A1 PCT/CN2011/079565 CN2011079565W WO2012088925A1 WO 2012088925 A1 WO2012088925 A1 WO 2012088925A1 CN 2011079565 W CN2011079565 W CN 2011079565W WO 2012088925 A1 WO2012088925 A1 WO 2012088925A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
content
feature
format
storage
Prior art date
Application number
PCT/CN2011/079565
Other languages
English (en)
French (fr)
Inventor
罗姣林
Original Assignee
成都市华为赛门铁克科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 成都市华为赛门铁克科技有限公司 filed Critical 成都市华为赛门铁克科技有限公司
Priority to EP11852882A priority Critical patent/EP2570912A4/en
Publication of WO2012088925A1 publication Critical patent/WO2012088925A1/zh
Priority to US13/720,542 priority patent/US20130124796A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Definitions

  • the present invention relates to the field of data storage, and in particular, to a storage method and apparatus based on data content identification. Background technique
  • the storage controller receives a write request from the host, writes the hard disk or the disk array according to the write request, and stores the data on the hard disk or the disk array.
  • the storage medium cannot sense the upper layer application, and cannot obtain the specific attributes of the data. For example, whether the current data needs to be stored is a frame of a video, or a frame of the MP3, or a piece of text or a database record, the storage medium cannot be It is known that the storage performance of the current storage system is not significantly improved, and no better performance optimization is achieved.
  • the storage method and device based on the data content identification provided by the embodiment of the invention enable the storage device to know the attributes of the data to be stored, optimize the data, and improve the data storage performance of the storage device.
  • a storage method based on data content identification comprising:
  • a storage device based on data content identification comprising:
  • a receiving module configured to receive data from the host
  • a content scanning module configured to scan content of the data to obtain a format feature of the data
  • a feature library configured to store format features of various content
  • a feature matching module configured to match the format feature acquired by the content scanning module with a format feature in a content feature library to determine an attribute of the data
  • a storage module configured to classify and store the data according to an attribute of the data that is determined by the feature matching module.
  • the data content identification-based storage method and apparatus receives data from a host, scans content of the data, and acquires format characteristics of the data, and uses the format feature and the feature library.
  • the format features are matched to determine the attributes of the data, and the data is classified and stored according to the attributes of the data, so that the storage device can learn the attributes of the data to be stored, optimize the data, and improve the storage device. Data storage performance.
  • FIG. 1 is an application scene view of a storage method based on data content identification according to an embodiment of the present invention
  • FIG. 2 is a flow chart of a storage method based on data content identification according to an embodiment of the present invention
  • FIG. 3 is a flow chart of another storage method based on data content identification according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of a storage device based on data content identification according to an embodiment of the present invention.
  • FIG. 1 it is an application scenario of an embodiment of the present invention.
  • the host 101, the disk array controller 102, and the disk array 103, the disk array controller 102 receives a data storage request from the host 101.
  • An embodiment of the present invention provides a storage method based on data content identification. Taking the disk array controller 102 as an example, as shown in FIG. 2, the method includes:
  • Step 201 Receive data from a host.
  • Step 202 Scan content of the data to obtain a format feature of the data.
  • Step 203 Match the format feature with a format feature in the feature library to determine an attribute of the data.
  • Step 204 Perform classification and storage on the data according to attributes of the data
  • the storage device by receiving data from the host, scanning the content of the data to obtain a format feature of the data, and matching the format feature with a format feature in the feature library to determine the data. Attributes, according to the attributes of the data, classifying and storing the data, so that the storage device can learn the attributes of the data to be stored, and optimize the data, thereby improving the data storage performance of the storage device.
  • the step 202 may specifically include:
  • the specific value of a specific field can reflect the attribute of the data.
  • the attribute of the data is identified by obtaining a specific value of the specific field, wherein the attribute of the data includes, the data type, the IO access amount of the data, and the access of the data frequently.
  • the data type may include: video data, audio data, image data, database data, etc., for the data block, the attribute of the identification data is in units of one data block, and for the file system, the attribute of the identification data In units of one file.
  • the step 203 may specifically include:
  • the format feature of the data obtained in step 202 is hashed to obtain a hash key value corresponding to the format feature of the data;
  • the step 204 may specifically include:
  • step 203 After the attributes of the data are known through step 203, there are various ways to optimize the storage of the data, including:
  • the storage location of the data is optimized, and by identifying the data attributes, the disk array can adjust the storage location and relationship of the data according to the data attributes.
  • the video data can be stored in the same disk array or the same hard disk. If the storage space allows, it can also be stored in logically adjacent locations. This facilitates access to data and improves storage performance.
  • the number of writes to Flash is generally only about 100,000 times. In general, 50,000 times of time, the damage tendency of Flash becomes larger, so each time you write, you need to rewrite data to those data with less write count.
  • the data with a large amount of IO access data is stored in the fast storage medium, the data is pre-read, and the data with less IO access data is stored in the slow storage medium, for example: for database data
  • each write operation of the database may cause modification of the redo log, and the IO access of the tablespace is very regular, so by identifying whether the data is redo data or Tablespace data, the redo data is placed.
  • a faster storage medium for example: storing redo data into an SSD and storing the data in the tablespace on a slower medium, which greatly optimizes database access; or
  • 10 frequently accessed data is stored in the cache
  • 10 less accessed data is stored in the storage medium, for example: for data that the user often needs to access, the part of the data can be directly stored in the cache.
  • Pre-read operation data corresponding to less user access can be stored on the disk.
  • the above optimization methods can be combined. For example, for 10 large accesses and 10 frequently accessed data, it can be cached on a large-capacity fast medium.
  • the storage device by receiving data from the host, scanning the content of the data to acquire features of the data, and matching the feature with features in the content feature library to determine The attributes of the data are classified and stored according to the attributes of the data, so that the storage device can learn the attributes of the data to be stored, optimize the data, and improve the data storage performance of the storage device.
  • An embodiment of the present invention provides another storage method based on data content identification. As shown in FIG. 3, the method includes:
  • Step 301 Generate a content feature library.
  • Step 302 Receive data from a host.
  • Step 303 Scan the content of the data to obtain a format feature of the data.
  • Step 304 Match the feature with a format feature in the content feature library to determine an attribute of the data.
  • Step 305 Perform classification and storage on the data according to attributes of the data.
  • the step 301 may specifically include:
  • the hash key value is stored in the content feature library corresponding to the data attribute.
  • Step 302 step 303, step 304, and step 305 respectively correspond to step 201, step 202, step 203, and step 204, and details are not described herein again.
  • the storage device by receiving data from the host, scanning the content of the data to match, determining the attribute of the data, and classifying and storing the data according to the attribute of the data, so that the storage device can Know the attributes of the data to be stored, and optimize the data to improve the data storage performance of the storage device.
  • a storage device based on data content identification is further provided. As shown in FIG. 4, the device includes:
  • the receiving module 410 is configured to receive data from the host.
  • a content scanning module 420 configured to scan content of the data to obtain a format feature of the data
  • a content feature library 430 configured to store format features of various content
  • the feature matching module 440 is configured to match the format feature acquired by the content scanning module with a format feature in the content feature library to determine an attribute of the data;
  • the storage module 450 is configured to classify and store the data according to the attribute of the data determined by the feature matching module.
  • the device further includes:
  • the feature library generating module 460 is configured to perform a hash operation on the format feature of the data of the determined data attribute to obtain a corresponding hash key value, and store the hash key value and the data attribute in the content feature library 430. in.
  • the content scanning module 420 is specifically configured to obtain a corresponding format feature of different content, where the corresponding format feature includes a value of a fixed field.
  • the feature matching module 440 includes:
  • a hash operation unit 441 configured to perform a hash operation on the feature of the data, to obtain a hash key value corresponding to the data feature;
  • Matching unit 442 matches the hash key value with a hash key value in the feature database.
  • the storage module 450 includes:
  • a first storage unit 451 configured to optimize a storage location of the data according to an attribute of the data
  • the second storage unit 452 is configured to store, according to attributes of the data, data with a large amount of IO access data in a fast storage medium, and store data with a small amount of IO access data in a slow storage medium;
  • the third storage unit 453 is configured to store data with frequent IO access in the cache according to attributes of the data, and store data with less IO access in the storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

一种基于数据内容识别的存储方法及装置
本申请要求于 2010年 12月 31日提交中国专利局,申请号 201010624534.3: 发明名称为 "一种基于数据内容识别的存储方法及装置" 的中国专利申请的 优先权, 其全部内容通过引用结合在本申请中。
技术领域
本发明涉及数据存储领域, 尤其涉及一种基于数据内容识别的存储方法 及装置。 背景技术
当前的存储系统中, 基本的数据存储操作为: 存储控制器接收来自主机 的写请求, 根据该写请求对硬盘或磁盘阵列进行写操作, 将数据存储到硬盘 或磁盘阵列上。
现有技术中, 存储介质不能感知上层的应用, 无法获得数据的具体属性, 比如当前需要存储的数据是一段视频的一个帧, 还是 MP3的一帧, 还是一 段文本或是数据库记录, 存储介质无法获知, 导致当前的存储系统的存储性 能提高不明显, 没有实现更好的性能优化。
发明内容
本发明实施例提供的一种基于数据内容识别的存储方法及装置, 使得存 储设备可以获知待存储数据的属性, 并对数据进行优化, 提升了存储设备的 数据存储性能。
本发明实施例的目的是通过以下技术方案实现的:
一种基于数据内容识别的存储方法, 包括:
接收来自主机的数据;
扫描所述数据的内容, 以获取所述数据的格式特征; 的属性; 根据所述数据的属性, 对所述数据进行分类存储。
一种基于数据内容识别的存储装置, 所述装置包括:
接收模块, 用于接收来自主机的数据;
内容扫描模块, 用于扫描所述数据的内容, 以获取所述数据的格式特征; 特征库, 用于存储各种内容的格式特征;
特征匹配模块, 用于将所述内容扫描模块获取的所述格式特征与内容特 征库中的格式特征进行匹配, 以判断所述数据的属性;
存储模块, 用于根据所述特征匹配模块判断的所述数据的属性, 对所述 数据进行分类存储。
通过本发明实施例所提供的基于数据内容识别的存储方法及装置, 接收 来自主机的数据, 扫描所述数据的内容, 以获取所述数据的格式特征, 将所 述格式特征与特征库中的格式特征进行匹配, 以判断所述数据的属性, 根据 所述数据的属性, 对所述数据进行分类存储, 使得存储设备可以获知待存储 数据的属性, 并对数据进行优化, 提升了存储设备的数据存储性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实 施例中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅 仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性 劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1是本发明实施例提供的一种基于数据内容识别的存储方法的应用场 景图;
图 2 是本发明实施例提供的一种基于数据内容识别的存储方法的流程 图;
图 3是本发明实施例提供的另一种基于数据内容识别的存储方法的流程 图;
图 4是本发明实施例提供的基于数据内容识别的存储装置的示意图;
具体实施方式
为使本发明的上述目的、 特征和优点能够更加明显易懂, 下面结合附图 和具体实施方式对本发明作进一步详细的说明。
如图 1所示, 为本发明实施例的一种应用场景。 主机 101、 磁盘阵列 控制器 102和磁盘阵列 103, 磁盘阵列控制器 102接收来自于主机 101 的数据存储请求。
本发明实施例提供一种基于数据内容识别的存储方法, 以磁盘阵列控制 器 102为例, 如图 2所示, 该方法包括:
步骤 201、 接收来自主机的数据;
步骤 202、 扫描所述数据的内容, 以获取所述数据的格式特征; 步骤 203、 将所述格式特征与特征库中的格式特征进行匹配, 以判断所 述数据的属性;
步骤 204、 根据所述数据的属性, 对所述数据进行分类存储
本发明实施例中, 通过接收来自主机的数据, 扫描所述数据的内容, 以 获取所述数据的格式特征,将所述格式特征与特征库中的格式特征进行匹配, 以判断所述数据的属性, 根据所述数据的属性, 对所述数据进行分类存储, 使得存储设备可以获知待存储数据的属性, 并对数据进行优化, 提升了存储 设备的数据存储性能。
其中, 步骤 202具体可以包括:
扫描所述数据的内容, 获取不同的内容对应的特征, 其中, 所述对应格 式特征包括固定字段的数值; 例如: 对应音频或者视频数据, 由于对应不同 的数据格式, 采用不同的数据封装形式, 特定字段的特定数值能够反映该数 据的属性, 本步骤中, 通过获取这些特定字段的特定数值来识别数据的属性, 其中,数据的属性包括,数据类型,数据的 IO访问量,数据的访问频繁度等, 其中, 数据类型可以包括: 视频数据、 音频数据、 图像数据、 数据库数据等, 对于数据块来说, 识别数据的属性以一个数据块为单位, 对于文件系统来说, 识别数据的属性以一个文件为单位。
其中, 步骤 203具体可以包括:
对步骤 202获得的数据的格式特征进行哈希运算, 获得与数据的格式特 征对应的哈希键值;
将所述哈希键值与内容特征库中的哈希键值进行匹配, 其中, 内容特征 库中保存有哈希键值与数据属性的对应关系。 其中, 步骤 204具体可以包括:
通过步骤 203获知数据的属性之后,有多种方式对数据的存储进行优化, 包括:
根据所述数据的属性,优化数据的存储位置,通过对数据属性的识别, 磁 盘阵列可以依据数据属性, 调整数据的存储位置和关系。 例如: 将视频数据 统一存储在同一个磁盘阵列或同一块硬盘中, 如果存储空间允许, 也可以存 储在逻辑上相邻的位置, 这样可以便于对数据的访问操作, 提升存储性能; 又例如: Flash的写入次数一般只有大约最大 10万次, 通常情况下 5万次 的时候, Flash的损坏倾向变大, 所以每次写入的时候需要将数据重新写入 那些写入计数比较少的数据块, 丟弃原先的数据块, SSD 通过对数据属性 的识别, 可以调整 SSD的 "磨损均衡" 算法, 当某些数据属性是倾向频繁 修改的时候 (比如数据库的 redo数据, 文件系统的日志数据等), 可以优先 将数据写入寿命最长的 Flash颗粒或者暂时放入 Cache, 延长数据在緩存中 的保存时间。
或者,
根据所述数据的属性, 将 IO访问数据量大的数据存储在快速存储介质 中, 对数据进行预读取, 将 IO访问数据量少的数据存储在慢速存储介质中, 例如: 对于数据库数据来说, 数据库每次的写入操作都有可能会导致 redo日 志的修改, 而表空间 (TableSpace)的 IO访问非常有规律的, 所以通过识别出 数据是 redo数据还是 Tablespace数据, 将 redo数据放入速度更快的存储 介质上, 例如: 将 redo数据存入 SSD, 将表空间的数据存入较慢的介质上 面, 这样就可以极大的优化数据库的访问; 或者,
根据所述数据的属性, 将 10访问频繁的数据存储在緩存中, 将 10访问 少的数据存储在存储介质中, 例如: 对于用户经常需要访问的数据, 可以将 这部分数据直接存储在緩存中, 进行预读取操作, 对应用户访问较少的数据 则可存储在磁盘中。
本步骤中, 以上几种优化方式可以结合使用, 例如, 对于 10访问量大, 而且 10访问频繁的数据, 可以緩存于大容量的快速介质上。
本发明实施例中, 通过接收来自主机的数据, 扫描所述数据的内容, 以 获取所述数据的特征, 将所述特征与内容特征库中的特征进行匹配, 以判断 所述数据的属性, 根据所述数据的属性, 对所述数据进行分类存储, 使得存 储设备可以获知待存储数据的属性, 并对数据进行优化, 提升了存储设备的 数据存储性能。
本发明实施例提供了另一种基于数据内容识别的存储方法,如图 3所示, 该方法, 包括:
步骤 301、 生成内容特征库;
步骤 302、 接收来自主机的数据;
步骤 303、 扫描所述数据的内容, 以获取所述数据的格式特征; 步骤 304、 将所述特征与内容特征库中的格式特征进行匹配, 以判断所 述数据的属性;
步骤 305、 根据所述数据的属性, 对所述数据进行分类存储
其中, 步骤 301具体可以包括:
对已判断数据属性所述数据的格式特征进行哈希运算, 以获得对应的哈 希键值;
将所述哈希键值与数据属性进行对应存储在内容特征库中。
其中,步骤 302、步骤 303、步骤 304和步骤 305与步骤 201、步骤 202、 步骤 203和步骤 204分别对应, 在此不再贅述。
本发明实施例中, 通过接收来自主机的数据, 扫描所述数据的内容, 以 匹配, 以判断所述数据的属性, 根据所述数据的属性, 对所述数据进行分类 存储, 使得存储设备可以获知待存储数据的属性, 并对数据进行优化, 提升 了存储设备的数据存储性能。
本发明实施例中还提供了一种基于数据内容识别的存储装置, 如图 4所 示, 所述装置包括:
接收模块 410, 用于接收来自主机的数据;
内容扫描模块 420, 用于扫描所述数据的内容, 以获取所述数据的格式 特征;
内容特征库 430, 用于存储各种内容的格式特征;
特征匹配模块 440, 用于将所述内容扫描模块获取的所述格式特征与内 容特征库中的格式特征进行匹配, 以判断所述数据的属性; 存储模块 450, 用于根据所述特征匹配模块判断的所述数据的属性, 对 所述数据进行分类存储。
其中, 所述装置, 还包括:
特征库生成模块 460, 用于对已判断数据属性的数据的格式特征进行哈 希运算, 以获得对应的哈希键值; 将所述哈希键值与数据属性进行对应存储 在内容特征库 430中。
其中, 所述内容扫描模块 420, 具体用于获取不同的内容的对应格式特 征, 其中, 所述对应格式特征包括固定字段的数值。
其中, 所述特征匹配模块 440, 包括:
哈希运算单元 441 , 用于对所述数据的特征进行哈希运算, 获得与所述 数据特征对应的哈希键值;
匹配单元 442, 将所述哈希键值与特征数据库中的哈希键值进行匹配。 其中, 所述存储模块 450, 包括:
第一存储单元 451 , 用于根据所述数据的属性, 优化数据的存储位置; 或者,
第二存储单元 452, 用于根据所述数据的属性, 将 IO访问数据量大的数 据存储在快速存储介质中, 将 IO访问数据量少的数据存储在慢速存储介质 中;
或者,
第三存储单元 453, 用于根据所述数据的属性, 将 IO访问频繁的数据存 储在緩存中, 将 IO访问少的数据存储在存储介质中。
通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到本 发明可借助软件加必需的硬件平台的方式来实现, 当然也可以全部通过硬 件来实施, 但很多情况下前者是更佳的实施方式。 基于这样的理解, 本发 明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形 式体现出来, 该计算机软件产品可以存储在存储介质中, 如 ROM/RAM、 磁碟、 光盘等, 包括若干指令用以使得一台计算机设备(可以是个人计算 机, 服务器, 或者网络设备等)执行本发明各个实施例或者实施例的某些 部分所述的方法。
以上对本发明进行了详细介绍, 本文中应用了具体个例对本发明的原 理及实施方式进行了阐述, 以上实施例的说明只是用于帮助理解本发明的 方法及其核心思想; 同时, 对于本领域的一般技术人员, 依据本发明的思 想, 在具体实施方式及应用范围上均会有改变之处, 综上所述, 本说明书 内容不应理解为对本发明的限制。

Claims

权 利 要 求
1、 一种基于数据内容识别的存储方法, 其特征在于, 包括:
接收来自主机的数据;
扫描所述数据的内容, 以获取所述数据的格式特征; 属性;
根据所述数据的属性, 对所述数据进行分类存储。
2、 根据权利要求 1所述的基于数据内容识别的存储方法, 其特征在于, 所述方法之前, 还包括:
对已判断数据属性的数据的格式特征进行哈希运算,以获得对应的哈希键 值;
将所述哈希键值与数据属性进行对应存储在内容特征库中。
3、 根据权利要求 1或 2所述的基于数据内容识别的存储方法, 其特征在 于, 所述扫描所述数据的内容, 以获取所述数据的格式特征, 包括:
扫描所述数据的内容, 获取不同的内容的对应格式特征, 其中, 所述对应 格式特征包括固定字段的数值。
4、 根据权利要求 1或 2所述的基于数据内容识别的存储方法, 其特征在 对所述数据的格式特征进行哈希运算,获得与所述数据特征对应的哈希键 值;
将所述哈希键值与特征库中的哈希键值进行匹配。
5、 根据权利要求 1或 2所述的基于数据内容识别的存储方法, 其特征在 于, 所述数据的属性包括: 数据类型, 或数据的 IO访问量, 或数据的访问频 繁度。
6、 根据权利要求 1或 2所述的基于数据内容识别的存储方法, 其特征在 于, 所述方法, 根据所述数据的属性, 对所述数据进行分类存储, 包括: 根据所述数据的类型, 将相同属性的数据集中存储; 或者,
根据所述数据的 10访问量, 将 10访问数据量大的数据存储在快速存储 介质中, 将 10访问数据量少的数据存储在慢速存储介质中;
或者,
根据所述数据的访问频繁度, 将 10访问频繁的数据存储在緩存中, 将 10 访问少的数据存储在存储介质中。
7、 一种基于数据内容识别的存储装置, 其特征在于, 所述装置包括: 接收模块, 用于接收来自主机的数据;
内容扫描模块, 用于扫描所述数据的内容, 以获取所述数据的格式特征; 特征库, 用于存储各种内容的格式特征;
特征匹配模块,用于将所述内容扫描模块获取的所述格式特征与内容特征 库中的格式特征进行匹配, 以判断所述数据的属性;
存储模块,用于根据所述特征匹配模块判断的所述数据的属性,对所述数 据进行分类存储。
8、 根据权利要求 7所述的基于数据内容识别的装置, 其特征在于, 所述 装置, 还包括:
特征库生成模块,用于对已判断数据属性所述数据的属性的数据的格式特 征进行哈希运算, 以获得对应的哈希键值; 将所述哈希键值与数据属性进行对 应存储在内容特征库中。
9、 根据权利要求 7或 8所述的基于数据内容识别的装置, 其特征在于, 所述内容扫描模块, 具体用于获取不同的内容的对应格式特征, 其中, 所述对 应格式特征包括固定字段的数值。
10、 根据权利要求 7或 8所述的基于数据内容识别的装置, 其特征在于, 所述特征匹配模块, 包括:
哈希运算单元,用于对所述数据的格式特征进行哈希运算,获得与所述数 据格式特征对应的哈希键值;
匹配单元 , 将所述哈希键值与内容特征库中的哈希键值进行匹配。
11、 根据权利要求 7或 8所述的基于数据内容识别的装置, 其特征在于, 所述数据的属性包括, 数据类型, 或数据的 10访问量, 或数据的访问频繁度; 所述存储模块, 包括:
第一存储单元, 用于根据所述数据的类型, 将相同属性的数据集中存储; 或者,
第二存储单元, 用于根据所述数据的 10访问量, 将 10访问数据量大的 数据存储在快速存储介质中, 将 10访问数据量少的数据存储在慢速存储介质 中;
或者,
第三存储单元, 用于根据所述数据的访问频繁度, 将 10访问频繁的数据 存储在緩存中, 将 10访问少的数据存储在存储介质中。
PCT/CN2011/079565 2010-12-31 2011-09-13 一种基于数据内容识别的存储方法及装置 WO2012088925A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP11852882A EP2570912A4 (en) 2010-12-31 2011-09-13 STORAGE METHOD AND DEVICE BASED ON DATA CONTENT IDENTIFICATION
US13/720,542 US20130124796A1 (en) 2010-12-31 2012-12-19 Storage method and apparatus which are based on data content identification

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010624534.3A CN102147711B (zh) 2010-12-31 2010-12-31 一种基于数据内容识别的存储方法及装置
CN201010624534.3 2010-12-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/720,542 Continuation US20130124796A1 (en) 2010-12-31 2012-12-19 Storage method and apparatus which are based on data content identification

Publications (1)

Publication Number Publication Date
WO2012088925A1 true WO2012088925A1 (zh) 2012-07-05

Family

ID=44421994

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/079565 WO2012088925A1 (zh) 2010-12-31 2011-09-13 一种基于数据内容识别的存储方法及装置

Country Status (4)

Country Link
US (1) US20130124796A1 (zh)
EP (1) EP2570912A4 (zh)
CN (1) CN102147711B (zh)
WO (1) WO2012088925A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147711B (zh) * 2010-12-31 2014-04-02 华为数字技术(成都)有限公司 一种基于数据内容识别的存储方法及装置
CN102314383B (zh) * 2011-09-28 2013-12-04 华为数字技术(成都)有限公司 数据索引的故障恢复方法和装置
WO2013097231A1 (zh) * 2011-12-31 2013-07-04 华为技术有限公司 文件访问方法及系统
US9542399B2 (en) * 2013-01-08 2017-01-10 Spectra Logic, Corporation System and method for removable data storage elements provided as cloud based storage system
CN104268231B (zh) * 2014-09-26 2018-03-06 可牛网络技术(北京)有限公司 一种文件访问方法、装置及智能文件系统
CN105512144B (zh) * 2014-09-26 2019-03-01 可牛网络技术(北京)有限公司 一种文件访问方法、装置及智能文件系统
CN105530279A (zh) * 2014-10-22 2016-04-27 中国移动通信集团广东有限公司 数据处理方法及处理装置
CN105353995A (zh) * 2015-12-15 2016-02-24 上海新储集成电路有限公司 非挥发内容可寻址的存储方法及系统
CN107733952A (zh) * 2016-08-12 2018-02-23 中国电信股份有限公司 用于提供差异化缓存服务的方法、装置和系统
CN106250067A (zh) * 2016-09-28 2016-12-21 深圳市金泰克半导体有限公司 一种基于数据特征的固态硬盘ssd加速系统的实现方法
CN106776709A (zh) * 2016-11-15 2017-05-31 山东浪潮云服务信息科技有限公司 一种企业信息的处理方法及装置
EP3839785B1 (en) * 2017-03-02 2023-07-26 X Development LLC Characterizing malware files for similarity searching
CN107453948A (zh) * 2017-07-28 2017-12-08 北京邮电大学 一种网络测量数据的存储方法及系统
CN107797768A (zh) * 2017-10-11 2018-03-13 南京东方金信数据服务有限公司 一种处理大数据的方法及系统
CN107977166A (zh) * 2017-11-27 2018-05-01 广西塔锡科技有限公司 一种数据存储方法和系统
CN108182035A (zh) * 2017-12-28 2018-06-19 湖南国科微电子股份有限公司 一种提高ssd可靠性的方法
US20220107954A1 (en) * 2018-09-14 2022-04-07 Nippon Telegraph And Telephone Corporation Data processing system, method, and program
CN109726180B (zh) * 2018-12-03 2021-03-16 北京春鸿科技有限公司 在无线存储物联网设备进行文件检索和监听的方法及装置
CN110471900A (zh) * 2019-07-10 2019-11-19 平安科技(深圳)有限公司 数据处理方法及终端设备
CN111694520B (zh) * 2020-06-11 2021-04-27 邦尼集团有限公司 一种大数据存储优化的方法及装置
CN111563024B (zh) * 2020-07-15 2020-10-16 北京升鑫网络科技有限公司 一种宿主机上监控容器进程的方法、装置及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143713A1 (en) * 2003-01-22 2004-07-22 Niles Ronald S. System and method for backing up data
CN101777056A (zh) * 2009-12-31 2010-07-14 成都市华为赛门铁克科技有限公司 数据存储方法及设备
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100532410B1 (ko) * 2002-04-19 2005-11-30 삼성전자주식회사 휴대용 cd-mp3 시스템 및 그것을 위한 파일 시스템디코딩 방법
JP4322031B2 (ja) * 2003-03-27 2009-08-26 株式会社日立製作所 記憶装置
US20060004818A1 (en) * 2004-07-01 2006-01-05 Claudatos Christopher H Efficient information management
US7568075B2 (en) * 2005-09-22 2009-07-28 Hitachi, Ltd. Apparatus, system and method for making endurance of storage media
KR100778764B1 (ko) * 2006-08-02 2007-11-27 삼성전자주식회사 이동통신 단말기의 파일 자동 분류 방법 및 그 장치
JP2008154216A (ja) * 2006-11-20 2008-07-03 Sharp Corp 画像処理方法、画像処理装置、画像形成装置、原稿読取装置、コンピュータプログラム及び記録媒体
US20080243878A1 (en) * 2007-03-29 2008-10-02 Symantec Corporation Removal
JP5331323B2 (ja) * 2007-09-26 2013-10-30 株式会社日立製作所 ストレージサブシステム及びその制御方法
CN101477544B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
EP2237170A1 (en) * 2009-03-31 2010-10-06 BRITISH TELECOMMUNICATIONS public limited company Data sorage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040143713A1 (en) * 2003-01-22 2004-07-22 Niles Ronald S. System and method for backing up data
CN101777056A (zh) * 2009-12-31 2010-07-14 成都市华为赛门铁克科技有限公司 数据存储方法及设备
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2570912A4 *

Also Published As

Publication number Publication date
CN102147711B (zh) 2014-04-02
EP2570912A1 (en) 2013-03-20
US20130124796A1 (en) 2013-05-16
CN102147711A (zh) 2011-08-10
EP2570912A4 (en) 2013-03-27

Similar Documents

Publication Publication Date Title
WO2012088925A1 (zh) 一种基于数据内容识别的存储方法及装置
US9792306B1 (en) Data transfer between dissimilar deduplication systems
US9166866B2 (en) Hydration and dehydration with placeholders
KR102124231B1 (ko) 플레이스홀더 및 콘텐츠 스트리밍 기법
JP5087467B2 (ja) コンピュータストレージシステムにおいてデータ圧縮並びに整合性を管理する方法および装置
US8335890B1 (en) Associating an identifier with a content unit
US9836514B2 (en) Cache based key-value store mapping and replication
US8634947B1 (en) System and method for identifying digital files
US11269956B2 (en) Systems and methods of managing an index
TWI609277B (zh) 與位置獨立之檔案
US20130067237A1 (en) Providing random access to archives with block maps
JP2006024218A5 (zh)
WO2012041110A1 (zh) 数据比对方法和装置
WO2017107948A1 (zh) 文件的写聚合、读聚合方法及系统和客户端
WO2018205471A1 (zh) 基于特征分析的数据存取方法、存储设备及存储系统
CN110888837B (zh) 对象存储小文件归并方法及装置
WO2014166446A1 (zh) 文件访问处理方法、系统及计算机存储介质
CN104123309B (zh) 用于数据管理的方法和系统
JP2011215835A (ja) 全文検索機能を備えるストレージ装置
CN112286457B (zh) 对象重删方法、装置、电子设备及机器可读存储介质
US10872103B2 (en) Relevance optimized representative content associated with a data storage system
US9449012B2 (en) Cloud library de-duplication
US20230123921A1 (en) Facilitating the embedding of block references for reducing file access latency file systems
CN105745639A (zh) 可移动储存器数据散列
CN103761290A (zh) 基于内容感知的数据管理方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11852882

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011852882

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE