WO2015014301A1

WO2015014301A1 - 一种消息式内存模组的访存方法和装置

Info

Publication number: WO2015014301A1
Application number: PCT/CN2014/083464
Authority: WO
Inventors: 高翔; 李冰; 单书畅; 胡瑜
Original assignee: 华为技术有限公司
Priority date: 2013-07-31
Filing date: 2014-07-31
Publication date: 2015-02-05
Also published as: EP3015986A4; CN104347122B; US20160147600A1; CN104347122A; KR101837318B1; EP3015986A1; US9811416B2; EP3015986B1; KR20160030978A

Abstract

本发明公开了一种消息式内存模组的访存装置，包括：读写模块，用于将当前读写周期内待存储的SCBC存储到对应的DRAM中；处理模块，用于对一个内存行中的每个SCBC分别计算一组检错码，对一个内存行中的全部SCBC计算一组纠错码；所述读写模块，还用于将检错码存储在该内存行的第(M+2)个DRAM中，将纠错码存储在该内存行的第Z个DRAM中，Z为正整数且1≤Z≤(M+1)，连续(M+1)个内存行中的纠错码分别存储在不同的DRAM中。本发明实施例还提供相应的方法。本发明技术方案以SCBC为基本读写单位进行细粒度编码保护，支持可变粒度访存，可以实现对单个DRAM中任意多位错误进行纠错。

Description

一种消息式内存模组的访存方法和装置本申请要求于 2013 年 7 月 31 日提交中国专利局、申请号为 201310330220.6、发明名称为"一种消息式内存模组的访存方法和装置"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，具体涉及一种消息式内存模组的访存方法和装置。

背景技术

在计算机系统运行中，内存的可靠性起着举足轻重的作用，一方面，随着系统配置内存的数目越来越多，内存系统的失效率会成幂指数级上升；另一方面，随着低电压工作模式技术的引进，内存发生错误的可能性增大，错误数目会增多。

错误检查和纠正（Error Checking and Correcting, ECC ) 内存是当前普遍釆用的一种内存可靠性解决方案。 ECC内存，即带有 ECC校验码的内存模组，其基本思想是以内存模组位宽为基本单位进行数据保护，以内存模组位宽为 64位为例 ,每次写入 64位数据的同时为该数据计算 8位的校验位存储于独立的 ECC芯片中，这 64个数据位与 8个校验位一并组成 72位 ECC字，这种编码方式可以对 72位 ECC字中任意一位出错进行糾正，但是，对于两位出错的情况，就只能检测而不能纠正，对于更多位出错的情况，则更加无能为力了。

IBM公司在 ECC内存的基础上提出了 Chipkill内存技术。 Chipkill内存的设计原理基于内存错误的集聚效应倾向于发生在同一块动态随机存取存储器 ( Dynamic Random Access Memory, DRAM )芯片上， Chipkill技术能容忍任意一个 DRAM芯片的失效。 Chipkill内存的内存控制器（ Memory Controller, MC )需要同时控制四个带有 ECC的双列直插式内存模组（Dual Inline Memory Module, DIMM )协同工作， MC的位宽由 4个 72位的 ECC字组成，在每个 ECC字内部都可以纠检一位错误，每个 DIMM上的 DRAM芯片的位宽必须是 4位，经过仔细地设计使同一块 DRAM芯片的 4位输入输出分别映射到 4 个不同的 ECC字中，通过这样的设计即使一片 DRAM芯片的 4个管脚的数据全部出错， 4个不同的 ECC字也可以将其恢复，也就是说 Chipkill技术可以容忍任意一个 DIMM上任意的一个 DRAM芯片损坏。 Chipkill技术通过更宽的 MC位宽和更大粒度的数据编码取得了较高的可靠性，但是，该技术理论上只能用于 4位位宽的 DRAM芯片，缺乏灵活性，且过大粒度的数据编码导致它每次读取的数据远远大于实际访存请求的数据，造成了大量不必要的功耗损失。

发明内容

本发明实施例提供一种消息式内存模组的访存方法和装置，以提供一种低功耗的、高可靠性的、可变粒度的内存访存容错解决方案。

本发明第一方面提供一种消息式内存模组的访存装置，所述内存模组包括（M+2 )块动态随机存取存储器 DRAM, M等于 2的 m次方， m为正整数；每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇 SCBC , 全部 DRAM中存储的可在同一个读写周期内访存的数据的集合形成一个内存行；

所述装置包括：

读写模块，用于将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（M+2 ) 个 DRAM;

处理模块，用于对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC计算一组纠错码；

所述读写模块，还用于将对一个内存行计算得到的检错码存储在该内存行的第（ M+2 )个 DRAM中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 Z （M+1 ), 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

在第一种可能的实现方式中，所述处理模块，还用于在收到读访存请求时，指示所述读写模块从当前的内存行中读取需要的 SCBC以及对应的检错码，根据所述检错码对读取到的 SCBC进行校验，判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC , 对发生的错误的 SCBC进行恢复。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述处理模块，还用于在收到写访存请求时，首先判断待写入的第二 SCBC的个数 X是否小于等于 M/2; 若 X小于等于 M/2, 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；若 X大于 M/2, 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的 ( M-X )个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据（M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM 中。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述处理模块，还用于在判断有第一 SCBC错误时，获取发生错误的第一 SCBC 的个数，若有且仅有一个第一 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的第一 SCBC进行恢复。

本发明第二方面提供一种消息式内存模组的访存方法，所述内存模组包括（M+2 )块动态随机存取存储器 DRAM, M等于 2的 m次方， m为正整数；每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇 SCBC , 全部 DRAM中存储的可在同一个读写周期内访存的数据的集合形成一个内存行；

所述方法包括：

将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（M+2 )个 DRAM;

对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC计算一组纠错码；

将对一个内存行计算得到的检错码存储在该内存行的第（ M+2 )个 DRAM 中，将对一个内存行计算得到的糾错码存储在该内存行的第 Z个 DRAM中， Z 为正整数且 1 Z ( M+1 ), 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

在第一种可能的实现方式中，所述方法还包括：在收到读访存请求时，从当前的内存行中读取需要的 SCBC以及对应的检错码，根据所述检错码对读取到的 SCBC进行校验，判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的 SCBC进行恢复。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述方法还包括：在收到写访存请求时，判断待写入的第二 SCBC 的个数 X是否小于等于 M/2; 若 X小于等于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；若 X大于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的 ( M-X ) 个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据（M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述的判断是否有 SCBC错误之后还包括：获取发生错误的第一 SCBC的个数，若有且仅有一个第一 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC , 对发生的错误的第一 SCBC进行恢复。

本发明实施例技术方案以 SCBC为基本读写单位进行细粒度编码保护，但对于 SCBC的大小没有特别限定，即，对 DRAM内存芯片的位宽和突发长度不做限定，因此可以支持可变粒度访存，并且，利用独立的 DRAM存储检错码可以对不同访存粒度实现检错，检错码配合糾错码可以实现对单个 DRAM中任意多位错误进行纠错，是一种低功耗高可靠性的解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例提供的消息式内存模组的访存装置的示意图；图 2是本发明实施例提供的消息式内存模组的访存装置的原理图；图 3是本发明实施例提供的消息式内存模组的访存方法的流程图；图 4a和 4b是本发明实施例提供的内存控制系统的示意图。

具体实施方式

本发明实施例提供一种消息式内存模组的访存方法，以提供一种低功耗的、高可靠性的、可变粒度的内存访存容错解决方案。本发明实施例还提供相应的装置。以下分别进行详细说明。实施例一、

请参考图 1 , 本发明实施例提供一种消息式内存模组的访存装置。该装置可以部署在内存模组的外围控制电路中，也可以部署在内存控制器中；内存控制器则可以集成中央处理器（CentralProcessingUnit, CPU ) 中或者集成在计算机主板上。

所说的内存模组具体可以是 DIMM, 该 DIMM包括多个 DRAM。本文中假定 DRAM的位宽为 N位， N等于 2的 n次方， n为正整数； DRAM的突发长度（ Burst Length, BL )为 Q, Q为正整数，优选 Q等于 2的若干次方，例如等于 4或 8; 假定 DIMM包括（ M+2 )块 DRAM, ( M x N )即是整个内存模组的位宽，由于计算机内存模组位宽（M x N )—般是 2的若干次方，例如通常是 32或 64, 因此， M也是 2的若干次方，可以记 M等于 2的 m次方， m为正整数；在计算机内存模组的位宽已确定时，可以根据单个 DRAM的位宽确定所需要的 DRAM的个数。

本实施例中，每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇（ Single Chip Burst Cluster, SCBC ) , 每个 SCBC包括（ N x Q ) bit数据，全部 DRAM中存储的可在同一个读写周期内访存的数据即 SCBC的集合形成一个内存行。每一块 DRAM也可以视为一个内存列。换句话说，一个内存行表示一个读写周期，一个内存列表示一块 DRAM。

所说的访存装置 100包括读写模块 110和处理模块 120; 其中，

所述读写模块 110,用于将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的 DRAM不包括第（M+2 ) 个 DRAM; —个读写周期内待存储的 SCBC的个数不超过 M;

所述处理模块 120,用于对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC计算一组纠错码；

所述读写模块 no,还用于将对一个内存行计算得到的检错码存储在该内存行的第（M+2 )个 DRAM中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 Z M+1 ) , 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

可选的，所述处理模块 120, 还用于在收到读访存请求时，指示所述读写模块从当前的内存行中读取需要的 SCBC以及对应的检错码，根据所述检错码对读取到的 SCBC进行校验，判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC,对发生的错误的 SCBC进行恢复。若有两个或者两个以上 SCBC发生错误，则处理模块 120向主控设备例如内存控制器报告不可恢复错误。

可选的，所述处理模块 120,还用于首先判断待写入的第二 SCBC的个数 X是否小于等于 M/2; 若 X小于等于 M/2, 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC 的 X 个 DRAM中存储的 X个第一 SCBC,根据所述第一检错码判断是否有第一 SCBC 错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；若 X大于 M/2, 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的 ( M-X )个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据 ( M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中。

进一步的，所述处理模块 120, 还用于在判断有第一 SCBC错误时，获取发生错误的第一 SCBC的个数，若有且仅有一个第一 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的第一 SCBC进行恢复。在有两个以上 DRAM中的 SCBC发生错误时，所述处理模块 120向主控设备例如内存控制器报告不可恢复错误。

上述的第一 SCBC、第一纠错码和第一检错码可以理解为当前存储的 SCBC, 纠错码和检错码；第二 SCBC、第二纠错码和第二检错码则是将要重新写入的 SCBC、纠错码和检错码，这些数据将会覆盖上述的第一 SCBC、第一纠错码和第一检错码。

一般的，目前计算机系统的内存模组通常是 64位，假设选用位宽 N定于 8的 DRAM,则用于存储 SCBC的 DRAM的数量应为 64除以 8等于 8。下面，以 M和 N均等于 8为例，对本发明实施例装置 #文进一步详细说明：

当 M和 N均等于 8时，所述内存模组的数据编码结构如图 2所示，图中 10列分别表示第一至第（M+2 ) DRAM。其中，第（ M+2 ) DRAM即图中最后一列用于存放检错码，第一至第（ M+1 ) DRAM中的一块 DRAM用于存放纠错码，另外八块 DRAM用于存放 SCBC。假设每块 DRAM的突发长度也是 8位，则每个 SCBC包括 8bit*8=64bit数据。图中，用 Data ( D )表示访存数据，用 Parity ( P )表示纠错码，用 Checksum ( C )表示检错码。同一个内存行中存储的 SCBC分别用 D0~D7表示，连续（M+1 )个内存行中存储的纠错码分别用 P0~P8表示，连续（M+1 )个内存行中存储的检错码分别用 C0~C8 表示。广义上，所述的访存数据，纠错码和检错码都是 SCBC, 但在本文中，所述 SCBC专指所述的访存数据（ D ) 。

本实施例中的容错编码分为检错码和糾错码两部分，其中，检错码部分的计算包括：对同一内存行上的 8个 SCBC依次计算校验和，校验和的算法可以釆用 8位模 2加法或 8位二进制反码和，每个 SCBC计算得到 8位校验码，同一行的 8个 SCBC计算得到 64位校验码，存储在专用的第（ M+2 )DRAM 芯片的第一内存行对应位置，作为检错码；纠错码部分的计算包括：对同一内存行中 8个 SCBC的对应位进行异或运算，运算产生 64位奇偶校验码，即所述纠错码 P, 如 D0~D7对应位异或得到纠错码 P0存储在第 ( M+1 ) DRAM 的同一行；需要指出，连续多个内存行的纠错码分别存储在不同的 DRAM, 呈条带状分布于第一至第（M+1 ) DRAM的内存数据区用以纠错。

纠错码呈条带状分布设计的原因在于：如果所有内存行的纠错码 P都保存在同一个 DRAM芯片上，当连续写数据时都需要更新该芯片上相对应位置的纠错码 P, 会使该 DRAM芯片成为访问热点，导致两个写操作之间延迟增加，更新性能下降；并且，写入纠错码 P时，需要预读整个内存行上存储的全部数据，会进一步导致性能下降；而通过使糾错码呈条带状分布，可以解决上述问题。

容错编码详细的配置参数如表 1所示。

表 1

针对不同的访存请求，本实施例装置会执行读访存处理和写访存处理以及错误恢复处理这三种处理时序 , 以下分别详细说明：

Α、读访存处理

当读访存请求到来，处理模块需要根据读取粒度激活响应的若干个 DRAM芯片，读取 SCBC数据，同时，一并读取当前内存行的检错码，对读取的 SCBC数据进行校验，如果没有 SCBC错误则继续进行读取，将已读取的数据上传；如果有且仅有一个 DRAM芯片上有 SCBC错误则进行错误恢复处理；如果多个 DRAM芯片上有 SCBC错误则向主控设备报告不可修复错误。所述的访存粒度是指需要访存的 SCBC数据的个数。

例如：读访存请求 RD( D0,D1,D2 )请求读取 D0-D2共计 3个 SCBC 24byte 数据，需要激活 4个 DRAM芯片，读取 D0-D2以及 CO, 根据 CO的前 3个字节的检错码校验 D0-D2，如果有任意一个 SCBC出错则进入错误恢复处理。

B、写访存处理

当写访存请求到来，处理模块首先判断该写访存请求的访存粒度。所述的访存粒度是指需要访存的 SCBC数据的个数。

如果该写访存请求的访存粒度，即待写入的 SCBC数据的个数 X小于或等于 M/2, 则读取该写访存请求将要写入数据位置的原 SCBC数据，一并读取该行的原纠错码以及原检错码，利用原检错码校验读出的原 SCBC数据，如果有且只有一个 SCBC错误则进行错误恢复处理，如果没有错误则将原纠错码 p与读到的原 SCBC数据以及将要写入的新 SCBC数据进行异或后即得到更新后的新纠错码 Ρ' , 对写入的新 SCBC数据同时计算新检错码 C' , 指示所述读写模块将新 SCBC和新纠错码以及新检错码写入对应的 DRAM中的对应位置。

例如：收到写访存请求 WR ( D0，,D1，,D2，），请求在原 DO, Dl , D2的位置写入 DO' , Dl' , D2'， 3个 SCBC共计 24byte数据，判断写入粒度 3个 SCBC小于总共 8个 SCBC的一半，则首先读取原数据 DO, Dl , D2, 以及同一行的校验码 P0 及 CO , 根据 CO 进行校验，无误则计算新的 P0'=P0^AD0^AD1^AD2^AD0^,AD1^,AD2' , 计算 DO' , Dl' , D2'的校验和更新 CO的到 CO' , 最后一并写入 D0，， Dl' , D2，， ΡΟ' , C0，。

另一种情况，如果该写访存请求的访存粒度，即待写入的 SCBC数据的个数 X大于 M/2, 则读取在本次写访存中该内存行不应被修改的数据 SCBC, 一并读取该行的纠错码 P以及检错码 C, 经过检错码 C校验读出的原数据如果有错误则进入错误恢复处理，无误则将要写入的数据与刚读出本内存行不应更改的数据进行异或得到更新后的纠错码 P' , 对写入的数据同时计算检错码写入对应 DRAM的对应位置。

例如：收到写访存请求 WR ( D0，,Dr,D2，,D3，,D4，,D5，），请求在原 D0-D5 的位置写入 D0'-D5'， 6个 SCBC共计 48byte数据，判断写入粒度 6个 SCBC 大于总共 8个 SCBC的一半，则首先读取该行中写后不更改的数据 D6, D7 , 以及同一行的校验码 P0及 CO,根据 CO校验 D6与 D7,无误则计算新的 P0，= D0，^AD1，^AD2，^AD3，^AD4，^AD5，^AD6^AD7 ,计算 D0，-D5，的校验和更新 CO得到 CO' , 最后一并写入 D0'-D5，， ΡΟ' , C0'。

综上，写访存之前，需要一次小于等于一半位宽的数据读取，之后进行纠错码与检错码的更新，最后再一并写入。其中，所述的原 SCBC数据和原纠错码以及原检错码是指内存模组中原先存储的 SCBC数据和纠错码以及检错码，即，上文中所述的第一 SCBC数据和第一纠错码以及第一检错码；所述的新 SCBC数据和新纠错码以及新检错码是更新后的 SCBC数据和纠错码以及检错码，即，上文中所述的第二 SCBC数据和第二纠错码以及第二检错码。

C、错误恢复处理

当检错码校验数据出错后，还要获取出现错误的 SCBC 的个数，如果同时多位错出只现在一个 SCBC中，即同一时间单个 DRAM芯片出错的情况，本实施例装置进行错误恢复处理。首先，读取出错的 SCBC所在内存行的所有数据，包括未出错的 SCBC, 检错码 C, 纠错码 P, 根据检错码 C校验读出的其他同行数据，无误则将所有其他正确的 SCBC与纠错码 P进行异或恢复得到整块正确数据，最后重新写入正确数据。

例如，如果 DO 出错，需要恢复，首先读取同一内存行的 D1-D7, P0, CO, 用检错码 CO校验 D1-D7 , 如果还有其他数据 SCBC有错，则向设备报告不可恢复错误，如果 D1-D7 正确，则计算 D0'=D1^AD2^AD3^AD4^AD5^AD6^AD7^AP0 ,得到正确的 D0，，最后写入正确数据 D0，，至此恢复结束。

本发明实施例技术方案的具体配置具有一定的灵活性，可以根据不同的体系结构设计通过调整使用芯片的位宽与芯片的突发长度以及突发长度簇的组数来设置编码粒度的大小。对于更细粒度的访存容错编码设计可以使用 x4 位宽 4次突发长度的设计，使 SCBC块容量缩减为 16位。对于更大粒度的访存容错编码设计可以使用 xl6位宽配合两组 8次突发长度，用两个读写周期的时间一次最少读取 256位的数据。一些实施方式中，也可以使用 x8位宽 4 次突发长度的设计，使 SCBC块容量缩减为 32位，或者可以使用 xl6位宽 8 次突发长度的设计，使 SCBC块容量缩减为 128位，或者是其它方式。其它实施方式中，位宽和突发长度还可以随意选择其它组合，其中，位宽一般为 2 的若干次方。

以上，本发明实施例提供了一种消息式内存模组的访存装置，该装置以 SCBC为基本读写单位进行细粒度编码保护，但对于 SCBC的大小没有特别限定，即，对 DRAM内存芯片的位宽和突发长度不做限定，因此可以支持可变粒度访存，支持可变数量的 DRAM访存，并且，利用独立的 DRAM存储检错码可以对不同访存粒度实现检错，检错码配合糾错码可以实现对单个 DRAM中任意多位错误进行纠错，是一种低功耗高可靠性的解决方案。

本实施例技术方案可实现任意单芯片多错误容错，相比 chipkill技术每次读写激活芯片数下降 44~83% ( 16~30/36 ) ，激活芯片数据下降意味着动态功耗同比下降，本专利以更低的功耗开销实现 Chipkill级别的容错保护，并且没有 Chipkill实现的芯片位宽限制，更易于扩容。除此之外，本专利基于消息式内存的设计，实现了细粒度的保护，容错粒度可变，为上层体系结构设计提供了更多优化空间。

实施例二、

请参考图 3 , 本发明实施例还提供一种消息式内存模组的访存方法。该方法的执行主体是内存模组的外围控制电路或者内存控制器，具体是所述外围控制电路或者内存控制器中部署的如实施例一所述的访存装置。所述内存模组包括（M+2 )块动态随机存取存储器（DRAM ) , M等于 2的 m次方， m 为正整数；每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇 SCBC, 全部 DRAM中存储的可在同一个读写周期内访存的数据的集合形成一个内存行。

所述方法包括：

210、将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（M+2 )个 DRAM;

220、对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC计算一组纠错码；

230、将对一个内存行计算得到的检错码存储在该内存行的第（M+2 )个 DRAM 中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z 个 DRAM中， Z为正整数且 1 Z ( M+1 ) , 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

可选的，所述方法还包括：

在收到读访存请求时，从当前的内存行中读取需要的 SCBC 以及对应的检错码，对读取到的 SCBC进行校验，根据所述检错码判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的 SCBC进行恢复。

可选的，所述方法还包括：

在收到写访存请求时，判断待写入的第二 SCBC的个数 X是否小于等于

M/2;

若 X小于等于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC,根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；

若 X大于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的（M-X )个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据 ( M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中。

可选的，有第一 SCBC错误时，所述方法还包括：

获取发生错误的第一 SCBC的个数，若有且仅有一个第一 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的第一 SCBC进行恢复。

以上，本发明实施例提供了一种消息式内存模组的访存方法，该方法以 SCBC为基本读写单位进行细粒度编码保护，但对于 SCBC的大小没有特别限定，即，对 DRAM内存芯片的位宽和突发长度不做限定，因此可以支持可变粒度访存，支持可变数量的 DRAM访存，并且，利用独立的 DRAM存储检错码可以对不同访存粒度实现检错，检错码配合糾错码可以实现对单个 DRAM中任意多位错误进行纠错，是一种低功耗高可靠性的解决方案。

实施例三、

本发明实施例还提供一种内存控制系统。

一种实施方式中，如图 4a所示，该系统包括消息式内存模组 310, 所述内存模组 310包括外围控制电路 3101和（M+2 )块 DRAM3102;

其中， M等于 2的 m次方， m为正整数；每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇 SCBC, 全部 DRAM中存储的可在同一个读写周期内访存的数据的集合形成一个内存行。所述内存控制器可以集成在计算机主板上或者集成在计算机的 CPU中。

所述外围控制电路执行以下步骤：将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（ M+2 )个 DRAM; 对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC 计算一组糾错码；将对一个内存行计算得到的检错码存储在该内存行的第 ( M+2 )个 DRAM中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 < Z < ( M+1 ) , 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

可选的，所述外围控制电路还执行以下步骤：

在收到写访存请求时，判断待写入的第二 SCBC的个数 X是否小于等于 M/2; 若 X小于等于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC,根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；若 X大于 M/2, 则读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的 ( M-X )个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据 ( M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中。

其中，有第一 SCBC错误时，还获取发生错误的第一 SCBC的个数，若有且仅有一个第一 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC,对发生的错误的第一 SCBC进行恢复。

另一种实施方式中，如图 4b所示，该系统包括消息式内存模组 310和内存控制器 320 , 所述内存模组 310包括（ M+2 )块 DRAM3102；

所述内存控制器执行以下步骤：

将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（ M+2 )个 DRAM; 对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC 计算一组糾错码；将对一个内存行计算得到的检错码存储在该内存行的第 ( M+2 )个 DRAM中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 < Z < ( M+1 ) , 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

可选的，所述内存控制器还执行以下步骤：

以上，本发明实施例提供了一种内存控制系统，该内存模组以 SCBC为基本读写单位进行细粒度编码保护，但对于 SCBC的大小没有特别限定，即，对 DRAM内存芯片的位宽和突发长度不做限定，因此可以支持可变粒度访存，支持可变数量的 DRAM访存，并且，利用独立的 DRAM存储检错码可以对不同访存粒度实现检错，检错码配合纠错码可以实现对单个 DRAM中任意多位错误进行纠错，是一种低功耗高可靠性的解决方案。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以釆用硬件的形式实现，也可以釆用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor )执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ROM, Read-Only Memory )、随机存取存储器（RAM, Random Access Memory ) 、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤可以通过硬件来完成，也可以通过程序指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机读取存储器、磁盘或光盘等。

以上对本发明实施例所提供的一种消息式内存模组的访存方法和装置进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

权利要求书

1、一种消息式内存模组的访存装置，其特征在于：

所述内存模组包括（M+2 )块动态随机存取存储器 DRAM, M等于 2的 m次方， m为正整数；每块 DRAM中存储的可在一个读写周期内访存的数据称为单芯片突发簇 SCBC, 全部 DRAM中存储的可在同一个读写周期内访存的数据的集合形成一个内存行；

所述装置包括：

读写模块，用于将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（M+2 )个 DRAM; 处理模块，用于对一个内存行中的每个 SCBC分别计算一组检错码，对一个内存行中的全部 SCBC计算一组纠错码；

所述读写模块，还用于将对一个内存行计算得到的检错码存储在该内存行的第（M+2 )个 DRAM中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 Z （M+1 ), 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

2、根据权利要求 1所述的装置，其特征在于：

所述处理模块，还用于在收到读访存请求时，指示所述读写模块从当前的内存行中读取需要的 SCBC以及对应的检错码，根据所述检错码对读取到的 SCBC进行校验，判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的 SCBC进行恢复。

3、根据权利要求 1所述的装置，其特征在于：

所述处理模块，还用于在收到写访存请求时，首先判断待写入的第二 SCBC 的个数 X是否小于等于 M/2；

若 X小于等于 M/2 , 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；

若 X大于 M/2 , 则指示所述读写模块读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的（M-X ) 个 DRAM中存储的第一 SCBC,根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据 ( M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，指示所述读写模块将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中。

4、根据权利要求 3所述的装置，其特征在于：

所述处理模块，还用于在判断有第一 SCBC错误时，获取发生错误的第一 SCBC的个数，若有且仅有一个第一 SCBC发生错误，则指示所述读取模块读取该内存行的所有数据，根据该内存行中的纠错码与其它未发生错误的 SCBC, 对发生的错误的第一 SCBC进行恢复。

5、一种消息式内存模组的访存方法，其特征在于：

所述方法包括：

将当前读写周期内待存储的 SCBC存储到对应的 DRAM中且位于当前内存行中，用于存储 SCBC的所述 DRAM不包括第（ M+2 )个 DRAM;

将对一个内存行计算得到的检错码存储在该内存行的第（M+2 )个 DRAM 中，将对一个内存行计算得到的纠错码存储在该内存行的第 Z个 DRAM中， Z为正整数且 1 Z （M+1 ), 连续（M+1 )个内存行中的纠错码分别存储在不同的 DRAM中。

6、根据权利要求 5所述的方法，其特征在于，还包括：

在收到读访存请求时，从当前的内存行中读取需要的 SCBC以及对应的检错码，根据所述检错码对读取到的 SCBC进行校验，判断是否有 SCBC错误，在判断有 SCBC错误时，获取发生错误的 SCBC的个数，若有且仅有一个 SCBC发生错误，则读取该内存行的所有数据，根据该内存行中的糾错码与其它未发生错误的 SCBC, 对发生的错误的 SCBC进行恢复。

7、根据权利要求 5所述的方法，其特征在于，还包括：

在收到写访存请求时，判断待写入的第二 SCBC的个数 X是否小于等于 M/2; 若 X小于等于 M/2 , 则读取当前的内存行中存储的第一检错码和第一纠错码以及待写入第二 SCBC的 X个 DRAM中存储的 X个第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC 的第二检错码，以及根据所述第一纠错码和所述 X个第一 SCBC以及所述 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM中；

若 X大于 M/2 , 则读取当前的内存行中存储的第一检错码和第一纠错码以及不应被写入第二 SCBC的（M-X )个 DRAM中存储的第一 SCBC, 根据所述第一检错码判断是否有第一 SCBC错误，没有第一 SCBC错误时，计算所述 X个第二 SCBC的第二检错码，以及根据（M-X )个第一 SCBC和 X个第二 SCBC计算第二纠错码，将所述 X个第二 SCBC和第二纠错码以及第二检错码写入对应的 DRAM 中。

8、根据权利要求 7所述的方法，其特征在于，所述的判断是否有 SCBC错误之后还包括：