WO2010045859A1

WO2010045859A1 - 内容节点双向聚类的系统、装置及方法

Info

Publication number: WO2010045859A1
Application number: PCT/CN2009/074497
Authority: WO
Inventors: 李金龙; 沈静波; 刘姗姗; 张进; 王铁英
Original assignee: 华为技术有限公司; 中国科学技术大学
Priority date: 2008-10-24
Filing date: 2009-10-19
Publication date: 2010-04-29
Also published as: CN101729387A

Description

内容节点双向聚类的系统、装置及方法

本申请要求于 2008年 10月 24日提交中国专利局、申请号为 200810218623.0、发明名称为"内容节点双向聚类的系统、装置及方法"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及通信领域，尤其涉及一种内容节点双向聚类的系统、装置及方法。

发明背景

对等网络 P2P (Peer-to-Peer)提供了一种分布式内容共享的有效途径，可以根据所需内容的关键属性，找到所需的内容，并可以获得拥有所需内容的一组节点。但随着用户的不断增加，网络中的节点数、内容数以及内容的副本数也在不断增加，内容査找和副本管理的复杂度也在加大。目前主要通过降低内容査找的通信量，缩短内容査找所需的时间，来优化分布式网络的拓扑结构。比如基于 DHT (Distributed Hash Table, 分布式哈希表）结构的 Chord、 Pasti 等 P2P网络结构，还有基于混合结构的 P2P网络，如 SWOP ( Small-world overlay P2P networks ) , 这些模型都通过构建额外的路由表优化拓扑，提高内容査找的效率。

例如，现有方案一中，基于语义或本体论的模型首先通过语义或本体论的方式对内容或兴趣进行划分，构建成一个语义网络或一个本体树，预定义两点之间的关联和边的权重，或者直接使用已有的词典或本体树，并将这些知识存储在所有的节点上或放置在一个所有节点都可以査询的位置。这样每个节点都可以根据这些知识对内容和节点的兴趣进行描述和关联，并计算节点之间的关联度，然后根据兴趣形成聚类。在这种聚类结构中，由于关联的内容一般位于相同的聚类之内，所以这种方式一定程度可以提高内容査找的效率，特别是关联内容査找的效率。

又如，现有方案二中，基于行为或历史信息的方式使用用户的行为或历史记录进行分析，获取内容和节点之间的关联，在此基础上形成聚类，加速査找。

在实现本发明的过程中，发明人发现现有技术至少存在以下缺陷：现有的方案虽然在一定程度上提高了内容査找的效率，但并没有充分利用用户之间以及内容之间的固有关联，在动态变化的网络和不断更新的内容下，内容的査找效率依然不高，也无法适应多副本的应用环境。发明内容

有鉴于此，有必要提供一种内容节点双向聚类的系统、装置及方法，以便在当前网络规模不断增加的情况下，仍能进行高效的内容査询、关联列表更新或内容更新。

本发明实施例提供的一种内容节点双向聚类系统，包括：节点层和内容层；

所述节点层中，请求同一内容的节点之间通过节点对内容的査询形成节点松散聚类；所述内容层中，被同一个节点请求的内容之间根据节点的需求形成内容松散聚类。

本发明实施例提供的一种利用上述系统査询获取内容的方法，包括：

请求节点向关联列表中的节点发送对某内容的第一査询请求，以使得接收所述第一査询请求的第一目标节点根据所述第一査询请求进行处理；所述关联列表中存储有和所述请求节点当前关联内容相似度最高的 Nm个节点信息；

如果所述请求节点接收到所述第一目标节点反馈査询成功，则为所述査询的内容建立下载地址列表并下载所述査询的内容；

如果所述请求节点接收到所述第一目标节点反馈査询失败，则向自身当前邻居中距离所述第一目标节点键值最近的节点发送第二査询请求。

本发明实施例提供的一种利用上述系统进行关联列表更新的方法，包括：

获取关联列表中某节点当前的内容列表；所述关联列表中存储有和所述请求节点当前关联内容相似度最高的 Nm个节点信息；

根据所述获取的内容列表和所述请求节点的内容列表计算请求节点与所述关联列表中某节点的关联内容相似度；

根据计算得到的关联内容相似度更新请求节点的关联列表。

本发明实施例提供的一种利用上述系统进行内容更新的方法，包括：

接收请求内容更新的节点向产生和发布内容的节点发送的更新请求；

所述产生和发布内容的节点对接收的更新请求进行审核，并根据审核结果确定接受更新后，进行更新处理；

所述产生和发布内容的节点在接受更新后发布更新结果和新的版本号。

本发明实施例提供的一种査询获取内容的系统，包括：

请求节点，用于向关联列表中的第一目标节点发送第一査询请求，在接收到所述第一査询请求査询失败的反馈时向距离第一目标节点键值最近的第二目标节点发送第二査询请求，以及根据所述第一或第二目标节点的反馈为査询的内容建立下载地址列表并下载所述内容；

目标节点，包括第一目标节点或第二目标节点，分别用于接收所述第一或第二査询请求，并根据所述査询请求确定拥有满足査询的内容时，向所述请求节点返回可用下载地址。

本发明实施例提供的一种关联列表更新的装置，包括：

获取单元，用于获取关联列表中某节点当前的内容列表；

计算单元，用于根据所述获取单元获取的内容列表和请求节点的内容列表计算请求节点与所述关联列表中某节点的关联内容相似度；

更新单元，用于根据计算得到的关联内容相似度更新请求节点的关联列表。

通过本发明实施例提供的技术方案，在当前网络规模不断增加的情况下，通过第一査询提高关联内容的査询效率，增加返回的满足査询的节点数；通过第二査询提高普通内容的査询效率，并保证在第一査询失败时至少能返回一个满足査询的节点，这样即使用户的关联内容集处于动态变化之中，也能够迅速的找到符合査询条件的节点。此外，能够适合当前多内容副本的应用环境，能在动态变化的网络和不断更新的内容下，保证副本的一致性和有效性。附图简要说明图 1是本发明实施例一一种内容节点双向聚类的系统的原理示意图；

图 2是本发明实施例一中一个内容的关联节点之间关系示意图；

图 3是本发明实施例一中关联列表的数据结构示意图；

图 4是本发明实施例一中节点的数据结构示意图；

图 5是本发明实施例二一种査询获取内容的方法的具体流程示意图；

图 6是本发明实施例二中査询请求的数据结构示意图；

图 7是本发明实施例三一种关联列表更新的方法的流程示意图；

图 8是本发明实施例三中获取当前内容列表的具体流程示意图；

图 9是本发明实施例四一种内容更新的方法的流程示意图；

图 10是本发明实施例五一种査询获取内容的系统的结构示意图；

图 11是本发明实施例六一种关联列表更新的装置的结构示意图。

实施本发明的方式

在实际网络中，用户的需求是有趋向性的，用户在一段时间内频繁需求的内容可以视为用户在该时刻的关联内容集，也就是节点的兴趣集。这些内容彼此之间会存在相似性或其他的关联，可以视为一个内容间的松散聚类。而同一内容也会被需求它的用户缓存，从而在网络中拥有很多副本。存储了这些副本的用户由于请求了同一内容，所以他们的关联内容集在不同程度上有所交叉，从而在这些用户之间形成了关联，可以视为一个节点间的松散聚类。这两种聚类分别描述了内容之间的关联和用户之间的关联，而内容和用户之间的需求关系则在这两种松散聚类之间建立了连接。

内容存储在节点之上，内容之间的松散聚类客观上形成了存储内容节点之间的松散聚类，这些节点之间的关联是建立在关联内容集相似的基础上。因此可以利用这种关联提高内容査找的效率。另一方面，节点间的松散聚类建立在对同一内容的需求之上，这个聚类可以被用来对内容的副本进行管理，在尽量低的通信量之下保证内容的更新发布以及副本的有效性和一致性。

以下结合附图对本发明实施例进行详细描述。

如图 1所示，本发明实施例一内容节点双向聚类系统包括节点层和内容层，所述节点层中，请求同一内容的节点之间通过节点对内容的査询形成节点松散聚类；所述内容层中，被同一个节点请求的内容之间根据节点的需求形成内容松散聚类。例如，节点 Pl， P2， P3 , P4， P6形成了针对内容 A的节点松散聚类；而内容 A， D， E则是由节点 P4的需求而形成的内容松散聚类。

节点之间采用 CAN (Content- Addressable Network, 内容寻址网络）路由构建了 d维空间；而内容则根据 DHT机制分配到键值最接近的节点之上。

每个内容通过 DHT 映射到一个键值最接近的节点上，这个节点称为该内容的 CAN负责节点

(CAN Peer: CP), 如图 1中的节点 PI是内容 A的 CP。 CP本身并不负责内容的管理和更新，而是作为一个备份节点保存内容的信息，并作为査询时的索引节点。

每个内容可能会被其他节点需要，这些节点对内容进行访问，存储了内容的副本，并可能对内容进行操作或更新，这些节点称为该内容的复制节点（Replica Peer: RP), 如图 1中，节点 P2、 P3、 P4、 P6都是内容 A的 RP。 RP之间通过建立层次结构完成对内容以及副本的维护和更新。 RP分为三类：虚拟服务器（Virtual Server: VS)、强一致节点（Consistent Replica Peer: CRP), 弱一致节点 ( Inconsistent Replica Peer: IRP )。

VS是产生和发布内容的节点，负责对内容进行更新并发布。 VS和 CP保持双向连接，并周期性的探测存活。

CRP是和 VS保持强一致的节点， CRP上存储的内容副本一直保持最新的版本，在内容更新后，

CRP会接收到 VS发布的更新信息。 CRP和 VS之间保持双向连接，并保持定时器，在一定周期内若没有交互信息，则会主动发送信息探测存活。

IRP是和 VS保持弱一致的节点， IRP上存储的副本可能是陈旧的版本，在内容发生更新后，不会接收到 VS发布的更新信息。在 IRP使用内容前，需要先向 VS验证版本信息来保持内容的一致性。

本发明实施例根据节点对内容的需求以及历史信息，在内容之间以及节点之间建立了两种松散聚类结构，并利用节点对内容的需求在两种松散聚类之间建立了连接，从而形成了内容节点的双向聚类拓扑结构。在这个双向松散聚类拓扑下，具有相似关联内容集的节点之间以较大的概率建立连接。本发明实施例通过利用这些连接提高了内容査找的能力范围和响应速度，特别是关联内容的査询效率。此外，本发明实施例还可通过利用请求同一个内容的节点之间形成的松散聚类对副本进行管理，在内容更新的情况下保证了副本的一致性和有效性。

同一内容的关联节点之间的关系如图 2所示，节点根据自身的需求和性能决定是成为 CRP还是 IRP。 CP和 VS之间、 VS和 CRP之间的连接是双向的， VS和 IRP之间的连接是单向的，从 IRP指向 VS。此外，网络中还随机存在着若干在査询路由时建立的由 IRP或 CRP发起的指向 CRP的单向连接。这些连接都是远程连接。

由于 VS、 CRP, IRP这三种节点存储内容或其副本这个行为都是建立在节点本身对这个内容的需求之上，所以这些节点的关联内容集包含了这个内容，即它们的兴趣具有相似性。

可以使用节点上存储的内容作为节点的关联内容集，用两个节点共同存储的内容数表示这两个节点当前的关联内容相似度，即：

节点的关联内容相似度=两个节点重复存储的内容个数（ 1 )

每个节点保存一个关联列表，存储了和自己当前关联内容相似度最高的 ^^个节点。在关联列表中，对于每个节点都记载了该节点的标识符、 IP地址、关联内容相似度、该节点关联内容相似度最近一次更新的时间、该节点拥有的内容总数、最近一段时间通过该节点进行路由成功召回结果的次数以及节点的综合性能。关联列表的数据结构如图 3所示。

关联列表中节点的综合性能和节点当前的关联内容相似度、拥有的内容总数、以及最近一段时间满足査询的次数相关。节点当前的关联内容相似度越高、拥有的内容数越多、最近一段时间满足査询的次数越多，则该节点在以后的査询中能够返回所需内容的可能性越大，则该节点当前的综合性能越好。

可以使用下列公式来计算节点的综合性能：

^_χ)=αΝ₅ (Ρ_χ) + βΝ_τ (Ρ_χ) +χΝ_κ (Ρ_χ) _m 其中： ^Pf(P^)是节点 Ρχ的综合性能，是节点 Ρχ和节点自身的关联内容相似度（由公式（ 1 )可得)， ^ND是节点 Px拥有的内容数， ^ND是节点 Px在最近一段时间满足査询的次数。 a、 β、是人工设置的常量。应当理解，如果调整上述三个因素（节点关联内容相似度、拥有的内容数，以及最近一段时间满足査询的次数）之间的权重比例，或选择其中一到两个因素使用，作为综合性能计算公式，原理仍是相同，仍然属于本发明的保护范围。

对任意普通节点而言，只要它所负责的键值空间内有内容存在，它即作为 CP 负责这些内容。当它需要其他内容并需要持续保持这些内容时，它将成为内容的 RP。所以，一个普通节点对于相关内容有且仅有 CP、 VS、 CRP、 IRP这些身份中的一个。

普通节点中存储的信息可以如图 4所示，包括：自身的键值、键值空间范围、 CAN路由表、需求内容表和关联列表，其中：

CAN路由表由 CAN协议产生，记录所有与本节点逻辑邻接的节点的键值和地址信息；需求内容表记录了该节点所需的所有内容的键值，内容的具体信息，该内容所在的 CP和 VS的键值和地址信息；

关联列表存储了和自己关联内容相似度最高的 N_m个节点的相关属性。

本发明实施例二：

由实施例一可知，节点不仅在 CAN路由表中存储了 CAN邻居节点的信息，还因为节点对内容的需求而在需求内容列表中存储了一些远处节点的信息，此外在关联列表中还存储了一些和自身关联内容相似度较高的节点。

节点对内容的査询可以分为 3类：

1、一个节点査询一个指定内容；

2、一个节点査询两个相互关联的内容；

3、两个节点査询同一个内容；

本实施例利用实施例一所述的内容节点双向聚类系统，采用"二元査询"实现对内容的査找和获取。二元査询包括：（1 )第一査询：即向位于关联列表中的节点并行的发送"一步"査询作为"关联査询"，用于加速关联内容査询效率，增加返回的满足査询的节点数，从而以较高的概率实现了第 2类、第 3类査询；（2)第二査询：即通过将远程连接和 CAN路由相结合作为小世界模型中的"捷径"，采用"贪心査询"，提高普通内容的査询效率，从而保证了第 1类査询的高效性，并保证在关联査询失败时至少能返回一个满足査询的节点。

具体的，关联査询是并发的向关联列表中的若干个节点发送査询信息，关联列表中的节点在接收到消息之后会检索自身存储的内容：如果有满足査询的内容则返回；如果没有，则直接丢弃査询信息，而不会进一步转发。由于关联列表中的节点和査询节点自身在关联内容集上具有相似性，所以关联列表中的节点会以较高概率拥有满足査询的内容，通过査询关联列表中的节点可以加速关联内容的査询速度，并可以在较短的时间内返回尽量多的满足査询请求的节点。而在关联査询失败时，不继续转发信息査询，则可以避免査询信息在网络中呈指数增长。此外，由于关联列表中节点的关联列表所存储的节点和査询节点的关联内容相似度会进一步降低，再继续转发査询信息，成功的概率只会进一步降低，所以关联査询信息在査询失败的情况下不会被转发。

贪心査询是从 CAN路由表中的节点信息以及需求列表中的节点信息中，选择节点键值距离目标键值最近的节点发送贪心査询请求，如此反复，直到找到拥有满足査询请求内容的节点。这种査找过程不同于 CAN在键值空间连续的逼近目的地，而是通过利用网络中的远程连接作为"捷径"的跳跃式逼近，可以在最初一两跳 (hop) 内迅速地跳到目标节点附近，然后再通过局部的精确定位找到目标节点。

请参照图 5所示，本实施例査询获取内容的方法的具体流程如下：

步骤 51，请求节点 P_A向关联列表中综合性能较好的 Ν_κ个节点发送第一査询请求一关联査询请求，如图 6所示，査询请求包括：目标内容的键值，请求节点标识符，请求节点生成的随机数，请求节点 IP地址，关联路由和贪心路由的标识位。可以通过一个布尔值标识一个査询请求是关联路由还是贪心路由。其中，请求节点标识符和请求节点生成的随机数可以唯一标识一个査询请求。

步骤 52，接收所述第一査询请求的节点，根据所述査询请求进行处理。

每个节点拥有一个请求缓存栈，用于暂存最近一段时间接收到的査询请求。该请求缓存栈记录了査询请求的请求节点标识符和请求节点生成的随机数，根据先进先出 FIFO原则替换。

进一步的，步骤 52具体包括：

步骤 521，当一个节点接收到査询请求之后，首先根据査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断自身是否已经接收过这个査询请求：如果已经接收过，则丢弃；否则，转入步骤 522。

步骤 522，所述节点査看自身的需求内容列表中是否有节点 P_A所査询的内容：如果有满足査询的内容，则转入步骤 523 ; 否则转入步骤 524。

步骤 523，所述节点拥有满足査询的内容，根据自身相对于所述内容的身份决定发送的信息： a、如果是 CP或 CRP，则自身存储的内容本身就是最新的版本，可以直接将自身的地址信息以及所述内容的 VS的地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 PA;

b、如果是 VS，则直接将自身的地址信息以及存储的所述内容的所有 CRP地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 PA;

c 如果是 IRP, 由于自身存储的内容可能不是最新的版本，则将所述内容的 VS地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 PA。

步骤 524，所述节点没有满足査询的内容，则直接丢弃査询信息，反馈査询失败。

步骤 53，如果节点 PA接收到査询成功的反馈，则为所述査询的内容建立一个临时的下载地址列表并下载内容。

节点 P_A在接收到其他节点的反馈信息后，将反馈信息中的可用下载地址存储到下载地址列表中。下载地址列表中已经包含的地址，不会重复存储。此后，节点 P_A使用下载地址列表中的地址建立连接，开始下载。本实施例中节点 P_A接收到査询成功的反馈即是指接收到反馈的所査询内容的可用下载地址。 CP、 VS或 CRP作为反馈节点向请求节点返回査询信息时，会主动捎带自身的内容列表，如果 CP、 VS或 CRP并不在请求节点 P_A的关联列表中，则请求节点 P_A将计算反馈节点综合性能，如果反馈节点的综合性能优于当前关联列表中综合性能最差的节点，则用反馈节点替换该综合性能最差的节点。

步骤 54，如果节点 P_A接收到査询失败的反馈，则请求节点 P_A将向当前邻居中键值距离目标键值最近的节点发出第二査询请求一贪心査询请求。

例如上述步骤 524中，该节点没有满足査询的内容，则向节点 P_A反馈査询失败，此时节点 P_A 将再发起第二査询请求，以保障第一査询请求失败时能返回至少一个满足査询的节点。

步骤 55，接收所述査询请求的节点，根据所述査询请求进行处理。

与步骤 52类似，步骤 55具体包括：

步骤 551，当一个节点接收到査询请求之后，首先根据査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断自身是否已经接收过这个査询请求：如果已经接收过，则丢弃；否则，转入步骤 552。

步骤 552，所述节点査看自身的需求内容列表中是否有节点 P_A所査询的内容：如果有满足査询的内容，则转入步骤 553 ; 否则转入步骤 554。

步骤 553，所述节点拥有满足査询的内容，根据自身相对于所述内容的身份决定发送的信息： a、如果是 CP或 CRP，则自身存储的内容本身就是最新的版本，可以直接将自身的地址信息以及所述内容的 VS的地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 P_A;

b、如果是 VS，则直接将自身的地址信息以及存储的所述内容的所有 CRP地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 P_A;

c、如果是 IRP，由于自身存储的内容可能不是最新的版本，则将所述内容的 VS地址作为可用下载地址，并携带上自身当前的内容列表发送给节点 P_A。

步骤 554，所述节点没有满足査询的内容，则根据键值最近的原则进一步转发。

步骤 56，节点 P_A接收第二査询请求的结果，为所述査询的内容建立一个临时的下载地址列表。节点 P_A在接收到其他节点的反馈信息后，将反馈信息中的可用下载地址存储到下载地址列表中。下载地址列表中已经包含的地址，不会重复存储。此后，节点 P_A使用下载地址列表中的地址建立连接，开始下载。

CP、 VS或 CRP作为反馈节点向请求节点返回査询信息时，会主动捎带自身的内容列表，如果 CP、 VS或 CRP并不在请求节点 P_A的关联列表中，则请求节点 P_A将计算反馈节点综合性能，如果反馈节点的综合性能优于当前关联列表中综合性能最差的节点，则用反馈节点替换该综合性能最差的节点。

本实施例提高了内容的査询能力，可以同时解决前述第 1、 2、 3三类査询，例如：

对于第 2类査询，一个节点査询两个相互关联的内容：如节点 P1査询两个相互关联的内容 A 和 B。在节点 P1査询第一个内容 A时，节点 P1通过节点 P2获得了内容 A。如果节点 P1和 P2的内容列表具有较高的相似性，则节点 P1会将节点 P2添加到关联列表中。在节点 P1要寻找和内容 A 相互关联的内容 B时，由于内容 A和内容 B相互关联，所以节点 P2很可能同时存储内容 A和8。节点 P1通过向关联列表中的 P2发送关联査询请求，就可以仅通过一个 hop就直接获得内容 B。

对于第 3类査询，两个节点査询同一个内容：如节点 P1和 P2都査询内容 A。在节点 P1査询了内容 A后，内容 A会缓存在节点 P1的内容列表中。当节点 P2査询内容 A时，由于节点 P1和 P2 请求了同一个内容，节点 P1和 P2可能是相互关联的节点，可能在彼此的关联列表中，节点 P2通过向节点 P1发送关联査询请求，即可以仅通过一个 hop就直接获得内容 A。

通过本实施例的二元査询中的第一査询，本实施例可以在第 1个 hop之后就返回一部分满足査询请求的节点，从而开始下载；此时，二元査询中的第二査询请求继续在网络中路由，直到找到内容的 VS，从而返回 VS以及所有的 CRP节点，增加可以下载的源节点。也就是说，本实施例内容的下载分为两步：先在第 1个 hop找到少量的节点开始下载，再通过第二査询请求增加下载源。

本实施例可以以更快的速度开始下载，从而减少用户的等待时间。特别是当网络中的节点数很多的时候，这种差异更加明显。比如网络中有 10000个节点时， CAN模型的平均査询路径长度是 16.49，本实施例是 2.63。也就是说， CAN模型要在平均 16.49跳之后才能返回第一个满足査询的节点，而本实施例在第 1个 hop之后就可以返回一小部分节点开始下载，而在 2.63跳之后，进一步增加下载源。本实施例的反应速度比 CAN快了 13.49跳，可以大幅降低用户的等待时间。

并且，随着网络中节点数目的增加，本实施例这种第 1跳就能够返回一部分节点开始下载的能力并不会发生变化，而且，本实施例可以提高査询响应速度的能力反而会更加明显。

由于本实施例在二元査询的第一査询中并发地发送了 Ν_κ个关联査询消息，但这 Ν_κ个通信量只是从请求节点发送到关联列表中的节点，并不会在网络中转发，不会增加中转节点的通信量，而是仅仅增加了客户端的通信量。而客户端的请求并不是一个频繁的过程，而是相对稀疏的，对于每次査询多承担一点通信量并不会对客户端的性能产生影响。所以，第一査询所增加的通信量并不会对本实施例的性能带来负面的影响，是可以忽略的。

本发明实施例三：

为了保证实施例二中第一査询能够以较高的概率获得满足査询请求的节点，关联列表中的节点应该和请求节点自身保持较高的关联内容相似度。由于节点的需求处于动态变化之中，节点上存储的内容也在动态变化，此外网络上的内容也随着节点的加入离开而不断变化，所以节点之间的关联内容相似度也是处于变化中的，需要对关联列表进行更新，以便能够精确的描述节点当前的需求，使得节点之间能根据需求形成较好的聚类。

请参照图 7所示，本实施例关联列表更新的方法，包括：

步骤 71，获取关联列表中某节点当前的内容列表；

具体的获取方式有两种：

1、在例如实施例二的査询内容的流程中获取；

由实施例二可知，在 CP、 VS或 CRP向请求节点返回査询信息时，会主动捎带自身的内容列表，这种在网络中现有消息的基础上有选择的附带上节点自身的内容列表，可以尽量减少增加的通信量。

由于只有 CP、 VS或 CRP有最新版本的内容信息，所以当请求节点 P_A发送査询请求之后，经过若干次转发，査询信息最终会落到这三种节点上。这三种节点在返回内容信息时，会捎带上自身的内容列表。内容列表仅包括一个节点上存储内容的标识符，不包括具体内容信息。此处，在请求节点发送査询信息时，并不会捎带自身的内容列表，原因有两点：（1 ) 由于査询请求需要经过若干次转发才能到达目标节点，如果捎带了内容列表，会增加所有转发节点的通信量；（2 ) 由于请求节点此时还没有所需内容的信息，内容列表在请求信息返回之后还会发生变化，所以此时的内容列表并不准确。

2、定时获取；请参照图 8所示，具体流程如下：

步骤 81，设置关联内容相似度的有效期为 T，检测到节点 Ρ_Α的关联列表中的某一节点（例如 PB) 最近一次更新时间距离当前时间的间隔超过了有效期 T;

步骤 82，节点 P_A向节点 P_B发送询问节点 P_B当前内容列表的请求；

步骤 83，节点 P_A接收节点 P_B返回的其自身当前的内容列表。

这种方式可以周期性的定时检测并获取关联列表中的某一节点最新的内容列表。

通过上述两种方式，请求节点即可获取关联列表中某节点当前的内容列表。

步骤 72，请求节点计算自身与所述节点的关联内容相似度；

步骤 73，请求节点根据计算得到的关联内容相似度更新自身关联列表。

具体的，请求节点将根据计算得到的关联内容相似度更新自身关联列表中所述节点（例如 PB ) 的相关属性。

本实施例中，根据节点当前存储的内容描述节点的关联内容集以及计算节点之间的关联内容相似度，从而避免了语义和本体论的方式所需的庞大知识库所消耗的存储空间。

本发明实施例四：

由于所有内容的 RP上都会保存一份该内容的副本，所以整个网络中会存在内容的多个副本。为了保证所有节点都能在较低的通信量下，获得新鲜有效的内容并能对内容进行合法的操作，本实施例通过对内容及其副本所在节点进行松散节点聚类，实现对副本的控制和更新。

产生和发布内容的节点作为内容的 VS 负责内容的更新和发布。 CP作为索引和备份节点，和 VS 建立双向连接保持强一致。其他节点在请求内容之后，根据自身的需求和性能选择成为内容的 CRP或 IRP。如果査询节点需要经常访问该内容，且自身性能较好（例如：带宽较大，处理速度较快等），则可以选择成为 CRP, 和 VS建立双向连接保持强一致。如果査询节点并不需要经常访问该内容，或自身性能并不太好，也可以选择成为 IRP，和 VS建立单向连接保持弱一致。 VS、 CP、 CRP 以及 IRP通过这些连接形成针对同一内容的一个松散聚类，并在这个聚类的基础上根据节点的类型采用不同的内容更新和更新发布模式，以降低通信量。

为了能在内容更新之后区分内容的不同版本，每个内容都有一个版本号，由该内容的 VS在每次合法更新之后对版本号进行操作。

请参照图 9所示，本实施例内容更新的方法，包括：

步骤 91，请求内容更新的节点（例如 CRP或 IRP ) 向产生和发布内容的节点（例如 VS ) 发送更新请求；具体的，当一个 RP要对内容进行操作及更新时，首先会判断自身的类型：如果是 CRP，则该节点本身就存储了内容的最新版本，可以直接对内容进行操作，并向 VS发送更新请求，该请求包括：操作结果和当前的版本号；

如果是 IRP，贝 IJ该节点上存储的副本可能是陈旧版本，需要先向 VS发送当前版本号来检测版本信息，如果该版本号和 VS上存储的当前版本一致，则 VS返回确认信息，如果不一致，则 VS返回当前最新版本的内容信息。此后 IRP采用和 CRP同样的方式对内容进行操作并向 VS发送更新请求。

步骤 92， VS对接收的更新请求进行审核，并根据审核结果进行处理；

VS接收到更新请求后，先判断内容的版本号是否是最新的版本号，如果是，则接受更新并修改版本号，同时返回确认信息；否则，拒绝更新，并返回最新版本信息。如果有两个 RP 同时提交更新结果， VS根据更新请求的时间戳判定更新的有效性，接受时间戳较早的更新。

步骤 93， VS在更新后发布更新结果和新的版本号；

在 VS接受更新之后，会将更新结果和新的版本号发送给 CP和所有 CRP。由于 IRP和 VS之间是弱一致，所以并不需要向 IRP发布更新信息。

本实施例中， VS、 CP、 CRP以及 IRP通过它们之间的双向或单向的连接，形成了针对同一内容的节点松散聚类，并在这个聚类的基础上根据节点的类型采用不同的内容更新和更新发布模式，以降低通信量。本实施例通过主动向所有 CRP发布更新，避免了 CRP频繁访问内容所带来的大量询问信息；通过 IRP在使用内容前主动向 VS询问内容的最新版本，从而避免了向访问内容频率较低的 IRP频繁发布更新所带来的通信量。基于这个节点松散聚类，本实施例在较低的通信量下实现了对内容及其副本的管理和控制，保证了所有节点在对内容进行访问时都能获得最新鲜的版本，并保证了所有更新操作都是在最新版本的基础上累计递增的，而不会出现对陈旧版本的更新操作。此外还有效地降低了系统通信量，并能适应动态变化环境的需求。

本发明实施例五：

请参照图 10所示，本发明实施例五提供一种査询获取内容的系统，包括：

请求节点 101，用于向关联列表中的节点发送第一査询请求、在接收到所述第一査询请求査询失败的反馈时，向键值距离目标节点键值最近的节点发送第二査询请求，以及根据目标节点反馈的内容列表为査询的内容建立临时的下载地址列表，并下载所述内容；

目标节点 102，用于接收所述第一或第二査询请求，并根据所述査询请求进行处理。

进一步的，所述目标节点 102包括：

第一判断单元 1021，用于根据査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断目标节点是否已经接收过所述査询请求，如果已经接收过，则丢弃所述査询请求；第二判断单元 1022，用于当第一判断单元 1021判断目标节点未接收过所述査询请求时，进一步判断目标节点需求内容列表中是否有所述査询的内容；

第一控制单元 1023，用于当所述第二判断单元 1022判断目标节点的需求内容列表中有满足査询的内容时，根据目标节点相对于所述内容的身份决定发送的信息；

具体的，如果目标节点是 CP或 CRP，则目标节点自身存储的内容本身就是最新的版本，第一控制单元 1023可以直接将目标节点的地址信息以及所述内容 VS的地址作为可用下载地址，并携带上目标节点当前的内容列表发送给请求节点；

如果目标节点是 VS，则第一控制单元 1023直接将目标节点的地址信息以及存储的所述内容的所有 CRP地址作为可用下载地址，并携带上目标节点当前的内容列表发送给请求节点；

如果目标节点是 IRP，则第一控制单元 1023将所述内容的 VS地址作为可用下载地址，并携带上目标节点当前的内容列表发送给请求节点。

第二控制单元 1024，用于当所述第二判断单元 1022判断目标节点的需求内容列表中没有满足査询的内容时，根据査询的类型进行不同的处理：

如果是第一査询，则直接丢弃査询信息，不做任何处理；

如果是第二査询，则根据键值最近的原则进一步转发。

本发明实施例六：

请参照图 11所示，本发明实施例六提供一种关联列表更新的装置，包括：

获取单元 111，用于获取关联列表中某节点当前的内容列表；

计算单元 112，用于计算请求节点与所述关联列表中某节点的关联内容相似度；

更新单元 113，用于根据计算得到的关联内容相似度更新请求节点的关联列表。

进一步的，所述获取单元 111可以通过査询获取内容的流程获取关联列表中某节点反馈的当前的内容列表；也可以通过对关联列表中某节点周期性的定时检测获取所述内容列表。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM, RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求

1、一种内容节点双向聚类系统，其特征在于：包括节点层和内容层；

2、根据权利要求 1所述的系统，其特征在于：根据对某内容的需求，所述节点层的节点包括：内容寻址网络 CAN负责节点 CP，用于作为备份节点保存所述内容的信息，并作为査询所述内容时的索引节点；

复制节点 RP，用于存储所述内容的副本，和 /或对所述内容进行操作或更新。

3、根据权利要求 2所述的系统，其特征在于：所述复制节点 RP包括：

虚拟服务器 VS, 所述 VS和所述 CP双向连接，用于产生和发布所述内容，负责对所述内容进行更新并发布；

强一致节点 CRP，与所述 VS双向连接，当所述 VS更新内容时，接收所述 VS发布的更新信息；弱一致节点 IRP，与所述 VS形成由所述 IRP指向所述 VS的单向连接，在使用内容前，先向所述 VS验证自身存储的内容的版本信息以保持内容的一致性。

4、根据权利要求 1所述的系统，其特征在于：所述节点存储的信息包括：

自身的键值、键值空间范围、 CAN路由表、需求内容表和 /或关联列表。

5、根据权利要求 1所述的系统，其特征在于：所述关联列表记载的信息包括：

所述节点的标识符、 IP地址、关联内容相似度、所述关联内容相似度最近一次更新的时间、所述节点拥有的内容总数、最近一段时间通过所述节点进行路由成功召回结果的次数和 /或所述节点的综合性能。

6、一种利用如权利要求 1-5任一项所述的系统査询获取内容的方法，包括：

7、根据权利要求 6所述的方法，其特征在于：所述接收所述第一査询请求的节点根据所述第一査询请求进行处理，具体包括：

所述第一目标节点根据所述第一査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断自身是否已经接收过所述第一査询请求，如果已经接收过，则丢弃所述第一査询请求；

如果判断自身未接收过所述第一査询请求，则所述第一目标节点进一步査看自身的需求内容列表中是否有所述请求节点所査询的内容；如果所述第一目标节点拥有满足査询的内容，则向所述请求节点返回可用下载地址；如果所述第一目标节点没有满足査询的内容，则直接丢弃査询信息，反馈査询失败。

8、根据权利要求 7所述的方法，其特征在于：所述第一目标节点拥有满足査询的内容时，还向所述请求节点返回第一目标节点当前的内容列表，且所述返回操作具体包括：

如果所述第一目标节点是 CP或 CRP，则可以直接将自身的地址信息以及所述内容的 VS的地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点；

如果所述第一目标节点是 VS, 则直接将自身的地址信息以及存储的所述内容的所有 CRP地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点；

如果所述第一目标节点是 IRP，则将所述内容的 VS地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点。

9、根据权利要求 6所述的方法，其特征在于：还包括：

所述第二目标节点根据所述第二査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断自身是否已经接收过所述査询请求，如果已经接收过，则丢弃所述第二査询请求; 如果判断自身未接收过所述第二査询请求，则所述第二目标节点进一步査看自身的需求内容列表中是否有所述请求节点所査询的内容；

如果所述第二目标节点拥有满足査询的内容，则向所述请求节点返回可用下载地址；如果所述第二目标节点没有满足査询的内容，则根据键值最近原则进一步转发所述第二査询请求。

10、根据权利要求 9所述的方法，其特征在于：所述第二目标节点拥有满足査询的内容时，还向所述请求节点返回第二目标节点当前的内容列表所述返回操作具体包括：

如果所述第二目标节点是 CP或 CRP，则可以直接将自身的地址信息以及所述内容 VS的地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点；

如果所述第二目标节点是 VS, 则直接将自身的地址信息以及存储的所述内容所有 CRP地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点；

如果所述第二目标节点是 IRP，则将所述内容的 VS地址作为可用下载地址，并携带上自身当前的内容列表发送给所述请求节点；

11、一种利用如权利要求 1-5任一项所述的系统进行关联列表更新的方法，包括：

根据计算得到的关联内容相似度更新请求节点的关联列表。

12、根据权利要求 11所述的方法，其特征在于：所述获取关联列表中某节点当前的内容列表，具体包括：

通过査询获取内容的流程获取关联列表中某节点反馈的当前的内容列表；和 /或通过对关联列表中某节点周期性的定时检测获取所述某节点当前的内容列表。

13、一种利用如权利要求 1-5任一项所述的系统进行内容更新的方法，包括：

14、根据权利要求 13所述的方法，其特征在于：所述请求内容更新的节点向产生和发布内容的节点发送更新请求，具体包括：

所述请求内容更新的节点判断自身的类型：

如果是 CRP，则直接对内容进行操作，并向所述产生和发布内容的节点发送更新请求，所述请求包括：操作结果和当前的版本号；

如果是 IRP，则先向所述产生和发布内容的节点发送当前版本号来检测版本信息，如果该版本号和所述产生和发布内容的节点上存储的当前版本一致，则所述产生和发布内容的节点返回确认信息，如果不一致，则所述产生和发布内容的节点返回当前最新版本的内容信息；此后所述 IRP向所述产生和发布内容的节点发送更新请求。

15、根据权利要求 13所述的方法，其特征在于：所述产生和发布内容的节点对接收的更新请求进行审核，并根据审核结果确定接受更新后，进行更新处理，具体包括：

所述产生和发布内容的节点判断内容的版本号是否是最新的版本号，如果是，则接受更新并修改版本号，同时返回确认信息；否则，拒绝更新，并返回最新版本信息。

16、根据权利要求 13所述的方法，其特征在于：如果有两个同时提交的、针对同一内容的更新请求，则所述产生和发布内容的节点根据所述更新请求的时间戳来判定更新的有效性，接受时间戳较早的更新。

17、根据权利要求 13所述的方法，其特征在于：所述产生和发布内容的节点在接受更新后发布更新结果和新的版本号，具体包括：

所述产生和发布内容的节点接受更新之后，将更新结果和新的版本号发送给 CP和所有 CRP。

18、一种査询获取内容的系统，其特征在于：包括：

19、根据权利要求 18所述的系统，其特征在于：所述目标节点进一步包括：

第一判断单元，用于根据第一査询请求或第二査询请求中的请求节点标识符以及请求节点生成的随机数检索请求缓存栈，判断所述目标节点是否已经接收过所述査询请求，如果已经接收过，则丢弃所述査询请求；第二判断单元，用于当所述第一判断单元判断目标节点未接收过所述査询请求时，进一步判断目标节点需求内容列表中是否有所述査询的内容；

第一控制单元，用于当所述第二判断单元判断目标节点的需求内容列表中有满足査询的内容时，向所述请求节点返回可用下载地址；

第二控制单元，用于当所述第二判断单元判断目标节点的需求内容列表中没有满足査询的内容时，在所述査询请求为第二査询请求的情况下，根据键值最近的原则转发所述第二査询请求。

20、一种关联列表更新的装置，其特征在于：包括：

获取单元，用于获取关联列表中某节点当前的内容列表；

21、根据权利要求 20所述的装置，其特征在于：所述获取单元通过査询获取内容的流程获取关联列表中某节点反馈的当前的内容列表；和 /或通过对关联列表中某节点周期性的定时检测获取所述某节点当前的内容列表。