WO2017107812A1

WO2017107812A1 - 一种用户日志存储方法及设备

Info

Publication number: WO2017107812A1
Application number: PCT/CN2016/109674
Authority: WO
Inventors: 李灼灵; 熊奇; 韩森; 李巨雷
Original assignee: 阿里巴巴集团控股有限公司; 李灼灵; 熊奇; 韩森; 李巨雷
Priority date: 2015-12-21
Filing date: 2016-12-13
Publication date: 2017-06-29
Also published as: CN106899643A

Abstract

本发明公开了一种用户日志存储方法。在收集节点和处理节点之间预设与各处理节点对应的传输通道的基础上，根据待存储日志的用户信息确定与待存储日志对应的传输通道，并利用传输通道将待存储日志发送至处理节点，在根据预设的发送策略将待存储日志从处理节点发送至存储节点后，根据存储节点的日志缓存情况以及预设的日志缓存条件将待存储日志存储于存储节点。由于具有相同用户信息的待存储日志所对应的传输通道一致，因此可有效地避免日志出现乱序问题，从而保证整个云平台日志系统的有序性。

Description

一种用户日志存储方法及设备

技术领域

本发明涉及通信技术领域，特别涉及一种用户日志存储方法。本申请同时还涉及一种用户日志存储设备。

背景技术

随着互联网技术的不断发展，云计算平台越来越成为人们所重视的对象，云计算平台也称为云平台。云平台可以按照功能划分为3类：以数据存储为主的存储型云平台，以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。云平台允许开发者们或是将写好的程序放在“云”里运行，或是使用“云”里提供的服务，或二者皆是的平台。

云平台日志服务的架构设计通常分为五层：(日志)收集层、(日志)传输层、处理层、存储层和访问层。收集层负责读取用户的各类日志，然后将需要存储的日志发送到传输层，在图1所示的现有云平台日志服务架构示意图中，该层的功能由各种Agent(代理)结合现有的云服务功能实现，其中Agent部署在各级物理机或虚拟机上，按规则读取用户的日志并发送。处理层一般由多个可扩展的工作节点(图1中的处理worker)组成，接收传输层的日志，处理后存储到各类存储设备，一般来说，日志能否保证顺序跟处理层的逻辑密切相关。传输层处于收集层与处理层中间，负责保证日志被发送到处理层，一般由可容灾可堆积的消息队列实现，它是收集层和处理层的桥梁。存储层负责数据存储。访问层设置有专用的访问API，用以对外提供统一的数据访问接口。

在实现本发明的过程中，发明人发现现有的云平台日志服务架构中的多服务实例会导致日志乱序。以图1为例，当收集层中的云服务往往有多个实例时，不同实例的日志写到不同的日志文件，并由不同的Agent发送出来。出于性能的考虑，Agent是异步发送的，所以在不同实例的日志进行合并时就会有乱序的可能。

针对上述情况，现有的云平台日志服务往往只在访问API层对返回结果进行简单排序，这可减少一部分日志乱序问题，但在分页查询或者日志量大的情况下，无法保证日志的顺序，因此如何保证云平台中的日志准确有序，成为本领域技术人员亟待解决的技术问题。

发明内容

本发明提供了一种用户日志存储方法。用以解决现有的云平台中的日志乱序的问题。所述方法应用于包括收集节点、存储节点以及处理节点的日志处理系统中，预先在所述收集节点和所述处理节点之间设置与各所述处理节点对应的传输通道，该方法包括：

根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致；

根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点；

根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。

优选地，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，具体为：

接收由所述收集层发送的所述待存储日志；

确定所述待存储日志对应的用户，并获取所述用户的所述用户信息；

获取所述用户信息在通过预设的哈希算法处理后得到的数值；

查询当前与所述数值对应的传输通道，生成所述数值、所述传输通道以及所述用户信息之间的对应关系。

优选地，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点，具体为：

当所述处理节点的缓存池中所缓存的日志的数量和/或时间达到所述缓存阈值时，将所述日志按照接收时间排序处理；

按照所述数据发送比例依次发送所述排序处理后的日志；

其中，所述发送策略至少包括所述数据发送比例以及所述缓存阈值。

优选地，所述缓存阈值包括日志缓存数量阈值以及日志缓存时间阈值，按照所述数据发送比例依次发送所述排序处理后的日志，具体为：

根据所述处理节点的缓存池的容量以及所述数据发送比例确定可发送的日志的数量；

从所述排序处理后的日志中选取所述数量的日志并发送。

优选地，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点，具体为：

判断所述存储节点的日志缓存情况是否满足预设的日志存储条件；

若判断结果为是，将所述待存储日志与所述存储节点中的其他待存储日志进行并包存储；

若判断结果为否，在预设的周期之后判断所述存储节点的日志缓存情况是否满足预设的日志存储条件。

优选地，判断所述存储节点的日志缓存情况是否满足预设的日志存储条件，具体为：

判断所述存储节点当前已缓存日志的时间是否超过预设的时间阈值；

或，判断所述存储节点当前已缓存的日志的数量是否超过预设的数量阈值；

或，判断所述存储节点当前已缓存的日志的大小是否超过预设的容量阈值。

相应地，本申请还提出了一种用户日志存储设备，所述设备应用于包括收集节点、存储节点以及处理节点的日志处理系统中，所述设备预先在所述收集节点和所述处理节点之间设置与各所述处理节点对应的传输通道，该设备包括：

确定模块，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致；

发送模块，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点；

存储模块，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。

优选地，所述确定模块具体用于：

接收由所述收集层发送的所述待存储日志；

优选地，所述发送模块具体用于：

按照所述数据发送比例依次发送所述排序处理后的日志；

从所述排序处理后的日志中选取所述数量的日志并发送。

优选地，所述存储模块具体用于：

优选地，所述判断模块具体用于：

由此可见，通过应用本申请的技术方案，在收集节点和处理节点之间预设与各处理节点对应的传输通道的基础上，根据待存储日志的用户信息确定与待存储日志对应的传输通道，并利用传输通道将待存储日志发送至处理节点，在根据预设的发送策略将待存储日志从处理节点发送至存储节点后，根据存储节点的日志缓存情况以及预设的日志缓存条件将待存储日志存储于存储节点。由于具有相同用户信息的待存储日志所对应的传输通道一致，因此可有效地避免日志出现乱序问题，从而保证整个云平台日志系统的有序性。

附图说明

图1为现有技术中云平台日志服务架构示意图；

图2为本申请提出的一种用户日志存储方法的流程示意图；

图3为本申请具体实施例所提供的一种云平台日志服务架构示意图；

图4为本申请提出的一种用户日志存储设备的结构示意图。

具体实施方式

如背景技术所述，现有的云平台日志服务往往只在访问API层对返回结果进行简单排序，这可减少一部分日志乱序问题，但在分页查询或者日志量大的情况下，无法保证日志的顺序。为此本申请提出了一种用户日志存储方法，由于本申请方案旨在针对日志处理系统中的日常传输过程进行改进，因此在该日志处理系统需要包括收集节点、存储节点以及处理节点，同时在收集节点和处理节点之间预先设置了与各处理节点对应的传输通道，在此需要说明的是，与各个处理节点对应的传输通道可以为实际设置的多条传输线路，也可以为将同一传输线路在逻辑上设置为多条与各个处理节点对应的线路，这些都属于本申请的保护范围。

如图2所示，该方法包括以下步骤：

S201，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致。

在目前的云平台中，由于一般都存在用于收集用户日志的收集节点，因此在本申请的优选实施例中，针对包括收集节点的日志处理系统提出了相应的传输通道确定流程：

步骤a)接收由所述收集层发送的所述待存储日志；

步骤b)确定所述待存储日志对应的用户，并获取所述用户的所述用户信息；

步骤c)获取所述用户信息在通过预设的哈希算法处理后得到的数值；

步骤d)查询当前与所述数值对应的传输通道，生成所述数值、所述传输通道以及所述用户信息之间的对应关系。

此外，由于现有的云平台的日志量较大，处理层一般设计成一个个无状态可扩展的工作节点。不同节点处理速度可能不一致，会导致最终处理结果的顺序跟发送的顺序不一致，从而导致日志发生乱序。因此为了进一步避免出现该情况，本申请优选实施例设置数据发送比例以及所述缓存阈值作为发送策略，在当处理节点的缓存池中所缓存的日志的数量和/或时间达到所述缓存阈值时，将日志按照接收时间排序处理，并按照数据发送比例依次发送排序处理后的日志，从而保证了日志发送的有序性。

需要说明的是，在上述优选实施例中，可预先将日志缓存数量阈值以及日志缓存时间阈值作为缓存阈值，并在需要按照发送比例发送日志时，根据处理节点的缓存池的容量以及数据发送比例确定可发送的日志的数量，从排序处理后的日志中选取所述数量的日志并发送。

为了进一步阐述本发明的技术思想，现结合图3所示的云平台日志服务架构示意图对本发明的技术方案进行说明。图3中的收集层由各个不同的Agent组成，处理层由多个处理节点(处理worker)组成，存储层则由多个存储节点(包含存储worker以及存储Node)组成，在收集层与处理层之间存在着用于传输用户日志的传输层，该传输层由多个传输通道组成。由于各个Agent独立地对云平台中的用户日志随机进行获取，因此当收集层需要发送日志时，收集层将需要保证顺序的日志发送到处理层的同一条日志传输通道。该步骤可以通过预设算法或是其他的方式保证基于用户信息所选择的传输通道是唯一且保证均衡的，唯一性是指能唯一识别用户，均衡性是指通过算法为多个用户所分布的传输通道都是均等概率的，不会出现为某一传输通道负荷过高的情况。

举例来说，要保证同一用户的日志顺序，则可利用哈希算法对用户ID进行处理，将同一用户的日志发送到一个通道中。这里应尽量缩小哈希的粒度和保证哈希的均衡。保证每个传输通道都由同一个处理节点接收处理，因此需要保证顺序的日志都会到达同一个处理节点，方便后续处理。如果同一通道的数据量很大，可以通过缩小哈希粒度，增加数据通道来减少同一通道的数据量或增加处理节点的资源、节点内并发处理等方式来提高处理节点的吞吐量。

处理节点对处理完的数据进行缓存，排序；然后将靠前的数据发送到存储节点，靠后的数据参与下次排序。在此需要说明的是，技术人员可以根据系统的实际情况，调整缓存策略、缓存池大小，以及发送数据的比例，从而使处理节点输出的日志100％有序。缓存策略可采取缓存数量和缓存时间双项控制，即当缓存日志数量达到一定数量，或缓存时间达到一定时间进行排序。排序后只输出一定时间以前的数据，新的数据要参与下轮排序。

S202，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点。

S203，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。

在目前的云平台日志缓存系统中，很多云存储服务考虑到存取效率问题，会对小包进行合并。在进行小包合并时会可能会导致多个小包之间乱序，从而导致日志乱序。为了避免该情况的发生，本申请优选实施例判断存储节点的日志缓存情况是否满足预设的日志存储条件，并且仅在判断结果为是的情况下才将所述待存储日志与所述存储节点中的其他待存储日志进行并包存储，若判断结果为否，则在预设的周期之后判断所述存储节点的日志缓存情况是否满足预设的日志存储条件。

具体地，在上述判断的过程中，可基于以下三点进行处理，然而技术人员可以在此基础上设置其他相同能够达到目的的判断条件，这些都属于本申请的保护范围：

(1)判断所述存储节点当前已缓存日志的时间是否超过预设的时间阈值；

(2)判断所述存储节点当前已缓存的日志的数量是否超过预设的数量阈值；

(3)判断所述存储节点当前已缓存的日志的大小是否超过预设的容量阈值。

以图3所示的架构为例，在该具体实施例中，存储节点将根据存储服务的不同对日志数据进行不同的缓存和合并策略，从而避免存储服务对数据进行小包合并，以及保证数据最终“落地”的有序性。举例来说，缓存的条件可设置为“缓存日志时间超过30秒，日志条数达到300条或日志大小达到1MB”一般存储服务都是从这三个维度进行并包，存储节点的功能就是自己实现并包，而且保证业务时间的有序。

基于上述实施例所公开的内容，可以有效解决现有的日志处理系统中由“多服务实例”、“处理层并发”以及“小包合并”引起的日志乱序问题，从而保证整个云平台日志系统的日志的有序性。

为了达到以上技术目的，本申请还提出了一种用户日志存储设备，如图4所示，所述设备应用于包括收集节点、存储节点以及处理节点的日志处理系统中，所述设备预先在所述收集节点和所述处理节点之间设置与各所述处理节点对应的传输通道，该设备包括：

确定模块410，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致；

发送模块420，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点；

存储模块430，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。

在具体的应用场景中，所述确定模块具体用于：

接收由所述收集层发送的所述待存储日志；

在具体的应用场景中，所述发送模块具体用于：

按照所述数据发送比例依次发送所述排序处理后的日志；

在具体的应用场景中，所述缓存阈值包括日志缓存数量阈值以及日志缓存时间阈值，按照所述数据发送比例依次发送所述排序处理后的日志，具体为：

从所述排序处理后的日志中选取所述数量的日志并发送。

在具体的应用场景中，所述存储模块具体用于：

在具体的应用场景中，所述判断模块具体用于：

通过以上技术方案可以看出，本申请通过在收集节点和处理节点之间预设与各处理节点对应的传输通道的基础上，根据待存储日志的用户信息确定与待存储日志对应的传输通道，并利用传输通道将待存储日志发送至处理节点，在根据预设的发送策略将待存储日志从处理节点发送至存储节点后，根据存储节点的日志缓存情况以及预设的日志缓存条件将待存储日志存储于存储节点。由于具有相同用户信息的待存储日志所对应的传输通道一致，因此可有效地避免日志出现乱序问题，从而保证整个云平台日志系统的有序性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

一种用户日志存储方法，其特征在于，所述方法应用于包括收集节点、存储节点以及处理节点的日志处理系统中，预先在所述收集节点和所述处理节点之间设置与各所述处理节点对应的传输通道，该方法包括：

根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致；

根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点；

根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。
如权利要求1所述的方法，其特征在于，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，具体为：

接收由所述收集层发送的所述待存储日志；

确定所述待存储日志对应的用户，并获取所述用户的所述用户信息；

获取所述用户信息在通过预设的哈希算法处理后得到的数值；

查询当前与所述数值对应的传输通道，生成所述数值、所述传输通道以及所述用户信息之间的对应关系。
如权利要求1所述的方法，其特征在于，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点，具体为：

当所述处理节点的缓存池中所缓存的日志的数量和/或时间达到所述缓存阈值时，将所述日志按照接收时间排序处理；

按照所述数据发送比例依次发送所述排序处理后的日志；

其中，所述发送策略至少包括所述数据发送比例以及所述缓存阈值。
如权利要求3所述的方法，其特征在于，所述缓存阈值包括日志缓存数量阈值以及日志缓存时间阈值，按照所述数据发送比例依次发送所述排序处理后的日志，具体为：

根据所述处理节点的缓存池的容量以及所述数据发送比例确定可发送的日志的数量；

从所述排序处理后的日志中选取所述数量的日志并发送。
如权利要求1所述的方法，其特征在于，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点，具体为：

判断所述存储节点的日志缓存情况是否满足预设的日志存储条件；

若判断结果为是，将所述待存储日志与所述存储节点中的其他待存储日志进行并包存储；

若判断结果为否，在预设的周期之后判断所述存储节点的日志缓存情况是否满足预设的日志存储条件。
如权利要求5所述的方法，其特征在于，判断所述存储节点的日志缓存情况是否满足预设的日志存储条件，具体为：

判断所述存储节点当前已缓存日志的时间是否超过预设的时间阈值；

或，判断所述存储节点当前已缓存的日志的数量是否超过预设的数量阈值；

或，判断所述存储节点当前已缓存的日志的大小是否超过预设的容量阈值。
一种用户日志存储设备，其特征在于，所述设备应用于包括收集节点、存储节点以及处理节点的日志处理系统中，所述设备预先在所述收集节点和所述处理节点之间设置与各所述处理节点对应的传输通道，该设备包括：

确定模块，根据待存储日志的用户信息确定与所述待存储日志对应的传输通道，并利用所述传输通道将所述待存储日志发送至所述处理节点，具有相同用户信息的待存储日志所对应的传输通道一致；

发送模块，根据预设的发送策略将所述待存储日志从所述处理节点发送至所述存储节点；

存储模块，根据所述存储节点的日志缓存情况以及预设的日志缓存条件将所述待存储日志存储于所述存储节点。
如权利要求7所述的设备，其特征在于，所述确定模块具体用于：

接收由所述收集层发送的所述待存储日志；

确定所述待存储日志对应的用户，并获取所述用户的所述用户信息；

获取所述用户信息在通过预设的哈希算法处理后得到的数值；

查询当前与所述数值对应的传输通道，生成所述数值、所述传输通道以及所述用户信息之间的对应关系。
如权利要求7所述的设备，其特征在于，所述发送模块具体用于：

当所述处理节点的缓存池中所缓存的日志的数量和/或时间达到所述缓存阈值时，将所述日志按照接收时间排序处理；

按照所述数据发送比例依次发送所述排序处理后的日志；

其中，所述发送策略至少包括所述数据发送比例以及所述缓存阈值。
如权利要求7所述的设备，其特征在于，所述缓存阈值包括日志缓存数量阈值以及日志缓存时间阈值，按照所述数据发送比例依次发送所述排序处理后的日志，具体为：

根据所述处理节点的缓存池的容量以及所述数据发送比例确定可发送的日志的数量；

从所述排序处理后的日志中选取所述数量的日志并发送。
如权利要求7所述的设备，其特征在于，所述存储模块具体用于：

判断所述存储节点的日志缓存情况是否满足预设的日志存储条件；

若判断结果为是，将所述待存储日志与所述存储节点中的其他待存储日志进行并包存储；

若判断结果为否，在预设的周期之后判断所述存储节点的日志缓存情况是否满足预设的日志存储条件。
如权利要求11所述的设备，其特征在于，所述判断模块具体用于：

判断所述存储节点当前已缓存日志的时间是否超过预设的时间阈值；

或，判断所述存储节点当前已缓存的日志的数量是否超过预设的数量阈值；

或，判断所述存储节点当前已缓存的日志的大小是否超过预设的容量阈值。