WO2020258290A1

WO2020258290A1 - 日志数据收集方法、日志数据收集装置、存储介质和日志数据收集系统

Info

Publication number: WO2020258290A1
Application number: PCT/CN2019/093854
Authority: WO
Inventors: 樊林
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-30
Also published as: US11755452B2; CN112449750A; US20220004480A1

Abstract

一种日志数据收集方法、日志数据收集装置、存储介质以及日志数据收集系统。该日志数据收集方法，包括：获取在应用容器环境下至少一个容器产生的日志数据；将日志数据传输至日志缓存单元中进行缓存；通过日志采集单元采集日志缓存单元中缓存的日志数据，并将日志数据传输至日志存储单元上进行存储。该日志数据收集方法可以解决在应用容器环境下产生的日志数据保存不全的问题。

Description

日志数据收集方法、日志数据收集装置、存储介质和日志数据收集系统

技术领域

本公开的实施例涉及一种日志数据收集方法、日志数据收集装置、存储介质和日志数据收集系统。

背景技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及将这些应用打包到一个可移植的容器(container)中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。容器使用沙箱机制，且容器与容器之间不会有任何接口，是相互独立的。

发明内容

本公开至少一实施例提供一种日志数据收集方法，包括：获取在应用容器环境下至少一个容器产生的日志数据；将所述日志数据传输至日志缓存单元中进行缓存；通过日志采集单元采集所述日志缓存单元中缓存的日志数据，并将所述日志数据传输至日志存储单元上进行存储。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述日志缓存单元包括消息队列组件，所述日志采集单元包括数据流迁移组件；所述日志数据收集方法包括：将所述日志数据直接传输至所述消息队列组件中进行缓存；通过所述数据流迁移组件采集所述消息队列组件中缓存的日志数据，并将所述日志数据传输至所述日志存储单元上进行存储。

例如，在本公开至少一实施例提供的日志数据收集方法中，将所述日志数据传输至日志缓存单元中进行缓存，包括：根据所述日志数据的日志类型，将不同日志类型的日志数据分别发送至所述消息队列组件中不同的消息队列中进行缓存。

例如，在本公开至少一实施例提供的日志数据收集方法中，通过日志采集单元采集所述日志缓存单元中缓存的日志数据，包括：所述日志采集单元逐个读取所述不同的消息队列中缓存的日志数据，以采集所述日志缓存单元中缓存的日志数据。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述日志数据包括错误级日志数据、警告级日志数据和信息级日志数据。

例如，在本公开至少一实施例提供的日志数据收集方法中，基于系统时间并按照第一时间范围将所述日志数据传输至所述日志存储单元上进行存储。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述日志存储单元包括分布式文件系统；将所述日志数据传输至所述日志存储单元上进行存储包括：将所述日志采集单元采集的日志数据，传输至所述分布式文件系统上进行分布式存储。

例如，本公开至少一实施例提供的日志数据收集方法，还包括：对存储至所述日志存储单元的日志数据进行数据处理。

例如，在本公开至少一实施例提供的日志数据收集方法中，使用时间片作为过滤条件确定需要进行所述数据处理的日志数据的数据范围；判断所述数据范围内的日志数据是否合规，如果合规，则结构化收集所述日志数据，并输出所述日志数据至带有时间片的目标文件中进行存储。

例如，在本公开至少一实施例提供的日志数据收集方法中，判断所述数据范围内的日志数据是否合规包括：分布式逐条读入至少一个所述数据范围的日志数据，以判断所述至少一个数据范围内的日志数据是否合规。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述日志数据为智能问答系统产生的日志数据。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述日志数据的类型包括第一类日志数据和第二类日志数据；所述第一类日志数据发送至所述消息队列组件中的第一消息队列中进行缓存；所述第二类日志数据发送至所述消息队列组件中的第二消息队列中进行缓存；所述第一消息队列和所述第二消息队列为不同的消息队列。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述第一类日志数据为基于通用类问答产生的日志数据，所述第二类日志数据为基于艺术类问答产生的日志数据。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述应用容器环境包括所述至少一个容器，所述智能问答系统包括自然语言理解子系统，所述自然语言理解子系统运行在所述应用容器环境的至少一个容器上并产生所述日志数据，所述至少一个容器响应于业务请求输出所述日志数据。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述应用容器环境包括多个容器，所述自然语言理解子系统的不同业务模块运行在不同的容器中。

例如，在本公开至少一实施例提供的日志数据收集方法中，所述应用容器环境采用docker容器引擎实现。

本公开至少一实施例还提供一种日志数据收集装置，包括：日志获取单元、日志缓存单元、日志采集单元和日志存储单元。日志获取单元，配置为获取在应用容器环境下至少一个容器产生的日志数据；日志缓存单元，配置为缓存所述日志数据；日志采集单元，配置为采集所述日志缓存单元中缓存的日志数据并进行传输；日志存储单元，配置为存储所述日志数据。

例如，在本公开至少一实施例提供的日志数据收集装置中，所述日志缓存单元包括消息队列组件，所述日志采集单元包括数据流迁移组件，所述日志存储单元包括分布式文件系统。

本公开至少一实施例还提供一种日志数据收集装置，包括：处理器；存储器，存储有一个或多个计算机程序模块；所述一个或多个计算机程序模块被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现本公开任一实施例提供的日志数据收集方法的指令。

本公开至少一实施例还提供一种存储介质，非暂时性地存储计算机可读指令，当所述计算机可读指令由计算机执行时可以执行根据本公开任一实施例提供的日志数据收集方法。

本公开至少一实施例还提供一种日志数据收集系统，包括终端设备和服务器；所述终端设备配置为接收音频或文字信息，并将所述音频或文字信息发送至所述服务器；所述服务器配置为接收所述终端设备发送的所述音频或文字信息，并产生日志数据，且基于本公开任一实施例提供的日志数据收集方法收集所述日志数据。

例如，在本公开至少一实施例提供的日志数据收集系统中，所述终端设备包括电子画框。

例如，在本公开至少一实施例提供的日志数据收集系统中，所述音频或文字信息包括通用类音频或文字信息和艺术类音频或文字信息，所述服务器包括通用类应用容器和艺术类应用容器、消息队列组件、数据流迁移组件和分布式文件系统；所述通用类应用容器，配置为响应于所述通用类音频或文字信息输出通用类日志数据；所述艺术类应用容器，配置为响应于所述艺术类音频或文字信息输出艺术类日志数据；所述消息队列组件，配置为缓存所述通用类日志数据和所述艺术类日志数据；所述数据流迁移组件，配置为采集所述消息队列组件中缓存的所述通用类日志数据和所述艺术类日志数据并进行传输；所述分布式文件系统，配置为存储所述通用类日志数据和所述艺术类日志数据。

例如，在本公开至少一实施例提供的日志数据收集系统中，所述消息队列组件包括通用类主题的消息队列和艺术类主题的消息队列；所述通用类日志数据缓存在所述通用类主题的消息队列中，所述艺术类日志数据缓存在所述艺术类主题的日志数据中。

例如，在本公开至少一实施例提供的日志数据收集系统中，所述服务器还配置为根据第一原则判断存储在所述分布式文件系统上的所述通用类日志数据和所述艺术类日志数据是否合规。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1为本公开至少一实施例提供的一种日志数据收集方法的流程图；

图2为本公开至少一实施例提供的另一种日志数据收集方法的流程图；

图3为本公开至少一实施例提供的一种日志数据收集方法的示意框图；

图4为本公开至少一实施例提供的一种数据处理操作的流程图；

图5为本公开至少一实施例提供的一种日志数据收集装置的示意框图；

图6为本公开至少一实施例提供的另一种日志数据收集装置的示意框图；

图7为本公开至少一实施例提供的一种存储介质的示意图；

图8为本公开至少一实施例提供的一种日志数据收集系统的示意图；以及

图9为本公开至少一实施例提供的一种终端设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面通过几个具体的实施例对本公开进行说明。为了保持本发明实施例的以下说明清楚且简明，可省略已知功能和已知部件的详细说明。当本发明实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同的参考标号表示。

部署在容器中的应用程序可以自动化运行。在应用开发过程中，需要持续不断地执行开发、部署、测试，而将代码编译打包成docker镜像(image)是应用部署、发布、运维管理的基础。而且，系统可以方便地根据不同的镜像产生不同的容器，以应对不同的业务需要，并且在相应业务需要消失后可以方便回收容器，因此，可以通过应用容器引擎方便地实现可伸缩架构。

基于例如docker环境的智能问答系统是在高并发环境下运行的，使用可伸缩的应用容器环境可以应对高并发的业务请求，但是也产生了大量的日志数据。同时，在高并发环境下，由于多个docker容器彼此之间是独立运行的，线上数据生产快且具有突发性，因此可能会因为容器环境读写文件的限制，导致日志数据保存不全。例如，当该多个docker容器中产生的数据均以文件的形式同时存入例如速阻机时，会产生争夺存储资源的现象，因此，可能会使得在日志数据产生的高峰时间日志数据写入失败，从而造成数据存储不全或读取麻烦的问题。

本公开至少一实施例提供一种日志数据收集方法，包括：获取在应用容器环境下至少一个容器产生的日志数据；将日志数据传输至日志缓存单元中进行缓存；通过日志采集单元采集日志缓存单元中缓存的日志数据，并将日志数据传输至日志存储单元上进行存储。

本公开至少一实施例还提供一种对应于上述日志数据收集方法的日志数据收集装置、存储介质和日志数据收集系统。

本公开上述实施例提供的日志数据收集方法可以解决在应用容器环境下产生的日志数据保存不全的问题，从而拓宽了应用容器的使用环境，提高了其市场竞争力。

下面结合附图对本公开的实施例及其一些示例进行详细说明。

图1为本公开至少一实施例提供的一种日志数据收集方法的流程图。例如，该日志数据收集方法可以应用于基于应用容器环境运行的各种系统，例如，智能问答系统等，当然，也可以用于其他运行环境下各个系统，本公开的实施例对此不作限制。该日志数据收集方法可以以软件的方式实现，由智能问答系统中的处理器加载并执行，例如由中央处理器(Central Processing Unit，CPU)加载并执行；或，至少部分以软件、硬件、固件或其任意组合的方式实现，可以解决在高并发环境下产生的日志数据保存不全的问题，拓宽了应用容器环境的应用领域，提高了市场竞争率。

下面，参考图1对本公开至少一实施例提供的日志数据收集方法进行说明。如图1所示，该日志数据收集方法包括步骤S110至步骤S130，下面对该日志数据收集方法的步骤S110至步骤S130以及它们各自的示例性实现方式分别进行介绍。

步骤S110：获取在应用容器环境下至少一个容器产生的日志数据。

步骤S120：将日志数据传输至日志缓存单元中进行缓存。

步骤S130：通过日志采集单元采集日志缓存单元中缓存的日志数据，并将日志数据传输至日志存储单元上进行存储。

例如，上述步骤中提到的日志缓存单元以及日志采集单元可以通过硬件(例如电路)模块或软件模块及其任意组合等形式实现。例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。例如，该处理单元可以为通用处理器或专用处理器，可以是基于X86或ARM架构的处理器等。

对于步骤S110，例如，在本公开一些实施例中，应用容器环境采用docker容器引擎实现，相应地，该应用容器例如为docker容器。例如，各个docker容器是相互独立的，当业务(例如，智能问答业务)数量增多时，可以相应地增加docker容器的数量，从而提高docker容器的处理效率，本公开的实施例对此不作限制。

例如，可以把每个docker容器看做是一个独立的主机。docker容器的创建通常有一个镜像(Image)作为其模板。类比成虚拟机的话，可以理解为镜像就是虚拟机的镜像，而docker容器就是一个个正在运行的虚拟机。例如，docker容器创建后里面有什么软件完全取决于它使用的镜像。镜像可以通过docker容器创建(相当于把此时docker容器的状态保存成快照)，也可以通过Dockerfile(一个文本文件，里面使用docker规定的一些规则)来创建。仓库(Registry)是集中存放镜像文件的场所，每个仓库中可以包含多个镜像，每个镜像有不同的标签(tag)。仓库分为公开(Public)仓库和私有(Private)仓库两种形式。最大的公开仓库是Docker Hub，存放了数量庞大的镜像供用户下载。本公开的实施例对于镜像的创建、存放等不作限制。

下面以docker容器应用于智能问答系统为例进行说明，相应地，该日志数据为基于该docker容器环境运行的智能问答系统产生的日志数据，本公开的实施例对此不作限制。

例如，应用容器环境包括至少一个容器，智能问答系统包括的自然语言理解(Natural Language Understanding，简称NLU)子系统(例如，问答(Q&A)子系统、对话子系统等)运行在应用容器环境的至少一个容器上并产生日志数据。例如，该至少一个容器响应于业务请求输出该日志数据。

例如，在一些示例中，应用容器环境包括多个容器，自然语言理解子系统的不同业务模块(例如第一类业务模块(例如，通用类业务模块)、第二类业务模块(例如，艺术类业务模块))运行在不同的容器中，以实现对不同业务请求的响应，从而输出不同类型的日志数据。

例如，如图3所示，自然语言理解子系统的通用类业务模块处理通用类的业务请求(例如，天气问答、时间问答等日常生活中的常用用语)，且运行在第一类docker容器(例如，通用类docker容器)中；自然语言理解子系统的艺术类业务模块处理艺术类的业务请求(例如，画作是谁画的等问答)，且运行在第二类docker容器(例如，艺术类docker容器)中。

例如，该日志数据的类型包括第一类日志数据(例如，通用类日志数据)和第二类日志数据(例如，艺术类日志数据)。例如，该通用类日志数据例如包括响应于天气问答、时间问答等业务请求产生的日志数据，即通用类docker容器产生的日志数据；艺术类日志数据例如包括响应于画作问答等业务请求产生的日志数据，即艺术类docker容器产生的日志数据，本公开的实施例对此不作限制。需要注意的是，日志数据的类型还可以包括推理类日志数据或更多其他类型的日志数据，例如，该推理类日志数据可以是对上述业务请求进行判断和处理过程中产生的日志数据，本公开的实施例对此不作限制。

例如，在一些示例中，该日志数据可以分为多个级别，例如包括错误(error)级日志数据、警告(warn)级日志数据和信息(info)级日志数据。例如，错误级日志数据包括可能仍然允许应用继续运行的错误事件，警告级日志数据包括潜在的有害位置，信息级日志数据包括在表示应用运行进程中较粗粒度的信息事件。需要注意的是，该日志数据还可以包括调试(debug)级日志数据和致命(fatal)级日志数据，例如，该调试级日志数据包括对于调试应用比较有用的较细粒度的信息事件，其等级低于信息级数据，该致命级数据包括可能导致应用被终止的非常严重的错误事件，其等级可高于错误级日志数据和警告级日志数据，本公开的实施例对此不作限制。

例如，在本公开的一些实施例中，可以仅收集错误级日志数据、警告级日志数据和信息级日志数据，通过仅收集对应级别类的日志数据，可以减少日志数据的数量，提高系统的工作效率和准确率。

例如，在一些示例中，如图2所示，该步骤S110可以包括步骤S210-步骤S240。

步骤S210：接收业务请求。

例如，该业务请求可以是智能问答系统接收的问题，例如，今天天气如何，现在几点了等等。例如，该智能问答系统不限于一个，可以包括多个，该日志收集方法可以对该多个智能问答系统产生的日志数据同时进行收集。

步骤S220：至少一个应用容器处理该业务请求。

例如，至少一个应用容器响应于业务请求输出对相应问题的回答。例如，不同类型的业务请求在不同的docker容器中处理，这些不同的docker容器基于不同的镜像创建。例如，如图3所示，根据处理的业务请求的不同，docker容器可以分为通用类docker容器、艺术类docker容器等，相应地，其产生的日志数据为通用类日志数据以及艺术类日志数据等，具体可根据实际情况设置，本公开的实施例对此不作限制。

步骤S230：产生相关的日志数据。

例如，在该至少一个应用容器处理该业务请求的过程中，会产生例如用户标识信息，用户问题信息以及设备信息等多个日志数据，该多个日志数据可以分为上述类型和等级，从而基于其类型和等级对其进行相应的存储，以便于在后续处理过程中进行处理和调用。

步骤S240：获取该日志数据。

例如，可以根据需要获取相应的日志数据。例如，如上所述，可以仅获取各个等级的日志数据中的错误级日志数据、警告级日志数据和信息级日志数据，以减少日志数据的处理量，提高日志数据的处理效率。

例如，在一些示例中，上述日志数据可以根据实际需要分为不需要持久化保存的日志数据和需要持久化保存的日志数据。例如，在一些示例中，可以将在应用容器环境下产生的不需要持久化保存的日志数据传输至日志缓存单元中进行缓存，将需要持久化保存的日志数据直接以文件的形式存储，也可以将二者均通过日志缓存单元进行缓存，具体可根据实际需要进行设置，本公开的实施例对此不作限制。例如，可以根据日志数据的重要程度或实际需要决定其是否需要存储多份。例如，在一些示例中，十分重要的日志数据可以包括错误级日志数据和警告级日志数据，例如可用于问题追踪、错误判断等。例如，相对不重要的日志数据可以包括调试级日志数据或信息级日志数据等。例如，在一些实施例中，该相对重要的日志数据可以根据需要存储例如两份，一份传输至日志缓存单元中进行缓存，另一份直接以文件的形式存储，例如，存储在速阻机、硬盘上等。

例如，在一些示例中，该需要持久化保存的日志数据可以包括各个等级的日志数据，例如错误级日志数据和警告级日志数据等，该不需要持久化保存的日志数据也包括各个等级的日志数据，例如包括信息级以上的日志数据(例如，错误级日志数据、警告级日志数据和信息级日志数据等)，例如用于后续的文本分析等，具体可根据实际需要设置，本公开的实施例对此不作限制。需要注意的是，需要传输和保存的日志数据可根据实际需要确定，例如，还可以包括调试级日志数据或致命级日志数据，本公开的实施例对此不作限制。

例如，获取上述日志数据之后，接下来，进入后续的步骤S120和步骤S130。

例如，可以提供用于获取日志数据的日志获取单元，并通过该日志获取单元获取在应用容器环境下至少一个容器产生的日志数据；例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现日志获取单元。

对于步骤S120，例如，在该示例中，将日志数据以数据流的方式传输至日志缓存单元中进行缓存，而不是直接传输至例如速阻机中以文件的方式存储，可以避免出现资源争夺现象，从而避免了在高并发环境下产生的日志数据保存不全等问题。

例如，在一些示例中，日志缓存单元包括消息队列组件。例如，在该示例中，该步骤S120可以具体实现为如图2所示步骤S250：将日志数据直接传输至消息队列组件中进行缓存。

例如，该消息队列组件为分布式消息队列组件，例如，可以采用kafka组件实现，本公开的实施例对此不作限制。例如，分布式消息队列组件包括多个不同的消息队列，例如，包括第一消息队列、第二消息队列，……，第N(N为大于2的整数)消息队列等。第一消息队列、第二消息队列，…… 第N(消息队列为不同的消息队列，例如，不同主题的消息队列。

例如，根据日志数据的日志类型，可以将不同日志类型的日志数据分别发送至消息队列组件中不同的消息队列中进行缓存。例如，如图3所示，上述通用类docker容器产生的通用类日志数据发送至消息队列组件中的第一消息队列中进行缓存；上述艺术类docker容器产生的艺术类日志数据发送至消息队列组件中的第二消息队列中进行缓存。因此，可以基于该消息队列组件的并发吞吐能力实现数据流的有序传输。

下面对消息队列组件的结构和操作模式进行简要的介绍，需要注意的是，本公开的实施例不限于下面的介绍，还可以采用本领域的其他结构和操作模式，本公开的实施例对此不作限制。

例如，该消息队列组件可以实现为分布式、支持分区(partition)的、多副本(replica)的且基于例如zookeeper这样的协调机制的分布式消息系统，其最大的特性就是可以实时的处理大量数据以满足各种需求场景。例如，该消息队列组件对消息保存时根据主题(Topic)进行归类，发送消息者称为生产者(Producer)，消息接收者称为消费者(Consumer)。消息队列集群包括多个消息队列实例，每个消息队列实例称为代理者(broker)。无论是消息队列集群，还是生产者和消费者，都依赖于zookeeper来保证系统可用性。

消息队列组件中发布订阅的对象是主题下的消息队列。可以为每类日志数据创建一个主题，把向各个主题的消息队列发布消息的客户端称作生产者，从各个主题的消息队列订阅消息的客户端称作消费者。生产者和消费者可以同时从多个主题的消息队列中读写数据。一个消息队列集群由一个或多个代理者(例如，服务器)组成，它负责持久化和备份具体的队列消息。

例如，消息队列集群中的机器/服务被称为代理者。消息队列组件中的一个节点就是一个代理者，一个消息队列集群包括多个代理者。需要注意的是，一个节点上可以包括多个代理者。一台机器上的代理者的数量由服务器的数量决定。

例如，主题表示一类消息，消息存放的目录即主题，例如page view日志、click日志等都可以以主题的形式存在，消息队列集群能够同时负责多个主题的消息队列中的消息的分发。一个代理者可以包括多个主题。

例如，分区表示主题的物理分组，一个主题可以分为多个分区，每个分区是一个有序的队列。在日志数据的产生和消费过程中，不需要关注具体存储的分区在哪个代理者上，只需要指定主题即可，由消息队列组件负责将日志数据和对应的分区关联上。

例如，消息表示传递的数据对象，主要包括四部分：偏移量、密钥、数值以及插入时间等。例如，本公开实施例中的日志数据即为该消息。

例如，生产者生产消息发送到相应主题的消息队列中。

例如，消费者订阅主题并消费该主题的消息队列中存储的消息,消费者作为一个线程来进行消费。

例如，一个消费者组包含多个消费者,这个是预先在配置文件中配置好的。各个消费者(消费者线程)可以组成一个消费者组，分区中的每个消息只能被消费者组中的一个消费者(消费者线程)消费，如果一个消息可以被多个消费者(消费者线程)消费的话，那么这些消费者需要在不同的组。消息队列组件为了保证吞吐量，只允许一个消费者线程去访问一个分区。如果觉得效率不高的时候，可以通过增加分区的数量来横向扩展，那么再加新的消费者线程去消费，从而充分发挥了横向的扩展性，吞吐量极高，这也就形成了分布式消费的概念。

例如，一个消息队列集群中包含若干生产者(可以是web前端产生的PageView、服务器日志或系统CPU、存储器等)、若干代理者(消息队列组件支持水平扩展，一般代理者数量越多，集群吞吐率越高)、若干消费者组以及一个Zookeeper集群。消息队列组件通过Zookeeper管理集群配置，选举决策者，以及在消费者组发生变化时进行再平衡操作。生产者使用推(push)模式将消息发布到代理者，消费者使用拉(pull)模式从代理者订阅并消费消息。

生产者到代理者的过程是推(push)操作，也就是有数据被推送到代理者，消费者到代理者的过程是拉(pull)操作，是通过消费者主动去拉数据的，而不是代理者把数据主动发送到消费者端的。

对于步骤S130，例如，在一些示例中，日志采集单元包括数据流迁移组件。例如，该数据流迁移组件包括分布式数据流迁移组件，例如flume组件等大数据ETL(Extraction-Transformation-Loading，提取、转换和加载)组件。需要注意的是，该日志采集单元只要是具有与日志缓存单元对应的接口的组件即可，本公开的实施例对此不作限制。

例如，如图2所示，该步骤S130具体包括步骤S260：通过数据流迁移组件采集消息队列组件中缓存的日志数据，并将日志数据传输至日志存储单元上进行存储。如图3所示，日志采集单元包括多个数据流迁移组件，不同的数据流迁移组件与不同主题的消息队列一一对应，以分别收集不同的消息队列中缓存的日志数据。例如，日志采集单元逐个读取不同的消息队列中缓存的日志数据，以采集日志缓存单元中缓存的日志数据，即数据流从消息队列组件传输至数据流迁移组件的传输方式采用流式传输。

例如，该数据流迁移组件可以实现为一个分布式系统，用于有效地从许多不同的源(例如，消息队列组件)收集、聚合和移动大量日志数据到一个集中式的数据存储区，是一个可以收集例如日志、事件等数据资源，并将这些数量庞大的日志数据从各项数据资源中集中起来存储的工具/服务，或者数据集中机制。

例如，数据流迁移组件的外部结构可以包括数据发生器，数据发生器(例如，消息队列组件)产生的日志数据被单个的运行在数据发生器所在服务器上的代理专区(agent)所收集，之后数据接收器从各个代理专区上汇集日志数据并将采集到的日志数据存入到日志存储单元中。

例如，数据流迁移组件内部包括一个或者多个代理专区，然而对于每一个代理专区来说，它就是一个独立的守护进程(JVM)，它从客户端(例如，消息队列组件)接收日志数据，或者从其他的代理专区接收日志数据，然后迅速的将获取的日志数据传给下一个目的节点，例如，接收器(sink)、日志存储单元或者下一个代理专区。

例如，代理专区主要包括三个组件：数据源(source)，通道(channel)和接收器(sink)。例如，数据源从数据发生器接收日志数据，并将接收的日志数据传递给一个或者多个通道。例如，通道是一种短暂的存储容器，它将从数据源处接收到的日志数据缓存起来，直到它们被接收器消费掉，它在数据源和接收器之间起着桥梁的作用。通道是一个完整的事务，这一点保证了数据在收发的时候的一致性，并且它可以和任意数量的数据源和接收器连接。例如，通道的类型有:JDBC channel，File System channel，Memort channel等。例如，接收器将日志数据存储到例如日志存储单元，它从通道中消费日志数据并将其传递给目标地，例如，该目标地可能是另一个接收器，也可能日志存储单元。例如，数据流迁移组件可以采用flume组件实现。

例如，在一些示例中，日志存储单元包括大数据存储平台，例如，包括分布式文件系统(HDFS，Hadoop Distributed File System)、数据库(例如，HBase(HadoopDatabase，开源的非关系型分布式数据库))或其他普通文件(例如，Windows文件、linux文件等)等，本公开的实施例对此不作限制。

例如，将日志数据传输至日志存储单元上进行存储包括：将数据流迁移组件采集的日志数据，传输至分布式文件系统上进行分布式存储。例如，不同的数据流迁移组件中的日志数据保存在不同的分布式文件系统上。

例如，基于系统时间并按照第一时间范围将日志数据传输至日志存储单元(例如，分布式文件系统)上进行存储。例如，该系统时间可以是执行该日志数据处理方法的机器或系统上的时间。例如，在一些示例中，可以按照主题、年月日和第一时间范围(例如，一些具体的时间范围，例如，00:00-12:00、12:00-24:00等)建立文件夹以及文件，从而将对应于某个主题和时间的日志数据存储在相应的文件或文件夹下，从而实现日志数据的分布式存储，从而有利在后续步骤中对相应范围内的日志数据进行处理。

例如，在一些示例中，当日志数据存储至日志存储单元后，该日志收集方法还包括：对存储至日志存储单元的日志数据进行数据处理，从而保证存储的日志数据的准确性和实用性。

图4示出了本公开至少一实施例提供的一种数据处理的流程图，如图4所示，该数据处理操作包括步骤S140-步骤S180。下面参考图4对本公开至少一实施例提供的数据处理操作进行详细地介绍。

步骤S140：使用时间片作为过滤条件确定需要进行数据处理的日志数据的数据范围。

例如，该时间片表示时间范围。例如，根据实际需求设定一个时间范围，以筛选出该时间范围内的日志数据进行下面的数据处理。例如，该时间片可以包括一个第一时间范围的范围，即，该时间片为一个第一时间范围(例如，是00:00-12:00)，从而进率该第一时间范围的日志数据进行处理。当然，该时间片也可以包括多个第一时间范围的范围，即该时间片的范围涵盖多个第一时间范围(例如，是00:00-24:00，涵盖两个第一时间范围)，从而可以过滤该多个第一时间范围内的日志数据进行处理。

步骤S150：分布式逐条读入至少一个数据范围的日志数据。

例如，基于步骤S140中的不同的时间片可以获取至少一个数据范围，例如，可以对该至少一个数据范围内的日志数据分别同时进行数据处理。例如，每个数据范围内的日志数据分别被逐条读入，以对读入的日志数据逐条进行处理。例如，在一些示例中，该逐条读入的日志数据用于继续执行步骤S160，即用于判断是否合规，以筛选出合规的数据进行后续流程；在另一些示例中，该逐条读入的日志数据可直接用于执行步骤S170，即进行结构化处理，具体操作步骤可根据实际情况设置，本公开的实施例对此不作限制。

步骤S160：判断数据范围内的日志数据是否合规，如果是，则执行步骤S170，如果否，则继续执行步骤S160，以继续判断其余的日志数据是否合规。

例如，在该步骤中可以对各个分布式文件系统中的日志数据进行数据清洗。例如，判断数据范围内的日志数据是否合规可以包括：判断日志数据的格式、信息(例如，用户标识信息、用户问题信息等)以及时间等是否符合，本公开的实施例对此不作限制。基于此步骤可以筛选出准确的日志数据用于后面的数据分析。

步骤S170：结构化收集该日志数据。

例如，该结构化收集的过程包括：将例如文字形式的日志数据转换成矩阵形式。

例如，在上述步骤中，可以使用本领域的大数据处理程序按照任务调度清洗分布式文件系统中新增的日志数据。

步骤S180：输出该日志数据至带有时间片的目标文件中进行存储。

例如，将步骤S180中结构化后的日志数据存储至与其时间范围对应的目标文件中，从而完成日志数据的分布式存储。

例如，将上述进行数据处理后的日志数据汇集到结果文件，再进行报表所需指标(例如，问答时间、问答次数等)的相关计算，并在报表展示系统展示报表所需指标的计算结果，例如，柱状图展示。

本公开上述实施例提供的日志数据收集方法可以解决在高并发环境下日志数据保存不全的问题，从而拓宽了应用容器的使用环境，提高了其市场竞争力。

需要说明的是，本公开的一些实施例提供的日志数据收集方法的流程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行。虽然上文描述的日志数据收集方法的流程包括特定顺序出现的多个操作，但是应该清楚地了解，多个操作的顺序并不受限制。上文描述的日志数据收集方法可以执行一次，也可以按照预定条件执行多次。

本公开至少一实施例还提供一种日志数据收集装置。图5为本公开至少一实施例提供的一种日志数据收集装置的示意框图。

例如，如图5所示，在一些示例中，日志数据收集装置100包括日志获取单元110、日志缓存单元120、日志采集单元130和日志存储单元140。例如，这些单元可以通过硬件(例如电路)模块或软件模块及其任意组合等形式实现。

该日志获取单元110配置为获取在应用容器环境下至少一个容器产生的日志数据。例如，该日志获取单元110可以实现步骤S110，其具体实现方法可以参考步骤S110的相关描述，在此不再赘述。

该日志缓存单元120配置为缓存日志数据。例如，该日志缓存单元120可以实现步骤S120，其具体实现方法可以参考步骤S120的相关描述，在此不再赘述。

该日志采集单元130配置为采集日志缓存单元120中缓存的日志数据并进行传输，该日志存储单元140配置为存储日志数据。例如，该日志采集单元130和该日志存储单元140可以实现步骤S130，其具体实现方法可以参考步骤S130的相关描述，在此不再赘述。

例如，日志缓存单元120包括消息队列组件，日志采集单元130包括数据流迁移组件，日志存储单元140包括分布式文件系统。具体描述可参考日志数据收集方法中的描述，在此不再赘述。

需要注意的是，本公开的实施例提供的日志数据收集装置可以包括更多或更少的电路或单元，并且各个电路或单元之间的连接关系不受限制，可以根据实际需求而定。各个电路的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

图6为本公开至少一实施例提供的另一种日志数据收集装置的示意框图。如图6所示，该日志数据收集装置200包括处理器210、存储器220以及一个或多个计算机程序模块221。

例如，处理器210与存储器220通过总线系统230连接。例如，一个或多个计算机程序模块221被存储在存储器220中。例如，一个或多个计算机程序模块221包括用于执行本公开任一实施例提供的日志数据收集方法的指令。例如，一个或多个计算机程序模块221中的指令可以由处理器210执行。例如，总线系统230可以是常用的串行、并行通信总线等，本公开的实施例对此不作限制。

例如，该处理器210可以是中央处理单元(CPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，可以为通用处理器或专用处理器，并且可以控制日志数据收集装置200中的其它组件以执行期望的功能。

存储器220可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器210可以运行该程序指令，以实现本公开实施例中(由处理器210实现)的功能以及/或者其它期望的功能，例如日志数据收集方法等。在该计算机可读存储介质中还可以存储各种应用程序和各种数据，例如至少一个应用容器中产生的日志数据以及应用程序使用和/或产生的各种数据等。

需要说明的是，为表示清楚、简洁，本公开实施例并没有给出该日志数据收集装置200的全部组成单元。为实现日志数据收集装置200的必要功能，本领域技术人员可以根据具体需要提供、设置其他未示出的组成单元，本公开的实施例对此不作限制。

关于不同实施例中的日志数据收集装置100和日志数据收集装置200的技术效果可以参考本公开实施例提供的日志数据收集方法的技术效果，这里不再赘述。

本公开的一些实施例还提供一种存储介质。图7为本公开至少一实施例提供的一种存储介质的示意图。例如，该存储介质300非暂时性地存储计算机可读指令301，当计算机可读指令301由计算机(包括处理器)执行时可以执行本公开任一实施例提供的日志数据收集方法。

例如，该存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含缓存日志数据的计算机可读的程序代码，另一个计算机可读存储介质包含采集日志数据的程序代码。例如，当该程序代码由计算机读取时，计算机可以执行该计算机存储介质中存储的程序代码，执行例如本公开任一实施例提供的日志数据收集方法。

例如，该程序代码可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

本公开的实施例提供的存储介质的技术效果可以参考上述实施例中关于日志数据收集方法的相应描述，这里不再赘述。

本公开至少一实施例还提供一种日志数据收集系统。如图8所示，该日志数据收集系统500包括终端设备510和服务器520。

例如，终端设备510配置为接收音频或文字信息，并将音频或文字信息发送至服务器520。例如，终端设备可以是电子画框等电子设备。例如，该终端设备将在图9中进行详细地介绍，在此不再赘述。

例如，服务器520配置为接收终端设备510发送的音频或文字信息，并产生日志数据，且基于本公开任一实施例提供的日志数据收集方法收集该日志数据。

例如，在一些示例中，音频或文字信息包括通用类音频或文字信息和艺术类音频或文字信息，服务器520包括通用类应用容器和艺术类应用容器、消息队列组件、数据流迁移组件和分布式文件系统。例如，通用类应用容器，配置为响应于通用类音频或文字信息输出通用类日志数据；艺术类应用容器，配置为响应于艺术类音频或文字信息输出艺术类日志数据；消息队列组件，配置为缓存通用类日志数据和艺术类日志数据；数据流迁移组件，配置为采集消息队列组件中缓存的通用类日志数据和艺术类日志数据并进行传输；分布式文件系统，配置为存储通用类日志数据和艺术类日志数据。例如，该通用类应用容器、艺术类应用容器、消息队列组件、数据流迁移组件和分布式文件系统等可以参考上述日志数据收集方法的具体描述，在此不再赘述。

例如，该消息队列组件包括通用类主题的消息队列和艺术类主题的消息队列。通用类日志数据缓存在通用类主题的消息队列中，艺术类日志数据缓存在艺术类主题的日志数据中。例如，服务器520还还配置为基于第一原则判断存储在分布式文件系统上的通用类日志数据和艺术类日志数据是否合规。例如，该第一原则可根据电子画框的开机时间、电子画框的屏幕方向或电子画框的音量等进行设置。例如，当判断电子画框的开机时间时，该第一原则可设置为2019，即当开机时间显示2099年时，即不合规；例如，可设置第一原则为电子画框包括的横屏和竖屏，因此当显示斜屏时，即为不合规；又例如，可设置第一原则为电子画框的音量为0-100，当音量显示300时，即为不合规。本公开的实施例对此不作限制。

本公开至少一实施例还提供一种应用上述日志数据收集方法的终端设备。图9示出了本公开至少一实施例提供的一种终端设备的示意图。如图9所示，该终端设备600(如上所述的服务器或终端设备)可以包括但不限于诸如电子画框、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的终端设备仅仅是一个示例，本公开的实施例对此不作限制。

如图9所示，终端设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理，例如，上述日志数据收集方法。在RAM 603中，还存储有终端设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

例如，连接至I/O接口605的装置包括：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许终端设备600与其他设备进行无线或有线通信以交换数据。虽然图9示出了包括各种装置的终端设备600，但是应理解的是，并不要求实施或具备所有示出的装置，而且可以替代地实施或具备更多或更少的装置。

例如，在本公开的实施例中，上述参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在例如如图7所示的存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的日志数据收集方法中限定的上述功能。例如，上述存储介质可以是上述终端设备中所包含的；也可以是单独存在，而未装配入该终端设备中。

例如，在一些实施方式中，终端设备和服务器可以利用诸如HTTP(HyperText Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

本公开的实施例提供的日志数据收集系统的技术效果可以参考上述实施例中关于日志数据收集方法的相应描述，这里不再赘述。

有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅是本公开的示范性实施方式，而非用于限制本公开的保护范围，本公开的保护范围由所附的权利要求确定。

Claims

一种日志数据收集方法，包括：

获取在应用容器环境下至少一个容器产生的日志数据；

将所述日志数据传输至日志缓存单元中进行缓存；

通过日志采集单元采集所述日志缓存单元中缓存的日志数据，并将所述日志数据传输至日志存储单元上进行存储。
根据权利要求1所述的日志数据收集方法，其中，所述日志缓存单元包括消息队列组件，所述日志采集单元包括数据流迁移组件，

其中，所述日志数据收集方法包括：

将所述日志数据直接传输至所述消息队列组件中进行缓存；

通过所述数据流迁移组件采集所述消息队列组件中缓存的日志数据，并将所述日志数据传输至所述日志存储单元上进行存储。
根据权利要求2所述的日志数据收集方法，其中，将所述日志数据传输至日志缓存单元中进行缓存，包括：

根据所述日志数据的日志类型，将不同日志类型的日志数据分别发送至所述消息队列组件中不同的消息队列中进行缓存。
根据权利要求3所述的日志数据收集方法，其中，通过日志采集单元采集所述日志缓存单元中缓存的日志数据，包括：

所述日志采集单元逐个读取所述不同的消息队列中缓存的日志数据，以采集所述日志缓存单元中缓存的日志数据。
根据权利要求1-4任一所述的日志数据收集方法，其中，所述日志数据包括错误级日志数据、警告级日志数据和信息级日志数据。
根据权利要求1-5任一所述的日志数据收集方法，其中，基于系统时间并按照第一时间范围将所述日志数据传输至所述日志存储单元上进行存储。
根据权利要求1-6任一所述的日志数据收集方法，其中，所述日志存储单元包括分布式文件系统；

将所述日志数据传输至所述日志存储单元上进行存储包括：

将所述日志采集单元采集的日志数据，传输至所述分布式文件系统上进行分布式存储。
根据权利要求1-7任一所述的日志数据收集方法，还包括：

对存储至所述日志存储单元的日志数据进行数据处理。
根据权利要求8所述的日志数据收集方法，其中，

使用时间片作为过滤条件确定需要进行所述数据处理的日志数据的数据范围；

判断所述数据范围内的日志数据是否合规，如果合规，则结构化收集所述日志数据，并输出所述日志数据至带有时间片的目标文件中进行存储。
根据权利要求9所述的日志数据收集方法，其中，判断所述数据范围内的日志数据是否合规包括：

分布式逐条读入至少一个所述数据范围的日志数据，以判断所述至少一个数据范围内的日志数据是否合规。
根据权利要求1-10任一所述的日志数据收集方法，其中，所述日志数据为智能问答系统产生的日志数据。
根据权利要求11所述的日志数据收集方法，其中，所述日志数据的类型包括第一类日志数据和第二类日志数据；其中，

所述第一类日志数据发送至所述消息队列组件中的第一消息队列中进行缓存；

所述第二类日志数据发送至所述消息队列组件中的第二消息队列中进行缓存；

所述第一消息队列和所述第二消息队列为不同的消息队列。
根据权利要求12所述的日志数据收集方法，其中，所述第一类日志数据为基于通用类问答产生的日志数据，所述第二类日志数据为基于艺术类问答产生的日志数据。
根据权利要求11所述的日志数据收集方法，其中，所述应用容器环境包括所述至少一个容器，所述智能问答系统包括自然语言理解子系统，所述自然语言理解子系统运行在所述应用容器环境的至少一个容器上并产生所述日志数据，

其中，所述至少一个容器响应于业务请求输出所述日志数据。
根据权利要求14所述的日志数据收集方法，其中，所述应用容器环境包括多个容器，所述自然语言理解子系统的不同业务模块运行在不同的容器中。
根据权利要求1-15任一所述的日志数据收集方法，其中，所述应用容器环境采用docker容器引擎实现。
一种日志数据收集装置，包括：

日志获取单元，配置为获取在应用容器环境下至少一个容器产生的日志数据；

日志缓存单元，配置为缓存所述日志数据；

日志采集单元，配置为采集所述日志缓存单元中缓存的日志数据并进行传输；

日志存储单元，配置为存储所述日志数据。
根据权利要求17所述的日志数据收集装置，其中，所述日志缓存单元包括消息队列组件，所述日志采集单元包括数据流迁移组件，所述日志存储单元包括分布式文件系统。
一种日志数据收集装置，包括：

处理器；

存储器，存储有一个或多个计算机程序模块，其中，

所述一个或多个计算机程序模块被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于执行实现权利要求1-16任一所述的日志数据收集方法的指令。
一种存储介质，非暂时性地存储计算机可读指令，当所述计算机可读指令由计算机执行时可以执行根据权利要求1-16任一所述的日志数据收集方法。
一种日志数据收集系统，包括终端设备和服务器；其中，

所述终端设备配置为接收音频或文字信息，并将所述音频或文字信息发送至所述服务器；

所述服务器配置为接收所述终端设备发送的所述音频或文字信息，并产生日志数据，且基于权利要求1-16任一所述的日志数据收集方法收集所述日志数据。
根据权利要求21所述的日志数据收集系统，其中，所述终端设备包括电子画框。
根据权利要求22所述的日志数据收集系统，其中，所述音频或文字信息包括通用类音频或文字信息和艺术类音频或文字信息，所述服务器包括通用类应用容器和艺术类应用容器、消息队列组件、数据流迁移组件和分布式文件系统；

所述通用类应用容器，配置为响应于所述通用类音频或文字信息输出通用类日志数据；

所述艺术类应用容器，配置为响应于所述艺术类音频或文字信息输出艺术类日志数据；

所述消息队列组件，配置为缓存所述通用类日志数据和所述艺术类日志数据；

所述数据流迁移组件，配置为采集所述消息队列组件中缓存的所述通用类日志数据和所述艺术类日志数据并进行传输；

所述分布式文件系统，配置为存储所述通用类日志数据和所述艺术类日志数据。
根据权利要求23所述的日志数据收集系统，其中，所述消息队列组件包括通用类主题的消息队列和艺术类主题的消息队列；其中，

所述通用类日志数据缓存在所述通用类主题的消息队列中，所述艺术类日志数据缓存在所述艺术类主题的日志数据中。
根据权利要求23或24所述的日志数据收集系统，其中，所述服务器还配置为根据第一原则判断存储在所述分布式文件系统上的所述通用类日志数据和所述艺术类日志数据是否合规。