WO2017071134A1 - 分布式跟踪系统 - Google Patents

分布式跟踪系统 Download PDF

Info

Publication number
WO2017071134A1
WO2017071134A1 PCT/CN2016/072668 CN2016072668W WO2017071134A1 WO 2017071134 A1 WO2017071134 A1 WO 2017071134A1 CN 2016072668 W CN2016072668 W CN 2016072668W WO 2017071134 A1 WO2017071134 A1 WO 2017071134A1
Authority
WO
WIPO (PCT)
Prior art keywords
distributed
log
logs
cluster
analysis
Prior art date
Application number
PCT/CN2016/072668
Other languages
English (en)
French (fr)
Inventor
许丹霞
刘寅
郑宇�
Original Assignee
北京汇商融通信息技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京汇商融通信息技术有限公司 filed Critical 北京汇商融通信息技术有限公司
Publication of WO2017071134A1 publication Critical patent/WO2017071134A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Definitions

  • the present invention relates to a distributed tracking system, and more particularly to a distributed tracking system capable of efficiently analyzing system operation.
  • the distributed tracking system of the present invention is extended on the basis of the Dapper model, and provides a complete service tracking solution for the distributed system. More in line with the system architecture requirements of the existing SOA architecture, the information of multiple application servers can be collected and analyzed without affecting the performance of the existing system. The developer can monitor the running status of the system in real time, track the service request chain, and find out based on the analysis result. System performance bottleneck, optimization and adjustment The system configuration prevents and solves problems in advance, and the distributed tracking system of the present invention provides real-time early warning function to ensure that the system can notify the early warning in case of abnormal or downtime of the system, thereby ensuring system stability and high availability.
  • the monitoring of distributed architecture for SOA relied mainly on the analysis of various logs, such as system application logs, jvm logs, and operating system logs.
  • the log analysis can analyze the running status and execution efficiency of the system.
  • the log distribution is scattered, and the unified analysis of the collected logs becomes a problem, and the content of the log also needs to rely on the support of the developer and the underlying technical code, and cannot accurately locate the content that wants to pay attention to the analysis. It is not a good solution to analyze logs in full, the efficiency and results are not optimistic, and the operating costs are quite high.
  • monitoring systems that can monitor the running status of middleware and display the running status of the system in real time.
  • performance such as cpu, memory, thread, tps and pv
  • functions of such systems are relatively simple, and can only be targeted at a certain middleware such as a database, message middleware, and the like. Performance averages can only be analyzed horizontally, and it is not possible to analyze the execution of a process in the system vertically.
  • the object of the present invention is to solve the tracking, collecting and analyzing of a distributed background service call chain, including:
  • Variable sampling parameterizable configuration sampling, using a sampling expectation rate to identify the single Tracking of sampling within a bit time avoids the pressure of large data volume caused by full collection, which facilitates accurate analysis from tracking data.
  • a distributed tracking system including a log collector, a message middleware cluster, a distributed stream computing cluster, a unified configuration center, a distributed file system, a database, a distributed tracking system service cluster, a distributed tracking system web server, and a distributed File storage and data processing clusters, where:
  • the log collector is configured to read the log of the application cluster and read the configuration data of the unified configuration center in real time, and write the read log to the buffer queue of the log collector;
  • a middleware cluster for reading logs from the log collector in real time and buffering the read logs
  • a distributed stream computing cluster is used to read logs in a message middleware cluster, analyze and process the read logs in real time according to the configuration data of the read unified configuration center, and then store the real-time processing results in the database and read them. The full amount of logs written to the distributed file system Row storage
  • Distributed file storage and data processing cluster for offline distributed data analysis of logs stored in a distributed file system, and writing the analysis results back to the distributed file system;
  • a distributed tracking system service cluster for reading offline analysis results in a distributed file system, and merging the analysis data into a database
  • a distributed tracking web server that provides query services and maintains a unified configuration center.
  • the distributed tracking system is preferably:
  • the log collector reads the required logs based on the log collection policy in the configuration data read from the Unified Configuration Center.
  • the distributed tracking system preferably: a distributed stream computing cluster, and processing the read logs includes:
  • Verification Filter the data in the log that does not meet the specifications to achieve the standard that can be processed
  • the distributed tracking system is preferably:
  • the distributed tracking system service cluster provides query services for distributed tracking web servers.
  • the distributed tracking system is preferably:
  • the unified configuration center implements distributed unified configuration services based on zookeeper.
  • a distributed tracking method comprising the following steps:
  • the log collector reads the logs of the application cluster and reads the configuration data of the unified configuration center in real time, and writes the read logs to the buffer queue of the log collector;
  • the message middleware cluster reads the log from the log collector in real time, and buffers the read log.
  • the distributed stream computing cluster reads the logs in the message middleware cluster, processes the logs in real time, stores the real-time processing results in the database, and writes the read full-volume logs to the distributed file system for storage;
  • the distributed file storage and data processing cluster performs offline distributed data analysis on the logs stored in the distributed file system, and writes the analysis results back to the distributed file system;
  • the distributed tracking system service cluster reads the offline analysis results in the distributed file system, and merges the analysis data and stores them in the database;
  • the distributed tracking method is preferably:
  • the log collector reads the required logs based on the log collection policy in the configuration data read from the Unified Configuration Center.
  • the distributed tracking method preferably: the distributed stream computing cluster reads the day
  • the processing carried out by Zhizhi includes:
  • Verification Filter the data in the log that does not meet the specifications to achieve the standard that can be processed
  • the distributed tracking method is preferably:
  • the log generation strategy of the application cluster is mainly implemented by adding an interceptor or code embedding in the service middleware.
  • a request generates a context, identifies it with a globally unique TraceID, and identifies the order and nesting relationship of the log through the ReqID.
  • the logs are written to the cache queue.
  • the distributed tracking method preferably: the distributed file storage and the data processing cluster merges and aggregates the plurality of calling links through the TraceID, and analyzes the calling relationship and the dependency of the calling chain according to the ReqID.
  • the present invention adopts the following methods for achieving the object of the invention:
  • the log file is read into the message queue by the log collector based on the java multi-thread implementation.
  • Message middleware is based on kafka implementation, providing log caching and asynchronous read and write functions.
  • FIG. 1 is a schematic diagram of a distributed tracking system of the present invention
  • FIG. 2 is a schematic diagram of an application service call chain according to the present invention.
  • the distributed tracking system includes:
  • Log collector Read application cluster logs and read configuration data of the unified configuration center in real time.
  • the application cluster generates logs through the service middleware and writes the logs to the log files, and the log collector reads the logs of the application cluster.
  • the application cluster generates log operations based on the disruptor implementation and provides a standard API.
  • the api is invoked by setting the interceptor or code embedding, and the log is written to the buffer queue and saved asynchronously to the local log file.
  • the log collector writes the read logs to the buffer queue of the log collector, such as a ringbuffer.
  • the log collector reads the configuration data of the unified configuration center in real time, and reads the required logs according to the log collection policy of the configuration data, for example, based on including the log level; specific service type logs such as orders or commodities; collection rules such as real-time collection, timing collection Or collection by date; request type such as write operation or read operation; request source type such as http request or interface request and the sampling standard such as middleware ip, filter the log and store it in the buffer queue of the log collector, After the storage is successful, the independent thread is opened and sent to the message middleware cluster asynchronously.
  • the logs collected by the log collector include: request call chain, system state parameters, exception stack, and JVM GClog.
  • Message middleware cluster used to collect logs in real time, which can be implemented based on kafka (which is a distributed message queue used by linkedin for log processing), and provides log message queue buffering function to realize asynchronous transmission of log messages.
  • kafka which is a distributed message queue used by linkedin for log processing
  • 3.Storm (an open source, big data processing system) cluster a distributed streaming processing framework based on Storm, reads logs from the message middleware cluster, receives logs in the log message queue, and according to the read configuration The configuration information of the center is analyzed and processed in real time.
  • the main processing operations are as follows:
  • Verification It mainly filters some non-compliant data to meet the standards that the system can handle, including verifying the log format, whether the request chain can be analyzed, and whether the context information is complete.
  • Storm reads the logs in the message queue for verification analysis, analyzes a single call chain and stores the results in the database, and stores the full amount of logs in the offline data analysis cluster.
  • the alarm configuration information in the configuration center is integrated to notify the relevant development and operation and maintenance personnel. If the log error is found according to the configuration file information of the unified configuration center, the warning information-log error information is sent to the pre-set alarm information receiving address (such as the email address) in the configuration file.
  • Distributed file storage and data processing clusters which can be Hadoop clusters: distributed file storage and data processing framework based on Hadoop, realizes full log storage, and realizes offline distributed data analysis of logs through MapReduce, which will have the same TraceID.
  • Offline number based on hadoop
  • the analysis cluster it provides hdfs storage and big data offline analysis. Summarize a single call chain information to complete call chain information, and analyze and calculate information such as pv, tps, dependency, etc., and finally write the results back to hdfs.
  • Distributed tracking system service cluster Read offline statistical analysis results in hdfs, store the merged data in hbase or mysql according to the TraceID in the read result, and complete a single call chain analysis with the same TraceID. Results (such as tps (received requests per second), pv (access concurrency), qps (query per second), etc., while storing the complete call chain analysis results, providing query services for the distributed tracking system - web server.
  • Distributed tracking system web server Provides query service based on web container, and realizes analysis result visualization through UI interface.
  • the configuration center maintenance function is mainly used to configure information such as log sampling parameters, error warning level parameters, and log collection server address.
  • Unified Configuration Center Based on zookeeper to implement distributed unified configuration service, timeliness and data security can be guaranteed, and configuration services are provided for distributed tracking systems.
  • a service call consists of four collection points, namely ClientSend (client send), ServerRec (server receive), ServerSend (server send), and ClientRec (client receive).
  • ClientSend and ClientRec together form the client-side request context
  • ServerRec and ServerSend form the Sever. End request context, where ServerRec on the server side is composed of context information sent by the client.
  • the log generation strategy is mainly implemented by adding an interceptor and code embedding in the service middleware.
  • One request generates a context and is identified by a globally unique TraceID.
  • the thread local storage context is used to transfer contexts between different applications.
  • the log context mainly includes the following contents: TraceID, ReqID, ServiceID, ServiceName, ServiceType, ProcessTime, and NodeIP.
  • the TraceID is the tracking ID, which can be associated with multiple log contexts, and the ReqID can identify the order and nesting relationship of the logs.
  • the sequence and hierarchical relationship of all logs with the same TraceID can be analyzed according to ReqID.
  • the storage of logs is mainly divided into log storage of each service middleware and log storage after collection and analysis.
  • Service middleware log storage After the service middleware generates the log through the API provided by the distributed tracking system, it is asynchronously written to the cache queue based on the RingBuffer implementation, and is asynchronously saved to the local log file. The log is collected in the log collector log file, and the local disk stored after sampling is sent to the message queue through the thread asynchronously to complete the log collection.
  • Link analysis is performed on the request call chain through TraceID and ReqID. There are three methods: real-time analysis, offline analysis, and merge analysis.
  • Storm directly analyzes a single log information, and obtains information such as call chain call status, error information, and performance indicators directly into the database.
  • Service monitoring In addition to collecting logs, the log collector also supports collecting performance parameters of service middleware, and writes the collected information to the upper and lower logs, analyzes the data through the data processing cluster, and writes it to the database through distributed tracking.
  • the system web server implements monitoring of all service states and viewing service dependencies, including service name, method name, call duration, exception information, QPS, and dependency. Also supports viewing server operating status, including ip (address), cpu, memory, io (input and output) and disk usage.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种分布式跟踪系统,包括日志收集器,消息中间件集群,分布式流计算集群,统一配置中心,分布式文件系统,数据库,分布式跟踪系统服务集群,分布式跟踪系统web服务器,分布式文件存储和数据处理集群。该分布式跟踪系统能够高效地分析系统运行情况。

Description

分布式跟踪系统 技术领域
本发明涉及分布式跟踪系统,特别是涉及一种能够高效地分析系统运行情况的分布式跟踪系统。
背景技术
随着技术不断发展,如今互联网领域大多数后台服务都已经完成了SOA(面向服务的体系结构)化,所以对业务的跟踪可以直接简化为对服务调用框架的跟踪,所以越来越多的跟踪系统也涌现出来。目前分布式跟踪系统理论模型基本来源于GOOGLE的Dapper,它详细的阐述了如何对请求调用链进行跟踪,Dapper最初是为了追踪在线服务系统的请求处理过程。比如在搜索系统中,用户的一个请求在系统中会经过多个子系统的处理,而且这些处理是发生在不同机器甚至是不同集群上的,当请求处理发生异常时,需要快速发现问题,并准确定位到是哪个环节出了问题,这是非常重要的,Dapper就是为了解决这样的问题。但是Dapper只是为解决请求调用这一问题提出了理论模型和简单实现,功能比较单一,并不能提供全面的解决方案。
本发明的分布式跟踪系统是在Dapper模型的基础上进行扩展实现,提供了完整的分布式系统的业务跟踪的解决方案。更符合现有SOA架构的系统架构需求,可以在不影响现有系统性能的前提下,收集分析多台应用服务器的信息,开发人员可以实时监控系统运行状态,追踪业务请求链,根据分析结果查找系统的性能瓶颈,优化调整 系统配置提前预防和解决问题,同时本发明的分布式跟踪系统提供实时预警功能保证在系统出现异常或宕机的情况下可以及时通知预警,保证系统的稳定性和高可用性。
发明内容
以往针对SOA这种分布式架构的监控主要依赖于各种日志的分析,如系统应用日志,jvm日志,操作系统日志等。通过日志解析可以分析出系统的运行情况和执行效率。但日志分布分散,搜集日志统一分析就成了问题,而且日志的内容也是需要依赖于开发人员和底层技术代码的支撑,不能准确定位想要关注分析的内容。通过全量分析日志也不是一个好的解决方案,分析效率和结果不容乐观,而且运营成本也是相当高的。
目前也有一些监控系统可以监控中间件的运行状态,实时显示系统运行状态,但关注的目标主要还是性能方面,如cpu、内存、线程、tps和pv等指标,并不能及时反馈整体系统的运行情况,而且这类系统的功能都比较单一,只能针对某一中间件如数据库、消息中间件等。只能横向分析性能平均值,不能够纵向分析系统某一流程的执行情况。
本发明的目的是解决分布式后台服务调用链的跟踪、搜集和分析,其中包括:
1.调用链的跟踪,通过代码在中间件埋点来记录日志,用一个全局的ID将分布式请求串接起来。
2.可变采样,可参数化配置采样,使用一个采样期望率来标识单 位时间内采样的追踪,避免全量收集带来的大数据量压力,利于从跟踪数据中准确的分析。
3.多种数据采集,同时采集多种数据,包括请求调用链、系统状态参数、异常堆栈和JVM GClog等。
4.日志收集和存储,通过异步线程将缓存到内存队列的日志发送到消息队列中,统一通过storm进行汇总存储,同时支持实时汇总hbase、mysql和离线汇总hdfs存储。
5.调用链分析,支持离线汇总分析和实时的单链路分析。
6.实时预警,实现指标可配置,根据配置指标和分析结果,对不符合要求的分析结果进行预警。
为实现本发明之目的,采用以下技术方案予以实现:
一种分布式跟踪系统,包括日志收集器,消息中间件集群,分布式流计算集群,统一配置中心,分布式文件系统,数据库,分布式跟踪系统服务集群,分布式跟踪系统web服务器,分布式文件存储和数据处理集群,其中:
日志收集器,用于读取应用集群的日志以及实时读取统一配置中心的配置数据,并将读取到的日志写入日志收集器的缓冲队列;
消息中间件集群,用于从日志收集器实时读取日志,并将读取到的日志进行缓冲存储;
分布式流计算集群,用于读取消息中间件集群中的日志,根据读取的统一配置中心的配置数据实时分析处理读取的日志,之后将实时处理结果存入数据库中,并将读取的全量日志写入分布式文件系统进 行存储;
分布式文件存储和数据处理集群,用于对分布式文件系统中存储的日志进行离线分布式数据分析,并将分析结果回写到分布式文件系统;
分布式跟踪系统服务集群,用于读取分布式文件系统中的离线分析结果,合并分析数据后将其存入数据库中;
分布式跟踪web服务器,用于提供查询服务和对统一配置中心进行维护。
所述的分布式跟踪系统,优选的:
日志收集器根据从统一配置中心读取的配置数据中的日志收集策略读取所需的日志。
所述的分布式跟踪系统,优选的:分布式流计算集群,对读取的日志进行的处理包括:
(1)验证:对日志中不符合规范的数据进行过滤,以达到能够处理的标准;
(2)分析:对日志中的调用链进行统计,分析调用来源和调用依赖;
(3)预警:对于日志中的错误信息或分析出有问题的调用链,结合从统一配置中心读取的告警配置信息,进行预警提示;
(4)存储:将日志全量存储到分布式文件系统以及将上述(2)中的分析结果存入数据库。
所述的分布式跟踪系统,优选的:
分布式跟踪系统服务集群为分布式跟踪web服务器提供查询服务。
所述的分布式跟踪系统,优选的:
统一配置中心基于zookeeper实现分布式统一配置服务。
一种分布式跟踪方法,包括以下步骤:
日志收集器读取应用集群的日志以及实时读取统一配置中心的配置数据,并将读取到的日志写入日志收集器的缓冲队列;
消息中间件集群从日志收集器实时读取日志,并将读取到的日志进行缓冲存储;
分布式流计算集群读取消息中间件集群中的日志,对日志进行实时处理,之后将实时处理结果存入数据库中,并将读取的全量日志写入分布式文件系统进行存储;
分布式文件存储和数据处理集群对分布式文件系统中存储的日志进行离线分布式数据分析,并将分析结果回写到分布式文件系统;
分布式跟踪系统服务集群读取分布式文件系统中的离线分析结果,合并分析数据后将其存入数据库中;
通过分布式跟踪web服务器查询日志分析结果以及对统一配置中心进行维护。
所述的分布式跟踪方法,优选的:
日志收集器根据从统一配置中心读取的配置数据中的日志收集策略读取所需的日志。
所述的分布式跟踪方法,优选的:分布式流计算集群对读取的日 志进行的处理包括:
(1)验证:对日志中不符合规范的数据进行过滤,以达到能够处理的标准;
(2)分析:对日志中的调用链进行统计,分析调用来源和调用依赖;
(3)预警:对于日志中的错误信息或分析出有问题的调用链,结合从统一配置中心读取的告警配置信息,进行预警提示;
(4)存储:将日志全量存储到分布式文件系统以及将上述(2)中的分析结果存入数据库。
所述的分布式跟踪方法,优选的:
应用集群的日志生成策略主要通过在服务中间件添加拦截器或代码嵌入两种方式实现,一次请求生成一个上下文,用全局唯一的TraceID进行标识,通过ReqID标识日志的顺序和嵌套关系,服务中间件通过分布式跟踪系统服务集群提供的API生成日志后,将日志写到缓存队列中。
所述的分布式跟踪方法,优选的:分布式文件存储和数据处理集群对多条调用链路通过TraceID进行合并汇总,根据ReqID分析调用链的调用关系和依赖情况。
本发明为实现发明目的采用了以下的方式:
1.通过调取api的方式将日志写入本地文件。
2.通过基于java多线程实现的日志收集器读取日志文件写入消息队列中。
3.消息中间件基于kafka实现,提供日志的缓存和异步读写功能。
4.通过基于storm实现的分布式分析集群,读取消息队列中的日志进行验证分析,对单条调用链进行分析并将结果存储到数据库中,同时将全量日志存储到离线数据分析集群中。
5.通过基于hadoop实现的离线数据分析集群,提供hdfs存储和大数据离线分析功能。汇总单条调用链信息到完整调用链信息,并分析计算如pv、tps、依赖度等信息,最后将结果回写到hdfs中。
6.通过基于hbase和mysql两种数据库的方式提供数据库存储服务,存储调用链分析结果信息。
7.通过基于java架构实现的分布式跟踪系统集群,将离线数据分析集群计算分析的结果整合到数据库中。
8.通过分布式跟踪系统web服务器提供可视化界面进行分析结果展示和查询,同时支持对配置中心的配置功能。
9.通过基于zookeeper的统一配置中心,提供实时的配置信息读写服务。
附图说明
图1为本发明分布式跟踪系统示意图;
图2为本发明应用服务调用链示意图。
具体实施方式
如图1所示,分布式跟踪系统包括:
1.日志收集器:读取应用集群日志以及实时读取统一配置中心的配置数据。其中应用集群通过服务中间件产生日志并将日志写入日志文件,日志收集器读取该应用集群的日志。应用集群生成日志的操作可以基于disruptor实现并提供标准api,通过设置拦截器或者代码嵌入的方式调用api,将日志写入缓冲队列,并异步保存到本地日志文件中。日志收集器将读取的日志写入日志收集器的缓冲队列,如ringbuffer(环形缓冲区)。日志收集器实时读取统一配置中心的配置数据,根据配置数据的日志收集策略读取所需的日志,例如基于包括日志级别;具体业务类型日志如订单或商品;收集规则如实时收集、定时收集或者按日期收集等;请求类型如写操作或读操作;请求来源类型如http请求或接口请求等和中间件ip之类的采样标准,过滤日志并将其存储在日志收集器的缓冲队列中,存储成功后开启独立的线程,异步发送到消息中间件集群。日志收集器收集的日志包括:请求调用链、系统状态参数、异常堆栈和JVM GClog等。
2.消息中间件集群:用于实时收集日志,其可基于kafka(是linkedin用于日志处理的分布式消息队列)实现,提供日志消息队列缓冲功能,实现日志消息异步传输。
3.Storm(一种开源的、大数据处理系统)集群:基于storm实现的分布式流式处理框架,从消息中间件集群读取日志,接收日志消息队列中的日志,并根据读取的配置中心的配置信息实时分析处理日志,主要处理操作如下:
(1)验证:主要是对一些不符合规范的数据进行过滤,以达到系统能够处理的标准,包括对日志格式、请求链是否可分析、上下文信息是否完整等信息进行验证。Storm读取消息队列中的日志进行验证分析,对单条调用链进行分析并将结果存储到数据库中,同时将全量日志存储到离线数据分析集群中。
(2)分析:主要是对调用链进行统计,根据ReqID统计单条调用链的调用接口数、请求响应时间、cpu、内存和jvm(Java虚拟机)性能参数等数据,并根据ReqID来分析调用来源,调用依赖,并将分析结果写入Hbase或Mysql,同时将全量日志存入hdfs。
(3)预警:对于日志中的错误信息或分析出有问题的调用链,综合配置中心中的告警配置信息,通知相关的开发和运维人员。如根据统一配置中心的配置文件信息发现日志错误,则向配置文件中预先设定的预警信息接收地址(如邮箱地址等)发送预警信息-日志错误信息。
(4)存储:支持日志全量存储到hdfs和分析结果存入hbase或mysql。
4.分布式文件存储和数据处理集群,可为Hadoop集群:基于hadoop实现的分布式文件存储和数据处理框架,实现全量日志存储,通过MapReduce实现对日志的离线分布式数据分析,将具有相同TraceID调用链信息进行汇总,同时分析计算具体的性能参数,如tps(每秒处理请求数)、pv(访问并发数)、qps(每秒查询率)等,并将离线数据分析结果回写到hdfs。通过基于hadoop实现的离线数 据分析集群,提供hdfs存储和大数据离线分析功能。汇总单条调用链信息到完整调用链信息,并分析计算如pv、tps、依赖度等信息,最后将结果回写到hdfs中。
5.分布式跟踪系统服务集群:读取hdfs中的离线统计分析结果,根据读取结果中的TraceID,将合并统计后的数据存入hbase或mysql中,补全具有相同TraceID的单条调用链分析结果(如tps(每秒处理请求数)、pv(访问并发数)、qps(每秒查询率)等),同时存储完整的调用链分析结果,为分布式跟踪系统-web服务器提供查询服务。
6.分布式跟踪系统web服务器:基于web容器提供查询服务,通过UI界面实现分析结果可视化。配置中心维护功能,主要是对日志采样参数、错误预警级别参数、日志收集服务器地址等信息进行配置。
7.统一配置中心:基于zookeeper实现分布式统一配置服务,时效性和数据安全性都能得到保证,为分布式跟踪系统提供配置服务。
8.分布式文件系统:可以是HDFS,存储全量日志等。
结合图2,对本发明分布式跟踪系统具体工作过程进行描述。
1.日志生成策略:
如图2所示,一次服务调用由4个采集点组成,分别是ClientSend(客户端发送)、ServerRec(服务端接收)、ServerSend(服务端发送)、ClientRec(客户端接收)。ClientSend和ClientRec共同组成Client端请求上下文,ServerRec和ServerSend共同组成Sever 端请求上下文,其中Server端的ServerRec由Client发送的上下文信息组合而成。
日志的生成策略主要通过在服务中间件添加拦截器和代码嵌入两种方式实现,一次请求生成一个上下文用全局唯一的TraceID进行标识,对于本地业务通过threadlocal存储上下文,不同应用间通过网络传输上下文。
如表1所示,日志上下文主要包括以下内容:TraceID、ReqID、ServiceID、ServiceName、ServiceType、ProcessTime、NodeIP。其中TraceID是跟踪标识id,可以关联多个日志上下文,而ReqID则可以标识日志的顺序和嵌套关系,如图2所示,可以根据ReqID分析所有具有相同TraceID的日志的先后顺序和层级关系。
Figure PCTCN2016072668-appb-000001
表1
2.日志存储:
日志的存储主要分为各个服务中间件的日志存储和收集分析之后的日志存储。
(1)服务中间件日志存储:服务中间件通过分布式跟踪系统提供的API生成日志后,异步的写到基于RingBuffer实现的缓存队列中,并异步保存到本地日志文件中。通过日志收集器日志文件中的日志,并进行采样之后存储的本地磁盘,同时通过线程异步发送到消息队列中,完成日志收集。
(2)收集分析后日志存储,主要依靠storm分布式流处理框架实现,通过读取消息队列中的日志,集中分析之后,将实时分析结果存入hbase或mysql中,同时将全量日志写入hdfs存储,通过hadoop离线分析汇总同一调用链的日志,最后由Nymph服务合并离线分析结果存储到hbase或mysql中。
3.日志分析
通过TraceID和ReqID对请求调用链进行链路分析,主要有实时分析、离线分析和合并分析三种方式:
(1)实时分析,Storm对单条日志信息直接分析,得到调用链的调用情况、错误信息和性能指标等信息直接入库。
(2)离线分析,Hadoop对多条调用链链路通过TraceID进行合并汇总,根据ReqID分析调用链的调用关系和依赖情况等。
(3)合并分析,分布式跟踪系统服务集群通过TraceID将离线分 析的结果,如调用关系和依赖情况等,合并到实时分析结果中,最后将合并结果写到数据库中。
通过本发明能够实现以下效果:
1.定位慢服务:根据调用链生成的树形结构,可以逐层检查接口依赖情况,分析哪个服务为性能瓶颈。
2.业务逻辑分析定位:通过调用链的时序图和响应时间可以分析调用链的业务逻辑是否正确。对于正确的业务逻辑调用链,可以根据请求响应时间、pv、tps和成功率等性能指标确定效率低下的性能瓶颈服务,找到性能瓶颈服务后,进一步定位产生问题的业务逻辑点。
3.服务监控:日志收集器除了收集日志以外还支持收集服务中间件的性能参数,并将收集信息写入日志上下中,通过数据处理集群进行数据分析并写入到数据库中,通过分布式跟踪系统web服务器实现监控所有服务状态和查看服务依赖关系,包括服务名、方法名、调用时长、异常信息、QPS和依赖度等。同时支持查看服务器运行状态,包括ip(地址)、cpu、内存、io(输入输出)和磁盘使用情况等。
4.实时预警:在分析日志的同时可以及时发现错误信息并通知相关开发和运维人员处理。

Claims (10)

  1. 一种分布式跟踪系统,包括日志收集器,消息中间件集群,分布式流计算集群,统一配置中心,分布式文件系统,数据库,分布式跟踪系统服务集群,分布式跟踪系统web服务器,分布式文件存储和数据处理集群,其特征在于:
    日志收集器,用于读取应用集群的日志以及实时读取统一配置中心的配置数据,并将读取到的日志写入日志收集器的缓冲队列;
    消息中间件集群,用于从日志收集器实时读取日志,并将读取到的日志进行缓冲存储;
    分布式流计算集群,用于读取消息中间件集群中的日志,根据读取的统一配置中心的配置数据实时分析处理读取的日志,之后将实时处理结果存入数据库中,并将读取的全量日志写入分布式文件系统进行存储;
    分布式文件存储和数据处理集群,用于对分布式文件系统中存储的日志进行离线分布式数据分析,并将分析结果回写到分布式文件系统;
    分布式跟踪系统服务集群,用于读取分布式文件系统中的离线分析结果,合并分析数据后将其存入数据库中;
    分布式跟踪web服务器,用于提供查询服务和对统一配置中心进行维护。
  2. 根据权利要求1所述的分布式跟踪系统,其特征在于:
    日志收集器根据从统一配置中心读取的配置数据中的日志收集 策略读取所需的日志。
  3. 根据权利要求1所述的分布式跟踪系统,其特征在于:分布式流计算集群,对读取的日志进行的处理包括:
    (1)验证:对日志中不符合规范的数据进行过滤,以达到能够处理的标准;
    (2)分析:对日志中的调用链进行统计,分析调用来源和调用依赖;
    (3)预警:对于日志中的错误信息或分析出有问题的调用链,结合从统一配置中心读取的告警配置信息,进行预警提示;
    (4)存储:将日志全量存储到分布式文件系统以及将上述(2)中的分析结果存入数据库。
  4. 根据权利要求1所述的分布式跟踪系统,其特征在于:
    分布式跟踪系统服务集群为分布式跟踪web服务器提供查询服务。
  5. 根据权利要求1所述的分布式跟踪系统,其特征在于:
    统一配置中心基于zookeeper实现分布式统一配置服务。
  6. 一种分布式跟踪方法,其特征在于包括以下步骤:
    日志收集器读取应用集群的日志以及实时读取统一配置中心的配置数据,并将读取到的日志写入日志收集器的缓冲队列;
    消息中间件集群从日志收集器实时读取日志,并将读取到的日志进行缓冲存储;
    分布式流计算集群读取消息中间件集群中的日志,对日志进行实 时处理,之后将实时处理结果存入数据库中,并将读取的全量日志写入分布式文件系统进行存储;
    分布式文件存储和数据处理集群对分布式文件系统中存储的日志进行离线分布式数据分析,并将分析结果回写到分布式文件系统;
    分布式跟踪系统服务集群读取分布式文件系统中的离线分析结果,合并分析数据后将其存入数据库中;
    通过分布式跟踪web服务器查询日志分析结果以及对统一配置中心进行维护。
  7. 根据权利要求6所述的分布式跟踪方法,其特征在于:
    日志收集器根据从统一配置中心读取的配置数据中的日志收集策略读取所需的日志。
  8. 根据权利要求6所述的分布式跟踪方法,其特征在于:分布式流计算集群对读取的日志进行的处理包括:
    (1)验证:对日志中不符合规范的数据进行过滤,以达到能够处理的标准;
    (2)分析:对日志中的调用链进行统计,分析调用来源和调用依赖;
    (3)预警:对于日志中的错误信息或分析出有问题的调用链,结合从统一配置中心读取的告警配置信息,进行预警提示;
    (4)存储:将日志全量存储到分布式文件系统以及将上述(2)中的分析结果存入数据库。
  9. 根据权利要求6所述的分布式跟踪方法,其特征在于:
    应用集群的日志生成策略主要通过在服务中间件添加拦截器或代码嵌入两种方式实现,一次请求生成一个上下文,用全局唯一的TraceID进行标识,通过ReqID标识日志的顺序和嵌套关系,服务中间件通过分布式跟踪系统服务集群提供的API生成日志后,将日志写到缓存队列中。
  10. 根据权利要求9所述的分布式跟踪方法,其特征在于:分布式文件存储和数据处理集群对多条调用链路通过TraceID进行合并汇总,根据ReqID分析调用链的调用关系和依赖情况。
PCT/CN2016/072668 2015-10-28 2016-01-29 分布式跟踪系统 WO2017071134A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510713431.7A CN105224445B (zh) 2015-10-28 2015-10-28 分布式跟踪系统
CN201510713431.7 2015-10-28

Publications (1)

Publication Number Publication Date
WO2017071134A1 true WO2017071134A1 (zh) 2017-05-04

Family

ID=54993430

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/072668 WO2017071134A1 (zh) 2015-10-28 2016-01-29 分布式跟踪系统

Country Status (2)

Country Link
CN (1) CN105224445B (zh)
WO (1) WO2017071134A1 (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558450A (zh) * 2018-10-30 2019-04-02 中国汽车技术研究中心有限公司 一种基于分布式架构的汽车远程监控方法和装置
CN109800128A (zh) * 2019-01-15 2019-05-24 苏州工品汇软件技术有限公司 基于微服务的操作日志记录收集方法
CN110457190A (zh) * 2019-07-09 2019-11-15 优估(上海)信息科技有限公司 一种基于区块链的全链路监控方法、装置及系统
CN110888805A (zh) * 2019-11-11 2020-03-17 北京仁科互动网络技术有限公司 一种RESTful API回放测试的方法及系统
CN111124839A (zh) * 2019-12-31 2020-05-08 中国银行股份有限公司 分布式日志数据监控方法及装置
CN111177276A (zh) * 2020-01-06 2020-05-19 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111245888A (zh) * 2019-12-24 2020-06-05 北京中盾安全技术开发公司 一种视频图像服务管理方法
CN111431773A (zh) * 2020-05-18 2020-07-17 江苏电力信息技术有限公司 一种基于OpenTracing的链路跟踪方法
CN111459766A (zh) * 2019-11-14 2020-07-28 国网浙江省电力有限公司信息通信分公司 一种面向微服务系统的调用链跟踪与分析方法
CN111464368A (zh) * 2020-04-27 2020-07-28 东方通信股份有限公司 一种网管系统中快速实现信令跟踪的装置与方法
CN111552620A (zh) * 2020-04-03 2020-08-18 北京字节跳动网络技术有限公司 数据获取方法、装置、终端及存储介质
CN111552628A (zh) * 2020-03-20 2020-08-18 北京海致星图科技有限公司 一种针对图数据库及图服务接口进行分布式压测系统及方法
CN111654453A (zh) * 2020-04-23 2020-09-11 平安国际智慧城市科技股份有限公司 表单数据离线缓存方法、装置、终端及存储介质
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质
CN111817867A (zh) * 2019-04-11 2020-10-23 普天信息技术有限公司 分布式环境下进行多日志协同分析的方法及系统
CN111858278A (zh) * 2020-07-08 2020-10-30 北京国联视讯信息技术股份有限公司 基于大数据处理的日志分析方法、系统及可读存储装置
CN111913660A (zh) * 2020-07-15 2020-11-10 郑州阿帕斯数云信息科技有限公司 打点数据处理方法和系统
CN111913818A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 一种确定服务间依赖关系的方法及相关装置
CN112035191A (zh) * 2020-08-27 2020-12-04 浪潮云信息技术股份公司 基于微服务的apm全链路监控系统及方法
CN112104740A (zh) * 2020-09-21 2020-12-18 浪潮云信息技术股份公司 基于国产cpu和os的软件自动推送升级系统及方法
CN112364007A (zh) * 2020-11-18 2021-02-12 中国平安人寿保险股份有限公司 基于数据库的海量数据交换方法、装置、设备和存储介质
CN112506894A (zh) * 2020-12-02 2021-03-16 平安医疗健康管理股份有限公司 基于链路追踪的服务链日志处理方法、装置和计算机设备
CN112650599A (zh) * 2020-12-21 2021-04-13 深圳前海微众银行股份有限公司 一种日志处理方法、设备及存储介质
CN113032355A (zh) * 2021-04-06 2021-06-25 上海英方软件股份有限公司 一种Web应用批量收集日志的方法及装置
CN113064790A (zh) * 2021-03-15 2021-07-02 上海浦东发展银行股份有限公司 基于配置中心的调用链数据采集系统、方法及存储介质
CN113129063A (zh) * 2021-04-20 2021-07-16 国网江西省电力有限公司信息通信分公司 一种基于云平台和数据中台的电费计算发行方法及系统
CN113778810A (zh) * 2021-09-27 2021-12-10 杭州安恒信息技术股份有限公司 一种日志收集方法、装置及系统
CN113792330A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 一种敏感数据追踪方法和系统
CN113792041A (zh) * 2021-08-04 2021-12-14 河南大学 基于Hive和Spark的遥感数据服务离线批处理系统及方法
CN113965576A (zh) * 2021-11-19 2022-01-21 湖南快乐阳光互动娱乐传媒有限公司 基于容器的大数据采集方法、装置、存储介质和设备
CN114064718A (zh) * 2021-11-05 2022-02-18 上海新炬网络技术有限公司 一种基于日志分析的业务调用链的网络故障定位方法
CN114238152A (zh) * 2022-01-21 2022-03-25 京东科技信息技术有限公司 针对服务平台的测试方法和装置
CN115442223A (zh) * 2022-07-19 2022-12-06 写逸网络科技(上海)有限公司 一种用于分布式集群的自动化运维方法
CN116471213A (zh) * 2023-06-09 2023-07-21 北京随信云链科技有限公司 链路追踪方法、链路追踪系统及介质
CN117708219A (zh) * 2024-02-06 2024-03-15 中科云谷科技有限公司 用于物联网数据的处理方法、处理装置及存储介质

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224445B (zh) * 2015-10-28 2017-02-15 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105700998A (zh) * 2016-01-13 2016-06-22 浪潮(北京)电子信息产业有限公司 一种对并行程序的性能进行监测分析的方法及装置
CN107025222A (zh) * 2016-01-29 2017-08-08 五八同城信息技术有限公司 一种分布式日志采集方法及装置
CN105897503B (zh) * 2016-03-30 2019-02-19 广东工业大学 基于资源信息增益的Hadoop集群瓶颈检测方法
CN107292549A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种库存监控方法及装置
CN105763382A (zh) * 2016-04-14 2016-07-13 北京思特奇信息技术股份有限公司 一种基于端到端业务监控的实现方法和装置
CN105933163B (zh) * 2016-06-24 2019-08-27 微梦创科网络科技(中国)有限公司 一种实时分布式调试跟踪方法及系统
CN106250424B (zh) * 2016-07-22 2019-12-03 杭州朗和科技有限公司 一种日志上下文内容的搜索方法、装置及系统
CN106294091B (zh) * 2016-08-11 2019-01-04 福建富士通信息软件有限公司 一种无侵入式日志拦截性能分析方法及系统
CN106326017A (zh) * 2016-08-17 2017-01-11 广东亿迅科技有限公司 基于Annotation使用的调用链的实现系统
CN106354765B (zh) * 2016-08-19 2020-06-26 广东亿迅科技有限公司 一种基于分布式采集的日志分析系统及方法
CN106340161A (zh) * 2016-08-25 2017-01-18 山东联科云计算科技有限公司 一种基于大数据的公共安全预警系统
CN107872329B (zh) * 2016-09-22 2020-10-16 阿里巴巴集团控股有限公司 一种预估qps的方法和设备
CN107870762B (zh) * 2016-09-28 2021-01-26 北京京东尚科信息技术有限公司 Soa调用链路跟踪的方法、装置及系统
CN106502874B (zh) * 2016-10-26 2019-05-10 南京途牛科技有限公司 一种调用链跟踪方法
CN106487596B (zh) * 2016-10-26 2019-12-13 宜人恒业科技发展(北京)有限公司 分布式服务跟踪实现方法
CN106571960B (zh) * 2016-11-03 2020-05-22 北京农信互联科技有限公司 日志收集管理系统及方法
CN106357463B (zh) * 2016-11-07 2019-10-25 深圳盛灿科技股份有限公司 非入侵式的访问链路跟踪实现方法及其系统
CN108228432A (zh) * 2016-12-12 2018-06-29 阿里巴巴集团控股有限公司 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN106682134A (zh) * 2016-12-16 2017-05-17 郑州云海信息技术有限公司 leveldb数据库中数据对写入的方法、装置及系统
CN106802824A (zh) * 2016-12-22 2017-06-06 上海大汉三通数据通信有限公司 一种基于Disruptor的数据收发方法
CN108241722A (zh) * 2016-12-23 2018-07-03 北京金山云网络技术有限公司 一种数据处理系统、方法及装置
CN106649766B (zh) * 2016-12-27 2020-12-29 北京锐安科技有限公司 一种基于kafka的消息处理方法
CN106649071B (zh) * 2016-12-30 2019-12-20 广州华多网络科技有限公司 进程内部日志上报的方法和装置
CN108268468B (zh) * 2016-12-30 2021-01-26 北京京东尚科信息技术有限公司 一种大数据的分析方法及系统
WO2018145743A1 (en) 2017-02-08 2018-08-16 Huawei Technologies Co., Ltd. System and method for failure management using distributed execution traces
CN108462598B (zh) * 2017-02-21 2022-03-11 阿里巴巴集团控股有限公司 一种日志生成方法、日志分析方法及装置
CN106817262A (zh) * 2017-03-01 2017-06-09 郑州云海信息技术有限公司 一种日志分析装置
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统
CN106920158A (zh) * 2017-03-22 2017-07-04 北京再塑宝科技有限公司 基于Storm和Kafka技术的订单实时监控系统
CN108733698B (zh) * 2017-04-19 2023-08-08 腾讯科技(深圳)有限公司 一种日志消息的处理方法及后台服务系统
CN107257289A (zh) * 2017-04-24 2017-10-17 努比亚技术有限公司 一种风险分析设备、监控系统和监控方法
CN107133124A (zh) * 2017-04-28 2017-09-05 努比亚技术有限公司 一种不合规数据的修复方法、数据处理设备及存储介质
CN107193909A (zh) * 2017-05-08 2017-09-22 杭州东方通信软件技术有限公司 数据处理方法及系统
CN107301197B (zh) * 2017-05-12 2020-12-01 上海瀚银信息技术有限公司 一种业务数据跟踪处理系统及方法
CN107135156A (zh) * 2017-06-07 2017-09-05 努比亚技术有限公司 调用链数据采集方法、移动终端及计算机可读存储介质
CN107330034B (zh) * 2017-06-26 2020-08-07 百度在线网络技术(北京)有限公司 一种日志分析方法和装置、计算机设备、存储介质
CN107135276A (zh) * 2017-06-28 2017-09-05 北京中电普华信息技术有限公司 一种微服务架构下的全链路监控方法、装置和系统
CN107392357A (zh) * 2017-06-30 2017-11-24 安徽四创电子股份有限公司 一种基于大数据平台的公共交通精准出行服务系统及方法
CN107329832B (zh) * 2017-06-30 2021-01-22 北京奇艺世纪科技有限公司 一种数据接收方法及装置
CN107391606A (zh) * 2017-06-30 2017-11-24 中国联合网络通信集团有限公司 基于Storm的日志处理方法及装置
CN107622084A (zh) * 2017-08-10 2018-01-23 深圳前海微众银行股份有限公司 日志管理方法、系统以及计算机可读存储介质
CN110019498B (zh) * 2017-08-14 2022-04-12 北京京东尚科信息技术有限公司 日志同步方法及装置、存储介质、电子设备
CN107870982B (zh) * 2017-10-02 2021-04-23 深圳前海微众银行股份有限公司 数据处理方法、系统和计算机可读存储介质
CN107645562B (zh) * 2017-10-12 2021-06-22 阿里巴巴(中国)有限公司 数据传输处理方法、装置、设备及系统
CN107786565A (zh) * 2017-11-02 2018-03-09 江苏物联网研究发展中心 一种分布式实时入侵检测方法及检测系统
CN107943649A (zh) * 2017-11-21 2018-04-20 郑州云海信息技术有限公司 一种分布式集群性能监控系统及方法
CN108183927A (zh) * 2017-11-22 2018-06-19 链家网(北京)科技有限公司 一种分布式系统中链路调用的监控方法及系统
CN107861859B (zh) * 2017-11-22 2021-04-02 北京汇通金财信息科技有限公司 一种基于微服务架构的日志管理方法及系统
CN107818024A (zh) * 2017-11-22 2018-03-20 北京汇通金财信息科技有限公司 一种基于spring拦截器的request ID传递方法及系统
CN108234349A (zh) * 2017-12-22 2018-06-29 中国联合网络通信集团有限公司 提高soa系统健壮性的方法和装置
CN108205486A (zh) * 2017-12-26 2018-06-26 上海中畅数据技术有限公司 一种基于机器学习的智能分布式调用链跟踪方法
CN108319536B (zh) * 2017-12-29 2021-11-23 北京五八信息技术有限公司 一种日志设置方法、装置、设备及计算机可读存储介质
CN108259269A (zh) * 2017-12-30 2018-07-06 上海陆家嘴国际金融资产交易市场股份有限公司 网络设备的监控方法和系统
CN110309218B (zh) * 2018-02-09 2021-07-30 杭州数梦工场科技有限公司 一种数据交换系统和数据写入方法
CN110245043B (zh) * 2018-03-07 2023-03-24 深圳市小赢信息技术有限责任公司 一种分布式系统间调用关系的跟踪系统
CN108462750A (zh) * 2018-03-22 2018-08-28 平安好房(上海)电子商务有限公司 分布式调用追踪方法、业务系统、监控系统及存储介质
CN108521353B (zh) * 2018-04-02 2022-04-01 深圳前海微众银行股份有限公司 定位性能瓶颈的处理方法、设备及可读存储介质
CN108874559A (zh) * 2018-05-31 2018-11-23 康键信息技术(深圳)有限公司 电子装置、分布式系统业务链路分析方法及存储介质
CN108804644B (zh) * 2018-06-05 2023-06-30 中国平安人寿保险股份有限公司 接口日志存储方法、装置、计算机设备和存储介质
CN108874524A (zh) * 2018-06-21 2018-11-23 山东浪潮商用系统有限公司 大数据分布式任务调度系统
CN108829879A (zh) * 2018-06-26 2018-11-16 天津城建大学 一种充电桩数据监控方法
CN111193631B (zh) * 2018-11-14 2022-02-08 中国电信股份有限公司 信息处理方法、系统和计算机可读存储介质
CN111221659B (zh) * 2018-11-23 2023-10-03 北京图森智途科技有限公司 一种多机器人操作系统环境的订阅性能追踪系统
CN109656700A (zh) * 2018-12-17 2019-04-19 广州市玄武无线科技股份有限公司 多租户下分布式链路跟踪方法、系统、设备以及存储介质
CN109831478A (zh) * 2018-12-19 2019-05-31 天翼电子商务有限公司 基于规则及模型的分布式实时处理智能决策系统及方法
CN110096664B (zh) * 2019-04-03 2021-04-09 北大方正集团有限公司 分布式文本信息处理方法、装置、系统、设备及存储介质
CN110113200A (zh) * 2019-04-29 2019-08-09 平安科技(深圳)有限公司 链路系统与日志系统的关联方法、装置及存储介质
CN110232054B (zh) * 2019-06-19 2021-07-20 北京百度网讯科技有限公司 日志传输系统及流式日志传输方法
CN112131070A (zh) * 2019-06-25 2020-12-25 北京京东尚科信息技术有限公司 调用关系跟踪方法、装置、设备及计算机可读存储介质
CN112134719A (zh) * 2019-06-25 2020-12-25 中兴通讯股份有限公司 一种分析基站安全日志的方法和系统
CN112152823B (zh) * 2019-06-26 2022-09-02 北京易真学思教育科技有限公司 网站运行错误监控方法、装置及计算机存储介质
CN110502581B (zh) * 2019-08-27 2022-07-08 中国联合网络通信集团有限公司 分布式数据库系统监测方法及装置
CN110727715A (zh) * 2019-10-22 2020-01-24 南方电网科学研究院有限责任公司 基于高可靠性的电力用户日电量计算方法
CN111078432B (zh) * 2019-12-10 2024-04-16 深圳前海环融联易信息科技服务有限公司 一种服务之间调度的追踪方法及装置
CN111211938B (zh) * 2019-12-30 2021-10-15 北京百迈客生物科技有限公司 生物信息软件监控系统及方法
CN111258971A (zh) * 2020-01-10 2020-06-09 北京农信互联科技集团有限公司 一种基于访问日志的应用状态监控报警系统及方法
CN111400127B (zh) * 2020-02-28 2022-09-09 深圳平安医疗健康科技服务有限公司 业务日志的监控方法及装置、存储介质、计算机设备
CN111460333B (zh) * 2020-03-30 2024-02-23 北京工业大学 一种实时搜索数据分析系统
CN111625583B (zh) * 2020-05-21 2022-07-29 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN113742035A (zh) * 2020-05-27 2021-12-03 北京沃东天骏信息技术有限公司 一种边缘任务执行方法和装置
CN111930700B (zh) * 2020-07-13 2024-05-31 车智互联(北京)科技有限公司 一种分布式日志处理方法、服务器、系统和计算设备
CN111831446A (zh) * 2020-07-15 2020-10-27 北京思特奇信息技术股份有限公司 一种基于Disruptor的数据读写方法、装置及介质
CN112040429B (zh) * 2020-07-28 2021-09-21 南京云中云信息技术有限公司 一种基于分布式存储的短信管理系统及方法
US11687833B2 (en) 2020-08-27 2023-06-27 Google Llc Data management forecasting from distributed tracing
CN112235352B (zh) * 2020-09-17 2023-05-09 浙江数链科技有限公司 一种服务依赖梳理方法和装置
CN112099977A (zh) * 2020-09-30 2020-12-18 浙江工商大学 一种分布式跟踪系统的实时数据分析引擎
CN112199048B (zh) * 2020-10-20 2021-07-27 重庆紫光华山智安科技有限公司 数据读取方法、系统、设备及介质
CN113051043A (zh) * 2021-03-10 2021-06-29 北京沃东天骏信息技术有限公司 微服务异常补偿方法和装置
CN113760652B (zh) * 2021-08-13 2023-12-26 济南浪潮数据技术有限公司 基于应用的全链路监控的方法、系统、设备和存储介质
CN113918358A (zh) * 2021-09-17 2022-01-11 远景智能国际私人投资有限公司 日志发送方法、装置及日志管理系统
CN113849331B (zh) * 2021-09-22 2023-09-29 网易(杭州)网络有限公司 混合技术栈的异常追踪方法、系统、装置、设备及介质
CN114385674A (zh) * 2021-12-30 2022-04-22 天翼物联科技有限公司 一种平台消息跟踪方法、系统、装置及存储介质
CN114003472B (zh) * 2022-01-04 2022-04-12 连连(杭州)信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN115208875B (zh) * 2022-07-14 2024-04-19 中国银行股份有限公司 多传输中间件的信息集成系统
CN116049115B (zh) * 2023-01-13 2023-12-01 深圳安科百腾科技有限公司 一种软件日志处理方法
CN116882724B (zh) * 2023-07-13 2024-06-11 北京优特捷信息技术有限公司 一种业务流程优化方案的生成方法、装置、设备及介质
CN117194176B (zh) * 2023-11-03 2024-06-04 中国电子科技集团公司第十五研究所 非侵入式运行监测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7017085B2 (en) * 2002-05-30 2006-03-21 Capital One Financial Corporation Systems and methods for remote tracking of reboot status
CN101197700A (zh) * 2006-12-05 2008-06-11 阿里巴巴公司 提供日志服务的方法及系统
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356590B2 (en) * 2005-07-12 2008-04-08 Visible Measures Corp. Distributed capture and aggregation of dynamic application usage information
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN103326883A (zh) * 2013-05-27 2013-09-25 杭州帕拉迪网络科技有限公司 一种统一安全管理与综合审计系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7017085B2 (en) * 2002-05-30 2006-03-21 Capital One Financial Corporation Systems and methods for remote tracking of reboot status
CN101197700A (zh) * 2006-12-05 2008-06-11 阿里巴巴公司 提供日志服务的方法及系统
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558450A (zh) * 2018-10-30 2019-04-02 中国汽车技术研究中心有限公司 一种基于分布式架构的汽车远程监控方法和装置
CN109800128A (zh) * 2019-01-15 2019-05-24 苏州工品汇软件技术有限公司 基于微服务的操作日志记录收集方法
CN111817867A (zh) * 2019-04-11 2020-10-23 普天信息技术有限公司 分布式环境下进行多日志协同分析的方法及系统
CN110457190A (zh) * 2019-07-09 2019-11-15 优估(上海)信息科技有限公司 一种基于区块链的全链路监控方法、装置及系统
CN110888805A (zh) * 2019-11-11 2020-03-17 北京仁科互动网络技术有限公司 一种RESTful API回放测试的方法及系统
CN111459766B (zh) * 2019-11-14 2024-01-12 国网浙江省电力有限公司信息通信分公司 一种面向微服务系统的调用链跟踪与分析方法
CN111459766A (zh) * 2019-11-14 2020-07-28 国网浙江省电力有限公司信息通信分公司 一种面向微服务系统的调用链跟踪与分析方法
CN111245888A (zh) * 2019-12-24 2020-06-05 北京中盾安全技术开发公司 一种视频图像服务管理方法
CN111124839A (zh) * 2019-12-31 2020-05-08 中国银行股份有限公司 分布式日志数据监控方法及装置
CN111177276A (zh) * 2020-01-06 2020-05-19 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111177276B (zh) * 2020-01-06 2023-10-20 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111552628A (zh) * 2020-03-20 2020-08-18 北京海致星图科技有限公司 一种针对图数据库及图服务接口进行分布式压测系统及方法
CN111552620A (zh) * 2020-04-03 2020-08-18 北京字节跳动网络技术有限公司 数据获取方法、装置、终端及存储介质
CN111552620B (zh) * 2020-04-03 2023-07-11 北京字节跳动网络技术有限公司 数据获取方法、装置、终端及存储介质
CN111654453B (zh) * 2020-04-23 2023-04-18 平安国际智慧城市科技股份有限公司 表单数据离线缓存方法、装置、终端及存储介质
CN111654453A (zh) * 2020-04-23 2020-09-11 平安国际智慧城市科技股份有限公司 表单数据离线缓存方法、装置、终端及存储介质
CN111464368B (zh) * 2020-04-27 2022-04-15 东方通信股份有限公司 一种网管系统中快速实现信令跟踪的装置与方法
CN111464368A (zh) * 2020-04-27 2020-07-28 东方通信股份有限公司 一种网管系统中快速实现信令跟踪的装置与方法
CN111431773A (zh) * 2020-05-18 2020-07-17 江苏电力信息技术有限公司 一种基于OpenTracing的链路跟踪方法
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质
CN111858278A (zh) * 2020-07-08 2020-10-30 北京国联视讯信息技术股份有限公司 基于大数据处理的日志分析方法、系统及可读存储装置
CN111913660B (zh) * 2020-07-15 2022-11-18 郑州阿帕斯数云信息科技有限公司 打点数据处理方法和系统
CN111913660A (zh) * 2020-07-15 2020-11-10 郑州阿帕斯数云信息科技有限公司 打点数据处理方法和系统
CN111913818A (zh) * 2020-08-07 2020-11-10 平安科技(深圳)有限公司 一种确定服务间依赖关系的方法及相关装置
CN112035191B (zh) * 2020-08-27 2024-04-09 浪潮云信息技术股份公司 基于微服务的apm全链路监控系统及方法
CN112035191A (zh) * 2020-08-27 2020-12-04 浪潮云信息技术股份公司 基于微服务的apm全链路监控系统及方法
CN112104740A (zh) * 2020-09-21 2020-12-18 浪潮云信息技术股份公司 基于国产cpu和os的软件自动推送升级系统及方法
CN112364007A (zh) * 2020-11-18 2021-02-12 中国平安人寿保险股份有限公司 基于数据库的海量数据交换方法、装置、设备和存储介质
CN112364007B (zh) * 2020-11-18 2023-08-22 中国平安人寿保险股份有限公司 基于数据库的海量数据交换方法、装置、设备和存储介质
CN112506894A (zh) * 2020-12-02 2021-03-16 平安医疗健康管理股份有限公司 基于链路追踪的服务链日志处理方法、装置和计算机设备
CN112650599A (zh) * 2020-12-21 2021-04-13 深圳前海微众银行股份有限公司 一种日志处理方法、设备及存储介质
CN113064790A (zh) * 2021-03-15 2021-07-02 上海浦东发展银行股份有限公司 基于配置中心的调用链数据采集系统、方法及存储介质
CN113064790B (zh) * 2021-03-15 2023-08-11 上海浦东发展银行股份有限公司 基于配置中心的调用链数据采集系统、方法及存储介质
CN113032355B (zh) * 2021-04-06 2023-06-09 上海英方软件股份有限公司 一种Web应用批量收集日志的方法及装置
CN113032355A (zh) * 2021-04-06 2021-06-25 上海英方软件股份有限公司 一种Web应用批量收集日志的方法及装置
CN113129063A (zh) * 2021-04-20 2021-07-16 国网江西省电力有限公司信息通信分公司 一种基于云平台和数据中台的电费计算发行方法及系统
CN113129063B (zh) * 2021-04-20 2024-05-03 国网江西省电力有限公司信息通信分公司 一种基于云平台和数据中台的电费计算发行方法及系统
CN113792041B (zh) * 2021-08-04 2024-04-09 河南大学 基于Hive和Spark的遥感数据服务离线批处理系统及方法
CN113792041A (zh) * 2021-08-04 2021-12-14 河南大学 基于Hive和Spark的遥感数据服务离线批处理系统及方法
CN113792330B (zh) * 2021-08-13 2024-05-03 唯品会(广州)软件有限公司 一种敏感数据追踪方法和系统
CN113792330A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 一种敏感数据追踪方法和系统
CN113778810A (zh) * 2021-09-27 2021-12-10 杭州安恒信息技术股份有限公司 一种日志收集方法、装置及系统
CN114064718A (zh) * 2021-11-05 2022-02-18 上海新炬网络技术有限公司 一种基于日志分析的业务调用链的网络故障定位方法
CN113965576A (zh) * 2021-11-19 2022-01-21 湖南快乐阳光互动娱乐传媒有限公司 基于容器的大数据采集方法、装置、存储介质和设备
CN113965576B (zh) * 2021-11-19 2024-04-26 湖南快乐阳光互动娱乐传媒有限公司 基于容器的大数据采集方法、装置、存储介质和设备
CN114238152A (zh) * 2022-01-21 2022-03-25 京东科技信息技术有限公司 针对服务平台的测试方法和装置
CN115442223A (zh) * 2022-07-19 2022-12-06 写逸网络科技(上海)有限公司 一种用于分布式集群的自动化运维方法
CN116471213B (zh) * 2023-06-09 2023-09-15 北京随信云链科技有限公司 链路追踪方法、链路追踪系统及介质
CN116471213A (zh) * 2023-06-09 2023-07-21 北京随信云链科技有限公司 链路追踪方法、链路追踪系统及介质
CN117708219A (zh) * 2024-02-06 2024-03-15 中科云谷科技有限公司 用于物联网数据的处理方法、处理装置及存储介质
CN117708219B (zh) * 2024-02-06 2024-05-07 中科云谷科技有限公司 用于物联网数据的处理方法、处理装置及存储介质

Also Published As

Publication number Publication date
CN105224445A (zh) 2016-01-06
CN105224445B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
WO2017071134A1 (zh) 分布式跟踪系统
US11575579B2 (en) Systems and methods for networked microservice modeling
US9817859B2 (en) Collecting and aggregating log data with fault tolerance
US10187461B2 (en) Configuring a system to collect and aggregate datasets
US9201910B2 (en) Dynamically processing an event using an extensible data model
US9082127B2 (en) Collecting and aggregating datasets for analysis
CN106487596B (zh) 分布式服务跟踪实现方法
US10747592B2 (en) Router management by an event stream processing cluster manager
US9712410B1 (en) Local metrics in a service provider environment
US20060015512A1 (en) System and method for performance management in a multi-tier computing environment
CA3093925C (en) Router management by an event stream processing cluster manager
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
KR102025210B1 (ko) 큐 모니터링 및 시각화
US9037705B2 (en) Routing of performance data to dependent calculators
CN107480189A (zh) 一种多维度实时分析系统及方法
Boncea et al. A scalable architecture for automated monitoring of microservices
Gogouvitis et al. A monitoring mechanism for storage clouds
Zhao et al. A high throughput distributed log stream processing system for network security analysis
Pakdaman Real-time Video Analytics at Scale: Design, Deployment and Evaluation
Adila et al. Optimization Techniques for Data Consistency and Throughput Using Kafka Stateful Stream Processing
Xu et al. FNotify: A Low-Latency and Scalable Publish/Subscribe System using RDMA
Yang et al. Xmon: A Lightweight Multilayer Open Monitoring Tool for Large-scale Virtual Clusters
Ganjoo Real-time Stock Market Trend Analysis using Stream Processing Frameworks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16858583

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 10.09.2018)

122 Ep: pct application non-entry in european phase

Ref document number: 16858583

Country of ref document: EP

Kind code of ref document: A1