阿里UC百亿PV的前端监控平台:(4)大数据分析

Web承载的业务越来越复杂,用户对于Web的体验要求也越来越高,Web性能的优劣对业务收益也有着非常直接的影响。

本文主要介绍阿里UC百亿级PV前端监控平台, 岳鹰全景监控平台 的实践历程 - 大数据分析 ,阅读时长 5 分钟。

数据统计分析

获取到数据仅仅是第一步,一个极致的监控系统需要沉淀有效的分析方法,帮忙开发者高效的定位和解决问题。

基于Elasticsearch存储的日志,可以非常方便的聚合各种维度报表;在海量数据的场景下,还可以引入 Spark Streaming等实时计算引擎 达到「 1分钟实时分析 」,更快速的发现问题,把问题影响面控制到最小。

这里介绍的更多是我们如何通过自动的聚类和维度统计,提供一套高效的监控分析手段。

对于数据分析,我们分为大盘分析和单用户分析,大盘分析指的是通过各个维度快速识别 规模性的问题,而单用户分析则是分析 单点问题的利器。

大盘分析

时间维度

按照时间线的粒度,通常可以分为 分钟级别、小时级别、天级别的统计。

对于异常问题,分钟级别的时间粒度统计,可以在问题发生的第一时间通知到开发者;

而对于性能这种周期指标,通过小时和天级别的时间粒度统计,可以观察更长时间的变化趋势。

运行环境维度

前端页面的运行环境,例如网络类型、运营商、地域,操作系统,设备机型信息等。

为什么运行环境维度的分析也这么重要?页面加载的大量静态资源和AJAX请求都需要经过网络运营商、CDN厂商,劫持、网络/CDN抖动、资源404等情况比比皆是。

细粒度的代码追踪

JS异常的代码栈顶信息,定位到发生异常的代码位置和异常堆栈;API请求异常的响应错误码和响应内容,定位到具体的API错误类型和原因。毫无疑问这是开发者解决问题是最需要等信息了。

单用户分析

一个异常是怎么发生的,需要将异常操作的前后时间线串联起来观察。它不单单涉及一次用户操作,甚至不限于某一个页面,而是一连串事件的表现。

通过将用户访问过程的异常和请求日志连接起来,形成用户访问页面的时序,以动态的效果输出发生异常的过程;并且可以把业务的关键节点也关联起来,例如页面的点击操作等。

这样可以提供非常详细的现场还原效果,在解决具体用户遇到的错误时非常有效。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章