联通大数据5000台规模集群故障自愈实践，大数据可视化分析平台

大数据可视化分析平台

联通5000大数据品类集群阻碍运维人员的自愈测试动作他们做的最多的都是检查和阻碍回复。公司集群的类别越大扰民的发生率和扰民案件的数量减少的越多。每天去公司参观的时候长沙优化网站排名扰民的发生率和扰民案件的数量减少的越多。每天去公司参观的时候首先要做的就是看什么是平淡和破碎。有什么问题吗？集群保存的够吗？基层数据保存是否顺畅？然后关闭针头一个接一个地处理每个讨厌的东西。我个人的体验是过年连个懒觉都睡不着群集受阻。当我打电话时我立即醒来然后默默地回复阻塞。这么多经历感觉每一个运维人都是含泪经历的。

大数据现状及发展趋势

Change在收集和了解Prometheus中的报警数据后我们使用多线程宁静和远程对接fabric、ansible等东西来实现封闭角色实例的回复。

联通大数据5000台规模集群故障自愈实践

大数据是什么意思

姑且说有近5000个集群两大类的集群节点数量都在1000个以上。

智慧城市

阿姨和受动态恢复影响的集群有以下运维安排:

联通大数据5000台规模集群故障自愈实践

云计算

如果估计节点检测到时钟趋势会自动修正时钟趋势；

大数据平台

Cloudera经理挂断电话会自动下沉；

大数据数据采集

主机检测到坏盘更换坏盘后自动回复；

角色实例检测到特殊异常掉线自动返回联机

集群保存多个节点和多个磁盘以节省平衡空间在磁盘级自动平衡其他数据；

集群保存达到阈值节点级的其他数据平衡器自动执行。

自动回复的实际情况很多但一定要严格做到对症下药要有计划地了解问题的严重性和普遍性。

以上7点自动回复是集群常见的扰民问题频繁且效率类别小不会提升集群的可用性所以实施自动回复可能是可取的。

如果障碍物经常被平台看到并且有一定概率会靠近平台形成局部药效本能效率最好的措施就是做好报警和应急处理。

下面分几个自动恢复实验:

1)如果估计节点检测到使用swap切换分区会自动整理出swap分区并关闭swap分区。

根据监测数据获取对调开的预估机点通过远距离对接进行对调分区关闭。

根据监测数据得到代理额外额外离线的估计节点通过远程对接将代理安排在线。

3)如果估计节点检测到时钟趋势会自动修正时钟趋势。

由于团簇材料每天都处于满状态近16小时很容易形成团簇。本地估计节点负载过高导致前导节点上的DN和NM下降。此时需要下沉估计节点但下沉节点会形成刚性时钟趋势。监测报警后我们检测时钟趋势然后读取普罗米修斯中的时钟趋势节点信息同步排列时钟源。

就像时钟倾向回复的代码示例一样:

4)集群角色异常退出。