解决方案顶部轮播图-banner1


                     大数据平台运维方案


一、运维思路

大数据平台的运维是根据架构来有针对性的制定方案。需求决定架构,对于运维来说也是一样;因此,探讨一个运维平台应该怎么样构建,要看具体的需求再决定。

 

1、大数据的基础服务,包括传输系统(FlumeKafka),计算调度(YarnK8S)以及存储系统(HDFSHBASE)。

 

2、大数据平台的配置与运维需求包括:配置管理与资产管理,可监控、可报警;可执行批量作业;如果还有点期待就是Ai更好。

 

3、自动化运维的架构,应该足够简单,开源可修改;解决非专业运维团队的专业运维问题。投入产出比高,架构简单,一个系统迭代容易打造精品。

 

4、其中配置管理应该具备多数据中心支持,动态管理的成员关系,基于gossip协议的事件传输。基于轻量型CMDB系统,解决传统CMDB无法动态变更,自动发现,状态探测问题。

 

5、批量作业平台,要解决运维中高频的批处理任务,确保到达率很稳定,很可靠;尽量引入原生支持的组件,减少开发的工作量。

 

6DNS一直是基础运维的核心,也是所有业务的重中之重。因此,自动化运维平台要将DNS的服务器及客户端纳入统一的管理。

 

7、自动化运维应该让产品、运营轻松掌控海量数据,就像操纵Excel那样轻松;让数据更加开放,让更多人通过数据去决策。

 

二、运维具体工作

 

1、自动发现

通过平台和技术手段自动发现网络中的软硬件设备;

 

2、应用发现

基于网络指纹对各类应用进行识别;

 

3、拓扑展现

发现网络中各节点,直观展现整体生态;

 

4、性能识别和监控

有序直管的展现各项关键指标的性能和状态

通过界面直观测出大数据集群的负载是否均衡

发现服务器负载情况,了解其资源利用情况

当新的需求进入大数据平台,智能判断硬件容量增长需求

对各类LongTime数据进行性能分析,提出价值建议

 

5、统计报告

按需生成各类统计报告,多纬度多层面展现大数据平台的运行状况。