大型互联网产品/应用运维职责
admin
2023-03-18 19:24:40
0


一、    代码风险控制和线上服务配置安全控制。

1、 通过我们的AOS系统对代码上线进行合理的审核,从研发、测试、产品、总监、运维各个环节增加管控,来实现代码安全性。
2、 通过我们的puppet管控对线上需要修改文件或修改系统配置,需要相关人员审核以便增加线上的安全性。
3、通过我们的puppet管控对线上需要安装软件等,需要相关人员审核以便增加线上的安全性。

二、    发现问题

1、    通过zabbix收集服务器上各个指标,比如系统负载、业务宕机,业务状态是否良好通过短信和邮件方式进行报警。(第一种报警方式)
2、    通过grafana+ influxdb展现出各个业务的状态是否良好、程序是否宕机、系统负载属于正常等,通过NOC组24小时人员监控进行电话报警。(第二种报警方式)
3、    通过kibana+spark+es收集日志信息,通过日志筛选和过滤展现出出问题的接口以及慢接口。比如5分钟内出现5XX的错误top10的url。通过noc组24小时人员监控进行电话报警。(第三种报警方式)
4、    通过我们的smokeping网络监控,可以检测出公司使用各个机房的网络连接情况。能够判断出是否网络问题导致业务有影响。

三、    分析问题

1、    通过kibana+es收集日志信息,通过日志的筛选和过滤找出慢接口和关联性以及通过大量数据找出可能将要出现的问题,进行分析问题。
2、    通过kibana+es大量的日志信息以及对整体业务的架构把控,做出合理的业务架构方案。使业务更合理和优越。

四、    处理问题

1、    收到短信和电话报警后,通过grafana+ influxdb找出问题具体事项,并通过kibana+es快速的查找问题接口以及出现问题的根本原因。
2、    接受到报警后,通过grafana+ influxdb、kibana+spark+es、smokeping、kibana+es综合性的快速查找问题根本原因。
3、    通过grafana+ influxdb观察确定依赖资源是否有问题。

五、    事后总结问题

1、    做出容灾和应急方案,出现问题能第一时刻恢复业务,保障业务的稳定运行。
2、    针对每次出现的问题进行问题分析、改进。便于下次同样类型的问题不会再次发生。

六、    运维自动化

1、    通过我们的puppet进行自动化配置,减少人工的手动操作避免人员的误操作同时增加人员的管控,增加了线上服务器安全性。
2、    通过我们的cmdb能够快速的查询服务器硬件配置、域名归属、服务器管理员等。
3、    通过我们的rt事务追踪管理能够快度的定位最近服务器上进行了那些重要操作信息。
4、    通过我们的sip系统够查看当前管理员负责当前业务下的所有服务器、域名等便于批量授权用户。
5、    通过我们的AOS代码上线,减少人员的操作避免人员的误操作。
6、    通过我们的docker平台,更好的合理运用服务器硬件资源,减少产品成本运算

相关内容

热门资讯

圣罗兰“拉黑”杭州一条街道?记... 澎湃新闻记者 王选辉 实习生 俞涵因“恶意退货太多整条街道被商家拉黑”一事持续发酵,近日有网友反映,...
局地可达35℃以上!今年首轮高... 热起来了!今天(10日)起至13日,北方迎来今年首场大范围高温天气,大部地区气温将超30℃,刷新今年...
炒股精神病院去年被罚117万,... 精神病院作为投资主体,而且在云谲波诡的股市里打拼得很好,本身就是一个让人好奇的事情。现在既然投资行为...
这个法国人,真让人刮目相看 政坛老将,第四次冲击总统宝座。更让人刮目相看的,是他对华的清醒表态他就是梅朗雄,法国左翼政党的领导人...
台“军购条例”大幅缩水,美国果... 【文/观察者网 王恺雯】台立法机构5月8日表决通过蓝白版“军购特别条例”,预算上限由赖清德当局要求的...
奋斗华章丨平凡亦有光 奋斗即力... 奋斗华章丨平凡亦有光 奋斗即力量 五月的风,裹挟着劳动的滚烫与青春的赤诚,吹遍华夏大地。 当五一劳...
中国移动发布Token运营生态... 5月8日,中国移动在2026移动云大会期间举办“词元聚力 智享未来”Token运营发展论坛,联合腾讯...
台当局滥发文化补助,涉事歌词低... 叶元之海峡导报综合报道 台民意机构“教育及文化委员会”7日邀台当局文化主管部门进行业务报告并备询,国...
国乒男女团今天冲冠,一起迎战日... 北京时间5月10日(星期日),2026伦敦世乒赛团体赛决赛将迎来巅峰对决,男团、女团决赛将分别进行,...