监控和诊断直挂重要。云应用程序跑在远端的数据中心,也就是说你对远端的数据中心没有全权的掌控。对于大型的应用程序,登上一台虚拟机去进行故障排除 是不现实的,因为很难定位到底是哪一台虚拟机出现了问题。对PAAS服务,也没有虚拟机可以登录,也就是说,你不知道故障出现在哪里。所有的系统必须要收到监控。
监控和诊断有以下几个阶段:
- 源数据:app log web server log 平台的诊断日志监控数据集中存储监控数据集中分析诊断可视化告警
启用资源级别的Azure Policy确保运维的最佳实践,确保虚拟机能够满足你的规则。Azure Advisor也可以提供一系列的Policy建议。
最佳运维的设计原则最佳运维的设计原则如下,要考虑一个应用程序是如何开发的
- 开发部署运维维护
同样很重要的是,团队文化:
5. 实验测试 共同承载
6. 当前运维方案的合理化 科学化
7. 应急响应预案
最佳运维实践:
1。 环境问题
8. 哪些方面很重要
9. 最佳运维实践的关键点
最为软件工程师要拥抱一下的规则:
- IaC方式提供软件资源传教和发布要使用CICD的方法自动测试
这个方式确保了应用程序创建的软件开发周期的
4. 一致性
5. 可重复性
6. 更早发现错误
如何评估一个运维是否监控要基于有针对性和断然的监控
所以要监控:
创建、发布流程
infra健康
App健康
- 定期进行DR 演练使用混乱的工程方法来寻找应用程序弱点演练失败来证实恢复过程中的有效性,确保团队能够各司其职,了解自己的职责
拥抱持续运维
4. 拥抱持续运维
5. 努力减少复杂度和不明晰的地方
可以让工程师能够按需进行测试、部署、更新系统,而不需要依赖于 支持、服务、资源、批准流程
运维最佳实践 - 自动化自动化的目标:把简单的都自动化,难的人工处理。
把重复性工作自动化
自动化最佳实践
- 确保一致性集中管理错误快速定位问题提高工作效率
自动化的种类:infra自动化部署infra自动化配置运维
infra 自动化部署使用IaC部署
infra 自动化配置,配置如何



