运维方法论 | 云深不知处

type

status

date

slug

summary

1.常见运维方法论

运维（Operations，简称Ops）是指负责软件系统或基础设施的日常运行和维护的活动。在运维领域，有一些常见的方法论和最佳实践，帮助提高效率、稳定性和可靠性。以下是几个常用的运维方法论：

ITIL（Information Technology Infrastructure Library）：ITIL是一种广泛采用的IT服务管理框架，涵盖了各种与IT服务运营相关的最佳实践和流程，包括配置管理、问题管理、变更管理等。

DevOps：DevOps是开发（Development）和运维（Operations）的结合，旨在通过加强开发和运维团队之间的协作和自动化，实现快速、可靠的软件交付和持续创新。

SRE（Site Reliability Engineering）：SRE是谷歌提出的一种运维工程实践方法，强调将软件工程的原则和实践应用于运维领域，通过自动化、监控和故障响应等方式，提高系统的可靠性和可维护性。

Agile运维：借鉴敏捷开发的思想和实践，将敏捷的原则应用于运维领域。通过迭代和增量的方式处理任务，提高运维团队的灵活性和反应能力。

5S管理法：5S是一种管理方法，强调整理、整顿、清扫、清洁和纪律的原则。在运维中，可以应用5S原则来管理设备、工具和文档，以提高效率和组织性。

这些方法论都有自己的特点和适用场景，选择适合自己组织的方法论取决于实际需求、组织文化和团队规模等因素。此外，随着技术的发展和需求的变化，新的方法论和最佳实践也在不断涌现，因此持续学习和适应变化是保持运维效率和质量的重要原则。

2.Devops的建议

要着手实施DevOps，以下是一些关键步骤和建议：

理解DevOps原则和目标：了解DevOps的核心原则，例如协作、自动化、持续交付和持续改进。明确你希望通过DevOps实现的目标，如加速软件交付、提高质量和效率等。

创建跨职能团队：建立一个由开发人员、运维人员和其他相关角色组成的跨职能团队，促进更好的协作和沟通。团队成员之间应有共同的目标和共享的责任。

自动化工具和流程：采用自动化工具和流程来加速交付过程和减少人为错误。例如，使用持续集成和持续交付工具来自动构建、测试和部署软件。

优先考虑可观察性：实施监控、日志和指标收集等措施，以实时了解系统的状态和性能。这将帮助你及早发现问题、进行故障排查和做出迅速的决策。

实施持续改进文化：鼓励团队成员不断反思和改进工作流程。定期进行回顾会议和知识分享，以识别问题、制定改进计划并推动实施。

逐步迭代实施：将DevOps的实施分为小步骤，并在每个阶段进行评估和调整。逐渐扩大范围和覆盖面，以确保适应和接受度。

培养技能和知识：提供培训和学习机会，使团队成员掌握DevOps所需的技能和知识。鼓励自主学习和知识共享，建立学习型团队。

测量和评估：制定关键绩效指标（KPIs），用于度量和评估DevOps实施的效果。根据数据和反馈进行调整和改进。

重要的是，DevOps是一种文化和实践的转变，需要时间和持续的努力来实现。与团队成员和利益相关者密切合作，并根据实际情况进行调整。不断学习、改进和适应是成功实施DevOps的关键要素。

评估DevOps实施的效果可以从多个方面进行考量。以下是一些常见的评估指标和方法：

交付速度：评估在引入DevOps之后，软件交付的速度是否有所提升。可以比较引入DevOps前后的交付周期、部署频率和发布新功能的速度等指标。

故障恢复时间：比较引入DevOps后故障发生时的响应和恢复时间与之前的情况。较短的故障恢复时间可以反映出DevOps对于故障处理流程的改进效果。

可靠性和稳定性：通过评估系统的可靠性和稳定性指标，如平均故障时间间隔（MTTF）、平均修复时间（MTTR）和系统可用性，来衡量DevOps的实施效果。

自动化程度：评估自动化工具和流程的应用程度，比较手动操作和自动化操作的比例。高度自动化的环境可以提高效率、减少错误和提升一致性。

团队协作和文化变革：考察团队之间的合作和协作程度，是否出现更好的信息共享、知识共享和团队合作的情况。此外，也需要关注组织文化是否发生积极的变化，是否有更强的迭代和改进意识。

用户满意度：评估用户对于软件和服务的满意度，可以通过用户反馈、调查问卷和客户支持数据来收集信息。用户满意度的提升可能意味着DevOps实施对于用户体验和价值提供产生了积极影响。

成本效益：评估DevOps实施对于成本的影响，包括人力资源成本、基础设施成本和支持成本等。通过比较DevOps实施前后的成本数据，看是否有明显的改善或节约。

3.什么是SLI/SLO

SLI（Service Level Indicator）和SLO（Service Level Objective）是运维中常用的术语，用于衡量和定义服务水平。

SLI（Service Level Indicator）是指用于衡量服务性能和质量的具体指标或测量方法。它可以是关于服务可用性、响应时间、错误率等方面的度量指标。通过SLI，你可以量化和监控服务的关键性能指标。

SLO（Service Level Objective）是指为服务设定的目标水平，它是对服务质量和性能的期望值或约定。SLO一般基于SLI的测量结果来定义，例如，对于服务的可用性，SLO可以是99.9%的可用性目标。SLO帮助明确了服务的预期表现，并提供了衡量服务是否符合预期的标准。

SLI和SLO之间的关系是，SLI提供了实际测量和监控的指标数据，而SLO则将这些指标数据与业务需求对接，为服务性能设定了明确的目标。SLI和SLO的定义可以作为运维团队与服务使用者之间的合同，以确保服务质量和满足用户期望。

同时，还有SLA（Service Level Agreement）的概念，它是运维团队与服务使用者之间达成的正式协议，明确了服务水平的要求、补偿措施等方面的内容。SLA通常基于SLO来定义，并对服务提供商和使用者之间的责任和义务进行规定。

综上所述，SLI、SLO和SLA是在运维中常用的术语，用于衡量、定义和协商服务水平，以确保服务的可靠性、性能和满足用户期望。

4.SLI的制定

SLI（Service Level Indicator）的指定通常基于服务的特定性质和关注点。以下是一些常见的SLI制定方法：

可用性：对于可用性指标，常用的SLI可以是系统或服务的正常运行时间与总运行时间的比率。例如，服务在每月的总运行时间内正常运行的时间比率可以作为可用性的SLI。

响应时间：对于响应时间指标，SLI可以是服务的平均响应时间或百分位响应时间。例如，服务的平均响应时间小于200毫秒，或95%的请求在500毫秒内得到响应等。

错误率：对于错误率指标，SLI可以是服务请求中错误或异常响应的比例。例如，服务错误率小于1%或每月的故障事件次数。

吞吐量：对于吞吐量指标，SLI可以是服务每秒或每分钟处理的请求数量。例如，服务的每秒请求数大于1000或每分钟处理的事务数。

容量：对于容量指标，SLI可以是服务资源的利用率或资源消耗速率。例如，服务的CPU利用率保持在70%以下或每小时的存储使用量。

这些只是一些常见的SLI指定示例，实际的SLI选择应根据具体的服务需求和关注点进行确定。在指定SLI时，关键是确保指标具有可测量性、可验证性和与业务需求相关性。定期监控和收集SLI数据，与SLO进行比较和评估，可以帮助确定服务是否达到预期水平，并进行必要的改进和优化。

5.SLO的制定

制定SLO（Service Level Objective）需要考虑以下几个关键因素：

了解业务需求：首先，要明确业务的需求和期望。与相关利益相关者（如客户、用户、业务部门）沟通，了解对服务性能和质量的要求，包括可用性、响应时间、吞吐量等方面。

基于SLI：SLO应该基于可衡量的SLI（Service Level Indicator）。确定适当的SLI指标，以衡量服务的性能和质量。这些指标应与业务需求相符，并能够提供实际的测量数据。

设定目标：根据业务需求和SLI，设定具体的目标值或阈值。例如，可用性目标可以是99.9%的服务可用性，响应时间目标可以是平均响应时间小于200毫秒。

可量化和可验证性：SLO应具备可量化和可验证性，即能够使用实际数据进行测量和验证。确保SLO的定义和测量方式清晰明确，避免模糊或主观的表述。

时间范围：确定SLO的时间范围，例如每月、每周或每季度。SLO的时间范围应与业务的周期性需求相匹配，并兼顾服务变化和持续改进的因素。

实时监测和反馈：确保有适当的监测和报告机制，以实时跟踪和反馈SLO的达成情况。使用监控工具和报警系统来及时发现并响应不符合SLO的情况。

持续改进：SLO不是一成不变的，应与业务需求和技术发展相适应。定期评估SLO的有效性和实现情况，根据反馈和数据进行调整和优化，以不断提升服务水平。

制定SLO需要综合考虑业务需求、技术能力和用户体验，确保SLO的设定合理、可行且与实际情况相符。它对于明确服务质量目标、与利益相关者建立共识，并实现持续改进和优化都非常重要。

6.0到1的SLO方案样本

确定关键SLI指标：

可用性：将服务的可用性作为关键指标，以每月运行时间中服务正常可用的百分比来衡量。

响应时间：将服务的响应时间作为关键指标，以平均响应时间和百分位响应时间来衡量。

错误率：将服务的错误率作为关键指标，以请求中错误或异常响应的百分比来衡量。

设定SLO目标：

可用性目标：设定每月服务可用性目标为99.9%，表示服务至少可用99.9%的时间。

响应时间目标：设定平均响应时间目标为200毫秒以内，百分位响应时间目标为95%的请求在500毫秒以内得到响应。

错误率目标：设定错误率目标为每月错误率低于1%，以确保服务的稳定性和可靠性。

实施监测和测量机制：

部署监控工具和系统，以实时收集和监测关键SLI指标的数据。

设置报警规则和阈值，当SLI指标达到或超过设定的阈值时，及时触发警报通知相关团队。

建立报告和可视化：

创建定期报告，总结关键SLI指标的趋势和达成情况。

使用可视化工具，如仪表盘或数据可视化图表，展示SLI指标的实时状态和历史数据，以便团队成员和利益相关者能够直观地了解服务的性能。

定期评估和改进：

定期评估SLO的达成情况，分析SLI数据和报告，识别改进的机会和潜在问题。

根据评估结果，制定改进计划并跟踪执行情况，确保SLI和SLO的持续优化和达成。

7.SRE和Devops的区别

SRE（Site Reliability Engineering）和DevOps是两种关注于软件开发和运维的方法论，它们有一些共同点，但也存在一些区别。

DevOps注重整个软件交付流程的协同和协作，旨在加强开发团队和运维团队之间的沟通和协作，以实现快速交付、持续集成和持续交付。DevOps鼓励自动化和文化上的改变，强调开发人员和运维人员之间的合作，通过共享责任和知识，提高交付速度和质量。

SRE则是Google提出的一种运维方法论，强调通过软件工程的方法和实践来保证服务的可靠性和稳定性。SRE的核心目标是确保服务的可用性、性能和效率，并提供明确的服务级别目标（SLO）和服务级别协议（SLA）。SRE团队使用软件工程的原则来管理服务的生命周期，包括构建、发布、监控和调优。

关于区别，可以概括如下：

范围和关注点：DevOps关注整个软件交付流程的协同和协作，包括开发、测试、部署和运维等方面。SRE关注于服务的可靠性和稳定性，强调通过软件工程实践来管理和维护服务。

目标和重点：DevOps的目标是加强开发和运维之间的合作，实现快速交付和持续改进。SRE的目标是确保服务的可用性、性能和效率，并设定明确的SLO和SLA。

方法和实践：DevOps强调自动化、持续集成和持续交付等实践，注重改变组织文化和流程。SRE借鉴软件工程的原则，使用编码和工程方法来管理和维护服务，注重可靠性工程和故障处理。

发展历史：DevOps起源于对开发和运维之间壁垒的关注，强调通过文化和流程改进来实现协同。SRE起源于Google的运维实践，注重可靠性和服务管理的工程化。

需要注意的是，DevOps和SRE并不是相互排斥的，而是可以相互补充和结合。在实际应用中，组织可以采用DevOps的协同和协作理念，同时借鉴SRE的可靠性工程实践，以提供高质量、可靠的服务。

8.其他

DevOps VS ITIL-腾讯云开发者社区-腾讯云

在文章之前，我想花点文字来说一下D/O分离，在工作过的几家公司运维，都曾经强调过D/O分离。个人承认在早期，比如说运维团队成立初期，D和O此时没有职责界定，这个是非常必要的，它能快速厘清各自的工作内容，然而随着团队逐渐规范，甚至在向ITIL过渡的过程中，过分强调D/O分离，其实带来了很多问题，典型就是相互推诿和运维团队的边缘化。相互推诿是因为在工作中很难把所有的事务分清，你做也可以，我做也可以，那谁来主动说我做呢？运维团队的边缘化是D会逐渐把琐碎的事务转移给O，O会逐渐陷入到这类频繁的事务中，无法找到自己的存在价值。因此我一直对D/O持否定态度的。

https://cloud.tencent.com/developer/article/1540326