SRE网站可靠性工程师
2021-02-18 07:17
标签:负载测试 deploy 攻击 火墙 事务 linux app spl res SRE网站可靠性工程师 SRE的以下5个理念可以通过事实数据和洞察力带来更好的客户体验。可观察性和实用的度量标准是现SRE促进服务弹性和基础设施正常运行的最佳方法——满足客户的期望。 SRE工程师将负责制定和满足服务水平的目标、协议和指标(SLOs、sla和SLIs)。基于底层应用程序和基础设施的成熟度,以及整个团队的结构和可靠性实践的支持,SREs可以评估合理的指标,以量化客户的正常运行时间和可用性。什么样的可用性水平是合理的,可以假定您可以持续地维护,以及什么会让客户和潜在客户满意,从而带来更多的业务? 当然,如果站点可靠性工程师要对服务可用性负责,那么他们也要对性能负责。在某种意义上,性能是看待可用性的另一种方式。在工程团队看来,经历了某种程度的延迟或另一种类型的性能下降的客户,很可能正在经历停机。如果服务不是高性能和可用的,那么它几乎是不可用的。SREs负责为这些生产系统带来见解和行动,以确保开发人员和IT团队快速修复问题,改善客户体验,并使应用程序和基础设施随着时间的推移更具弹性。 为了确保性能和可用性,SREs需要知道在其应用程序和基础设施中监视和警告什么。可观察的服务大大提高了开发和发布团队的效率,这自然会提高面向客户的服务的正常运行时间和性能。SREs同时使用白盒和黑箱监控,以及仪表板和其他可视化工具来确保开发,组织中任何地方的IT和安全团队都能更好地了解他们的应用程序和基础设施的健康状况。 SREs的随叫随到管理和事件响应,通常在不同的组织之间是不同的。虽然站点可靠性工程师并不总是需要随叫随到,但他们至少应该对事件后的评审做出贡献,并在高水平上了解事件响应过程。系统可靠性在很大程度上取决于DevOps和IT团队在处理生产中的事故和中断时的效率。站点可靠性工程师需要对他们的事件响应团队的成功负责——这通常意味着他们需要成为随叫随到过程的一部分。 SREs需要确保开发人员和IT运营团队拥有他们需要的资源,以了解他们的系统,知道什么地方出了问题,并快速响应问题。通过事件后的协作评审过程、有用的度量标准和指示板,以及对组织的CI/CD过程的全面改进,站点可靠性工程师在DevOps和IT效率方面有很大的优势。 最低学历: 优先条件: Google’s SRE Book SRE网站可靠性工程师 标签:负载测试 deploy 攻击 火墙 事务 linux app spl res 原文地址:https://www.cnblogs.com/itech/p/12944585.htmlSRE需要做什么?
一般:
应用程序级别:
服务器级别:
安全与管理:
SRE核心组件
1)可用性
2)性能
3)监控
4)事件反应
5)协作沟通
google招聘SRE的要求
参考
Google’s Site Reliability Workbook PDF
Google Cloud Platform Podcast
Splunk’s Beginner’s Guide to Observability
SRE, Golden Signals and Happier Customers (webinar)
Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation (book)
The Complete Guide to Post-Incident Reviews
Reducing MTTD for High-Severity Incidents (guide)
The Unicorn Project (book)
上一篇:CSS 解决img底部空白间隙
下一篇:国外网站软件下载_巧用迅雷