高性能之道: SRE视角下的运维架构实践

书籍作者：王力	ISBN：9787121454585
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：4635
创建日期：2024-04-03	发布日期：2024-04-03
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

本书从实践出发，包括了作者参与并主导的3家电商互联网公司架构从0到1的构建经历，从多个角度讲解稳定、性能、效率、成本四大职责落地经验，并结合Mikey金字塔进行了部分创新，很多内容都可以直接复用于实际工作。本书分为7篇，分别是开端篇、监控篇、故障篇、容量篇、全局视角篇、性能篇和扩展篇。

本书适合互联网行业内的运维人员、SRE和DevOps工程师、架构师、技术团队负责人及关注用户体验的相关开发者阅读，也适合掌握了一定的SRE方法论但在实践中无从下手的读者阅读。

作者简介

本书主要作者王力，资深技术老兵，《Nginx实战：基于Lua语言的配置、开发与架构详解》和《高性能之道：SRE视角下的运维架构实践》作者。15年互联网从业经验，其中有9年电商互联网开发和运维经验，这期间担任过微拍堂运维专家、阿里技术专家、折800运维架构师等，并有5年主导电商大促活动保障的落地经验，推进过折800、微拍堂两家电商平台运维架构从0到1的建设，精通服务的稳定性建设，精通高并发场景下的性能优化和中间件开发，擅长通过架构设计来优化系统复杂度、降本增效。

编辑推荐

适读人群：本书适合互联网行业内的运维人员、SRE和DevOps工程师、架构师、技术团队负责人及关注用户体验的相关开发者阅读，也适合掌握了一定的SRE方法论但在实践中无从下手的读者阅读。

本书亮点和创新技术实践思路
√ SRE性能优化漏斗优化法则：全书用十几个章节介绍相关技术实践，体现了整个法则的收益。
√ 标准和规范治理平台的设计思路：是解决技术体系各项规范落地难、长期治理效果差的闭环解决方案。
√ HTTP故障降级理论和实践：从电商平台业务中抽象出降级模型，提出了创新的故障降级解决方案，相关思路不局限于解决电商平台业务问题，还可以扩展到其他一些领域（前提是运维人员深刻理解业务）。
√ 云原生可观测性开源工具Kindling的介绍及实践价值：针对目前云原生下海量日志分析难、定位问题难等进行的优秀实践。
√ 全视角解读运维架构建设中的各种矛盾和破解思路。

前言

序

请各位读者耐心地看完下面的内容，这些内容是阅读本书之前必须了解的，可以让你们更清楚地理解本书想要表达什么，而不应只把本书当作一个方法论的实践手册。另外，下面也会告诉大家为什么笔者使用“高性能之道”作为本书的书名。

众所周知，SRE工程师有几类重要职责：延迟优化、性能优化、效率优化、稳定性优化、容量规划、应急响应等。随着SRE在国内的流行，很多运维团队开始转型，包括一些架构师、后端工程师、系统工程师也纷纷加入其中。在这个SRE实践日渐丰富的情况下，笔者想讲两件事情：一件坏事，一件好事。

第一件事情：互联网行业现状对技术的影响。几年前，或者说给人留下深刻印象的2011－2019年，互联网平台百花齐放，团购、电商、游戏、聊天软件等，基本上日常的生活方式都走进了互联网。也正是因为互联网发展迅猛，我们选择使用IT成本、人力成本交换时间，代码质量不高、架构设计不佳等问题都通过投入更多的成本暂时得到了解决。虽然这样做可以解决大部分性能问题，甚至隐藏不稳定的架构风险，让业务继续往前推进，但留下了很多技术债。

那段时间其实已经出现了SRE角色，虽然国内的SRE起步较晚，但也不断地发挥出了价值。那几年，SRE工程师的核心职责中保障稳定性、效率是高于优化成本和性能的，或者说成本和性能也需要优化，但相比其他目标，被降低了优先级。但在2020年后，互联网行业出现了明显的疲态，这对我们互联网技术人来说，是一件坏事。这时大多数公司面对“寒冬”开始开源节流，成本优化被反复拉上日程，甚至有云厂商专门为云产品客户提供了专业的成本优化方案。大幅度地优化成本，如果只是单纯地缩减使用效率低的机器，将无法满足公司迫切节约成本的需求，而且一旦服务器资源减少，曾经性能不好的代码和架构问题都会浮出水面，甚至会导致辛辛苦苦节约的成本被一次偶发故障就抵扣了，得不偿失。因此，成本优化往往要伴随着架构优化、代码重构，甚至业务逻辑优化，简而言之就是性能优化。面对这种突然发生的改变，SRE工程师如何从容面对？

第二件事情：国内的SRE工程师大多从运维工程师转型而来，对性能优化、延迟优化缺乏经验，很难发挥出SRE工程师应具备的各项能力（当然很多公司也没有对团队的SRE工程师提出这样的要求）。部分有独特见解的团队，在成立SRE团队时，除了运维工程师，也引入了业务开发人员、基础架构师、系统工程师等有较强高并发开发经验和系统底层认知能力的成员，他们对性能的要求是极致的，为服务的SLA达标，设计更精妙的架构，而这些不是传统运维人员可以达到的，国内的SRE已经开始向更高阶的路线发展。虽然这又增加了SRE的技术难度，但是是一件好事，让我们可以拥有更全面、更有深度的技术。

下面举几个常见的例子。

（1）业务开发人员开发了一些动态接口，其实可以适当配置1～2分钟的CDN缓存，但并未配置，导致回源请求量高、带宽成本高，响应速度和性能也未达到最佳。

（2）NoSQL使用场景少，过度依赖MySQL，成本高，响应速度和性能也未达到最佳。

（3）客户端请求数据太多，实际应用中，只使用了部分数据，浪费了带宽，数据太多甚至意味着可能存在太多的数据处理操作，响应速度和性能也未达到最佳。

（4）在页面渲染过程中，部分数据是不需要提前加载的，但前端工程师设计了大量预加载任务，导致了大量无效计算和网络开销，响应速度和性能也未达到最佳。

（5）业务开发人员对某个接口设置了1分钟的Redis缓存，但根据业务场景，这个接口的缓存其实可以设置为10分钟，这导致请求量减少得不多，响应速度和性能也未达到最佳。

诸如此类，各种问题累加在一起，极大地增加了系统的资源开销，这会影响成本优化，也会影响服务性能，而高性能可以提升成本优化的效果，也可以优化业务架构、延迟等现象，帮助我们更好地提升用户体验。

基于这两件事情，笔者使用“高性能之道”作为书名，本书会从SRE工程师的职责进行讲解，通过实践让读者更好地理解，这些职责在工作中是相辅相成的、共同发挥作用的。这几年互联网行业“内卷”严重，但也正是全面发挥SRE工程师职责的好机会。寒冬闭关苦修，静待春风到来！

前言

写书的目的：破圈之道

从运维的范畴讲，我认为，在一个开发团队内，除了业务需求实现层面的事情，其他都属于运维的范畴，这个范畴内的事情本质上就是为软件生命周期内的运行维护阶段服务。

——来自赵成的运维体系管理课

以上是蘑菇街运维总监赵成的运维体系管理课中的一段经典语句，如果正在看本书的你是运维人员，可以认真地理解一下这段话，然后与自己的工作职责进行一下对比。

运维人员长期以来的工作职责都是围绕成本、安全、效率、稳定来开展的，这和SRE工程师的工作职责有很多相同点。但现在仍然有不少运维人员将掌握各项基础设施的维护、配置和监控当作工作职责，这样合适吗？如果你所在的公司对运维人员的要求就是支撑和辅助，而你本人也完全接受，那么无可厚非；但如果你在一家产品不断迭代、不断创新的公司做运维工作，笔者相信这些能力是远远不够的，除非你就打算“躺平”。

通过本书，笔者希望可以让更多的运维人员改变以往的工作模式，摒弃常年仅做后方保障工作的习惯，运维人员需要站在团队的最前面，统筹所有与运维架构有关的问题，在保障承诺的稳定性指标的前提下，尽最大的努力完成业务迭代、成本优化、性能优化、容量规划等工作。

本书以SRE的视角解读运维架构，运维架构并非指传统意义上的配置、安装、维护等，而是除了业务开发，其他都属于运维架构范畴，这些最终都是为了在合理的效率和成本前提下，让用户可以享用稳定的服务。

本书会通过一系列实践和案例突出以下3个基础思想。

（1）绝大部分用户体验不顺畅，从运维视角都能看出端倪，通过对性能、容量、响应速度等维度的分析，可以推进代码规范、质量等方面的改进，最终提升用户体验。

（2）在保障稳定性建设正常开展的前提下，最大化地降低用于应对技术风险的运营成本。

（3）除了业务开发，其他都属于运维架构范畴，但只有了解了业务和业务开发，才能更准确地完善运维架构。

这些基础思想可以支撑运维工作的整个生命周期，同样为其他技术岗位人员更好地实现跨部门共建提供解决思路。

读者对象

本书内容是通过大量工作经验总结得到的知识和技术方案，读者需要一定的积累才能更深刻地理解其中的价值。对于刚入行的运维人员，建议先熟悉运维架构工作或SRE方法论，再进行学习。

本书内容

本书的大部分内容是以笔者9年电商行业运维和开发经验为基础进行的讲解，其中将电商行业与SRE中的Mikey金字塔相结合进行了创新，很多内容都可以直接用于日常工作（本书不会过多地介绍SRE基础知识，若读者想要学习相关知识，可以自行上网搜索谷歌SRE的相关文章）。

本书分为7篇。

开端篇，主要讲解SRE和运维架构之间的关联性和SRE的工作范畴，解读了岗位职责和一些日常非核心场景中容易被忽略的点，以及应该重视测试环境和预发布环境。

监控篇，主要讲解监控落地时容易被忽略的地方，并且提供了可持续维护监控对象的一些方法，提出了监控新思路——监测和控制，而不是以往运维视角下的以触发报警为核心的监控逻辑，监控应该发挥控制的效果，比如在监测到技术风险时，执行一系列动作来控制风险。

故障篇，主要讲解在故障的整个生命周期内，运维人员和SRE工程师应该担当的职责，并将故障分为事前治理、事中应急、事后改进三大板块，基于每个板块给出什么时间节点做什么事情的指导建议。

容量篇，主要介绍业务和容量的关系，并且讲解在容量规划中通过什么样的方式能够更好地实现成本、性能的平衡，而且在该篇章中，增加了对编程能力的介绍。编程能力能让我们更理解资源消耗是如何产生的，为我们更好地与业务开发人员探讨资源配置的合理性做好准备。

全局视角篇，主要介绍如何从各个技术岗位的视角看待运维架构中的各项事务，同时以用户视角讲解SRE的价值，为运维破圈做准备。

性能篇，主要通过介绍各性能优化技术方案，提供可实战的落地任务，给出工作中常见的技术难题和解题思路。

扩展篇，主要介绍在共建稳定性的过程中如何更好地应用整个技术体系，给出如何将技术思想和技术方案进行跨部门分享和推广的实践。

勘误

本书以实践为主，绝大部分内容是电商行业的技术实践，可能存在考虑不周全的地方，再加上运维架构相关内容烦琐复杂，在体系化的打造过程中难免存在疏漏和错误，请读者朋友多多见谅。如果你发现本书中存在的任何问题或者希望提出建议，请联系笔者，笔者的QQ邮箱是[email protected]。

致谢

本书中有部分内容来自其他作者的共同努力。在他们的帮助下，笔者才得以将整套实践体系打造完善。笔者要特别感谢以下成员。微拍堂运维团队：田红阳、柴振华、刘占彬、张博、刘帅、李秋阳、陆游、姜伯洋、章远强、涂永春、陈建华、李启龙等。Kindling开源团队。技术专家周云龙、索碧桐。网易SRE工程师陆游。

特别感谢微拍堂创始人徐烽、金明亮，在他们的大力支持下，笔者才有充足的时间将本书打磨完善。

感谢电子工业出版社博文视点的编辑付睿，她在本书的出版过程中提供了很多宝贵的建议。

高性能之道: SRE视角下的运维架构实践

内容简介

作者简介

编辑推荐

前言

目录

产品特色