大型网站运维

书籍作者：顾贤杰	ISBN：9787121416125
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：1921
创建日期：2021-10-07	发布日期：2021-10-07
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
下载地址

内容简介

运维发展到现在，与最初相比发生了巨大的变化。10多年的互联网发展，让国内的运维经历了快速的变革，开始和国外接轨，甚至在部分场景有单独的演化。DevOps和SRE作为运维领域的两个演化方向，在最近几年获得了很多关注，也有很多公司进行了相关的实践。与DevOps遍地开花的情况相比，SRE在国内的发展稍显低调。《SRE：Google运维解密》一书对国内外运维领域有很大冲击。本书作者作为一直工作在一线的运维工程师，理所当然地对SRE相关理念进行了实践，本书可以说是对SRE领域阶段性的实践总结。

本书主要对传统运维和SRE进行不同对比，让大家了解运维工程师在实践SRE理念时，关注的点和具体的实践经验。本书的前半部分更多地注重SRE在实际工作中对融入开发团队、监控建设、变更管理、容量管理、异常响应、稳定性治理、事故复盘、用户体验管理等方面的实践和落地。

在对SRE的工作有了一定了解后，本书会针对重要业务保障场景进行实战讲解。本书最后部分对SRE工作中涉及的一些技术进行了概述，以便有兴趣的同学了解SRE相关的技术点。

作者简介

顾贤杰
网易运维专家、SRE团队Leader，10多年来一直聚焦互联网业务运维和稳定性建设。在互联网业务运维方面经验丰富，曾负责网易博客、相册、即时通信、支付、电商、账号系统、云音乐等众多产品的运维工作。在金融支付机房设计、高性能负载均衡建设、业务双机房改造部署、灾备建设等多个运维领域均有实践，设计过海量服务器运维工具平台，负责的产品服务了上亿的互联网用户。
目前的运维研究方向：海量服务器稳定性治理、基础设施即代码、混合云/云原生体系下的运维平台建设。

徐赟
网易资深运维开发工程师，运维开发团队技术Leader。参与并主导杭研运维体系建设，包括监控、流程、发布、审批等运维领域。持续探索运维自动化、智能化、一体化建设，为网易云音乐、网易传媒、网易支付等上百个产品提供高效稳定的运维服务。

颜中冠
网易技术经理、资深架构师，有16年的互联网一线研发和架构经验。曾负责亿级统一认证项目，主持网易帐号异地双机房建设，以及网易云计算业务中台搭建，负责多个对外亿级商业化项目研发。

编辑推荐

适读人群：开发人员、网站运维人员、SRE人员

网易运维专家、SRE团队Leader顾贤杰领衔撰写，凝聚了网易10年百亿级别大型系统运维经验，值得阅读！从Google SRE到网易SRE的实践之旅，中国技术团队的实践总结！

《大型网站运维》电子书免费下载

pdf下载 txt下载 epub下载 mobi下载 azw3下载

前言

本书主要面向有一定传统运维工作经验的工程师和对运维工作有兴趣的读者，其通过对理念实践、团队合作、变更管理、事故处理等多个运维工作领域的分析和发掘，分享传统运维团队转型SRE团队的经验和实战感悟。

在2019年的某次运维会议上，我有幸和出版社编辑接触，并获邀对SRE方向进行撰稿。作为一个长期工作在一线的运维工程师，我读过《SRE：Google运维解密》这本书，也有相关的实践经验，但是从未想到会写一本关于SRE的书。一方面是因为感觉《SRE：Google运维解密》珠玉在前；另一方面是因为虽然我写过大量的技术文章，但是对写书这件事完全没有经验。出版社编辑对国内运维方向书籍的情况进行了分析，并且不断给予我鼓励，最终让我决定开始写这本书。

本书在很大意义上算是我对SRE在网易实践落地的想法总结和经验分享，希望书里的内容能给予读者一定的启发。

主要章节导读

第1章主要讲述SRE、DevOps的理念和差异，让读者对当前运维两大演化分支有初步的认识。同时对运维团队转型SRE团队的背景进行了说明和分析，让读者对SRE团队的工作有一定的认知。

第2章介绍SRE团队和其他技术团队的合作方式，包括自身角色定位和相关的实践技巧。

第3章讲述常见的监控建设，分析监控的设计要求、技术要领。通过讲述监控背后的技术原理和架构，让读者对监控的设计思路和建设理念有初步的认知。

第4章介绍SRE团队在变更管理上的实践经验，通过探讨变更背后的原因、目的等深层次因素，讲述DevOps和SRE在变更理念上的差异和实际落地经验。

第5章对运维日常中的异常情况处理进行深入探讨和分析，并且结合一定的案例介绍事故处理流程和机制，让读者对线上异常处理有清楚的认知。

第6章重点讲述线上服务稳定性治理，通过介绍SLI/SLO/SLA及相关的治理技巧，让读者对如何改进服务稳定性有初步的了解。

第7章线上事故是不可避免的，无论是传统运维团队还是SRE团队都有处理事故的需求。本章通过讲述事故处理背后的环节和实践经验，让读者对事故复盘和改进等环节的重要性有清楚的认知。

第8章介绍容量管理的目的和方法，通过分析与容量相关的概念及其重要性，有针对性地给出相关的策略方法，同时分享了一些与容量相关的建设经验。

第9章讲述传统运维团队转型SRE团队后面临的用户体验问题，通过对内部用户和外部用户的体验问题进行分析，分享在实际落地过程中的经验和策略。

第10章介绍在类似电商大促等业务重要活动中，SRE团队承担的角色和跟进事项等。通过对业务重要活动的环节分析解码，分享相关的经验和技巧。

第11章相比其他书籍中的运维技术介绍，本章会深入网络，介绍内核调优背后的原理、分享运维工具的特性，让了解Linux基本命令的读者可以深入理解SRE团队在日常工作中需要了解的技术原理。

第12章通过介绍各种中间件背后的技术特性，让读者对负载均衡、缓存、数据库等技术有进一步的认识，并且对相关组件的选型方法有一定的掌握。

第13章介绍云计算和容器的原理，以及相关的演化情况。让读者对云计算、容器、云原生有大致的理解，在遇到相关场景时能理解其背后的技术原理。

致谢

写书不只是文字输出，更是对自身经验和想法的梳理。因为这是第一次系统地梳理输出自己的想法和观点，对能否成稿我有很大的担忧。感谢网易杭州研究院运维专业委员会对本书编写思路给出的建议，感谢团队的支持，感谢本书另外两位作者对“监控建设”章节和“容量管理”章节的精彩编写。

感谢编辑在整个写书过程中给予的编撰指导和进度敦促，让本书最终能按时呈现给读者。写书非常耗时，编写过程占用了我大量的业余时间，因此我特别感谢家人的支持，尤其是我女儿鱼儿宝贝的支持和理解。

作者

短评

价格便宜物流很快书很好下次再来

2021-08-16 18:06:54

大型网站运维

内容简介

作者简介

编辑推荐

《大型网站运维》电子书免费下载

前言

目录

短评

产品特色