SRE:Google运维解密是一本关于技术的书籍,谷歌神书,解密让人仰望的技术岗位——谷歌SRE,如何构建一个可长期维护的系统提供了非常宝贵的实践经验,不管对于运维还是开发来说,都是一本值得仔细阅读的好书。sregoogle运维解密pdf电子书,有需要的朋友可以免费下载。
SRE:Google运维解密书籍介绍
大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。
任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。
SRE:Google运维解密目录
第Ⅰ部分 概览
第1 章 介绍
系统管理员模式
的解决之道:
方法论
确保长期关注研发工作
在保障服务SLO 的前提下最大化迭代速度
监控系统
应急事件处理
变更管理
需求预测和容量规划
资源部署
效率与性能
小结
第2 章 Google 生产环境:SRE 视角
硬件
管理物理服务器的系统管理软件
管理物理服务器
存储
网络
其他系统软件
分布式锁服务
监控与警报系统
软件基础设施
研发环境
莎士比亚搜索:一个示范服务
用户请求的处理过程
任务和数据的组织方式
第Ⅱ部分 指导思想
第3 章 拥抱风险
管理风险
度量服务的风险
服务的风险容忍度
辨别消费者服务的风险容忍度
基础设施服务的风险容忍度
使用错误预算的目的
错误预算的构建过程
好处
第4 章 服务质量目标
服务质量术语
指标
目标
协议
指标在实践中的应用
运维人员和最终用户各关心什么
指标的收集
汇总
指标的标准化
目标在实践中的应用
目标的定义
目标的选择
控制手段
可以建立用户预期
协议在实践中的应用
第5 章 减少琐事
琐事的定义
为什么琐事越少越好
什么算作工程工作
琐事繁多是不是一定不好
小结
第6 章 分布式系统的监控
术语定义
为什么要监控
对监控系统设置合理预期
现象与原因
黑盒监控与白盒监控
个黄金指标
关于长尾问题
度量指标时采用合适的精度
简化,直到不能再简化
将上述理念整合起来
监控系统的长期维护
:警报过多的案例
:可预知的、可脚本化的人工干预
长跑
小结
第7 章 Google 的自动化系统的演进
自动化的价值
一致性
平台性
修复速度更快
行动速度更快
节省时间
自动化对Google SRE 的价值
自动化的应用案例
的自动化使用案例
自动化分类的层次结构
让自己脱离工作:自动化所有的东西
舒缓疼痛:将自动化应用到集群上线中
使用Prodtest 检测不一致情况
幂等地解决不一致情况
专业化倾向
以服务为导向的集群上线流程
:仓库规模计算机的诞生
可靠性是最基本的功能
建议
第8 章 发布工程
发布工程师的角色
发布工程哲学
自服务模型
追求速度
密闭性
强调策略和流程
持续构建与部署
构建
分支
测试
打包
系统
部署
配置管理
小结
不仅仅只对Google 有用
一开始就进行发布工程
第9 章 简单化
系统的稳定性与灵活性
乏味是一种美德
我绝对不放弃我的代码
“负代码行”作为一个指标
最小
模块化
发布的简单化
小结
第Ⅲ部分 具体实践
第10 章 基于时间序列数据进行有效报警
的起源
应用软件的监控埋点
监控指标的收集
时间序列数据的存储
标签与向量
规则计算
报警
监控系统的分片机制
黑盒监控
配置文件的维护
十年之后
第11 章 on-call 轮值
介绍
工程师的一天
工作平衡
数量上保持平衡
质量上保持平衡
补贴措施
安全感
避免运维压力过大
运维压力过大
奸诈的敌人-运维压力不够
小结
第12 章 有效的故障排查手段
理论
实践
故障报告
定位
检查
诊断
测试和修复
神奇的负面结果
治愈
案例分析
使故障排查更简单
小结
第13 章 紧急事件响应
当系统出现问题时怎么办
测试导致的紧急事故
细节
响应
事后总结
变更部署带来的紧急事故
细节
事故响应
事后总结
流程导致的严重事故
细节
灾难响应
事后总结
所有的问题都有解决方案
向过去学习,而不是重复它
为事故保留记录
提出那些大的,甚至不可能的问题:假如……
鼓励主动测试
SRE:Google运维解密pdf预览
- PC官方版
- 安卓官方手机版
- IOS官方手机版