东坡下载:内容最丰富最安全的下载站!

帮助|文件类型库|最新更新|下载分类|排行榜

说明书三农书屋计算机书库健康书屋中小学教辅考试宝典经典名著电视说明书洗衣机说明书相机说明书健康教育公务员考试

首页书籍教程计算机书库 → SRE:Google运维解密 pdf电子书免费版

SRE:Google运维解密

SRE:Google运维解密pdf电子书免费版

  • 大小:75.6M
  • 语言:中文
  • 平台:WinAll
  • 更新:2017-07-03 18:32
  • 等级:
  • 类型:计算机书库
  • 网站:暂无
  • 授权:免费软件
  • 厂商:
  • 产地:国产软件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
软件介绍软件截图相关软件软件教程网友评论下载地址

SRE:Google运维解密是一本关于技术的书籍,谷歌神书,解密让人仰望的技术岗位——谷歌SRE,如何构建一个可长期维护的系统提供了非常宝贵的实践经验,不管对于运维还是开发来说,都是一本值得仔细阅读的好书。sregoogle运维解密pdf电子书,有需要的朋友可以免费下载。

SRE:Google运维解密书籍介绍

大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直接应用的宝贵经验。

任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。

SRE:Google运维解密目录

第Ⅰ部分 概览

第1 章 介绍

系统管理员模式

的解决之道:

方法论

确保长期关注研发工作

在保障服务SLO 的前提下最大化迭代速度

监控系统

应急事件处理

变更管理

需求预测和容量规划

资源部署

效率与性能

小结

第2 章 Google 生产环境:SRE 视角

硬件

管理物理服务器的系统管理软件

管理物理服务器

存储

网络

其他系统软件

分布式锁服务

监控与警报系统

软件基础设施

研发环境

莎士比亚搜索:一个示范服务

用户请求的处理过程

任务和数据的组织方式

第Ⅱ部分 指导思想

第3 章 拥抱风险

管理风险

度量服务的风险

服务的风险容忍度

辨别消费者服务的风险容忍度

基础设施服务的风险容忍度

使用错误预算的目的

错误预算的构建过程

好处

第4 章 服务质量目标

服务质量术语

指标

目标

协议

指标在实践中的应用

运维人员和最终用户各关心什么

指标的收集

汇总

指标的标准化

目标在实践中的应用

目标的定义

目标的选择

控制手段

可以建立用户预期

协议在实践中的应用

第5 章 减少琐事

琐事的定义

为什么琐事越少越好

什么算作工程工作

琐事繁多是不是一定不好

小结

第6 章 分布式系统的监控

术语定义

为什么要监控

对监控系统设置合理预期

现象与原因

黑盒监控与白盒监控

个黄金指标

关于长尾问题

度量指标时采用合适的精度

简化,直到不能再简化

将上述理念整合起来

监控系统的长期维护

:警报过多的案例

:可预知的、可脚本化的人工干预

长跑

小结

第7 章 Google 的自动化系统的演进

自动化的价值

一致性

平台性

修复速度更快

行动速度更快

节省时间

自动化对Google SRE 的价值

自动化的应用案例

的自动化使用案例

自动化分类的层次结构

让自己脱离工作:自动化所有的东西

舒缓疼痛:将自动化应用到集群上线中

使用Prodtest 检测不一致情况

幂等地解决不一致情况

专业化倾向

以服务为导向的集群上线流程

:仓库规模计算机的诞生

可靠性是最基本的功能

建议

第8 章 发布工程

发布工程师的角色

发布工程哲学

自服务模型

追求速度

密闭性

强调策略和流程

持续构建与部署

构建

分支

测试

打包

系统

部署

配置管理

小结

不仅仅只对Google 有用

一开始就进行发布工程

第9 章 简单化

系统的稳定性与灵活性

乏味是一种美德

我绝对不放弃我的代码

“负代码行”作为一个指标

最小

模块化

发布的简单化

小结

第Ⅲ部分 具体实践

第10 章 基于时间序列数据进行有效报警

的起源

应用软件的监控埋点

监控指标的收集

时间序列数据的存储

标签与向量

规则计算

报警

监控系统的分片机制

黑盒监控

配置文件的维护

十年之后

第11 章 on-call 轮值

介绍

工程师的一天

工作平衡

数量上保持平衡

质量上保持平衡

补贴措施

安全感

避免运维压力过大

运维压力过大

奸诈的敌人-运维压力不够

小结

第12 章 有效的故障排查手段

理论

实践

故障报告

定位

检查

诊断

测试和修复

神奇的负面结果

治愈

案例分析

使故障排查更简单

小结

第13 章 紧急事件响应

当系统出现问题时怎么办

测试导致的紧急事故

细节

响应

事后总结

变更部署带来的紧急事故

细节

事故响应

事后总结

流程导致的严重事故

细节

灾难响应

事后总结

所有的问题都有解决方案

向过去学习,而不是重复它

为事故保留记录

提出那些大的,甚至不可能的问题:假如……

鼓励主动测试

SRE:Google运维解密pdf预览

PC官方
安卓官方手机版
IOS官方手机版

SRE:Google运维解密截图

下载地址

SRE:Google运维解密 pdf电子书免费版

热门评论
最新评论
昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)

编辑推荐

本类软件必备

报错

请简要描述您遇到的错误,我们将尽快予以修正。

转帖到论坛
轮坛转帖HTML方式

轮坛转帖UBB方式