- 軟件(jiàn)大小(xiǎo):73.77M
- 軟件語(yǔ)言:中文
- 軟件類型:國產軟件
- 軟件類別(bié):免(miǎn)費軟件(jiàn) / 電子圖書
- 更新時間:2017-08-22 10:53
- 運行環境(jìng):WinAll, WinXP, Win7, Win8, Win10
- 軟(ruǎn)件(jiàn)等級:
- 軟(ruǎn)件廠商:
- 官方網站:暫無
146.48M/中文(wén)/2.0
9.76M/中文/10.0
32.22M/中文/1.5
7.81M/中(zhōng)文(wén)/1.4
5.85M/中文(wén)/0.0
sre google運維解密pdf是一套免費(fèi)的電子圖書文檔。這套圖書為大家介紹了軟(ruǎn)件(jiàn)開發過程中遇到了詳細運維方式。很適合Google工程師人員研(yán)究學習使用(yòng)!快來綠色資源(yuán)網下載閱讀吧!
在(zài)《SRE:Google運維解(jiě)密》中,Google SRE的關鍵成員解釋(shì)了他們是如何對軟(ruǎn)件進行生命周期的(de)整(zhěng)體性(xìng)關注的,以及為什麽這(zhè)樣做能(néng)夠幫助Google成功地構建、部署、監控和運維世(shì)界上現存(cún)最大的軟件(jiàn)係統。通過閱讀(dú)《SRE:Google運維解密(mì)》,讀者可以(yǐ)學習到Google工程師(shī)在提高係統部(bù)署(shǔ)規(guī)模、改進可靠性和資(zī)源利用效率方麵的指導思想(xiǎng)與具體實踐——這些都是可(kě)以(yǐ)立即直(zhí)接應用(yòng)的(de)寶貴經驗。
任何一個想要創建(jiàn)、擴展大規模集成係統的(de)人都應該閱讀《SRE:Google運維解(jiě)密》。《SRE:Google運維(wéi)解密》針對(duì)如何構建一個(gè)可長期維護的係統提供(gòng)了非常寶貴(guì)的實踐經驗。
前言 xxxi
序言 xxxv
第Ⅰ部(bù)分 概覽
第1 章 介紹 2
係統管理員模式 2
Google 的解決之道(dào):SRE 4
SRE 方法(fǎ)論(lùn) 6
確保長期(qī)關注研發工作 6
在保(bǎo)障服務(wù)SLO 的前提(tí)下最大化(huà)迭代速度 7
監控係統(tǒng) 8
應急事件處理(lǐ) 8
變更管(guǎn)理 9
需求預測和容量規劃 9
資源(yuán)部署 10
效率與(yǔ)性能 10
小結 10
第2 章 Google 生(shēng)產環境:SRE 視角 11
硬件(jiàn) 11
管理物理服務器(qì)的係統管理軟件(jiàn) 13
管理物理服務器 13
存(cún)儲(chǔ) 14
網絡 15
其(qí)他係統軟(ruǎn)件 16
分布式鎖服務 16
監控與警報係統(tǒng) 16
軟件(jiàn)基礎設(shè)施 17
研發環(huán)境 17
莎士比亞搜索(suǒ):一(yī)個示範服務(wù) 18
用戶請求的處理過程 18
任務和數據的組織(zhī)方式(shì) 19
第Ⅱ部分 指導思想
第3 章(zhāng) 擁抱風險 23
管理風險 23
度量服務的風險 24
服務的風險(xiǎn)容忍度 25
辨別消費者服務的風險容忍度 26
基礎設施服務(wù)的風險(xiǎn)容忍(rěn)度 28
使用錯誤預算的目的 30
錯誤預算的構建過程 31
好處 32
第4 章 服務質量目標 34
服(fú)務質(zhì)量術語(yǔ) 34
指標 34
目(mù)標 35
協議 36
指標(biāo)在實踐中的應用 37
運維人(rén)員和最終用戶(hù)各關心什麽 37
指標的(de)收集(jí) 37
匯總 38
指標的標準化 39
目標(biāo)在實踐中的應用(yòng) 39
目標的(de)定義(yì) 40
目標的選擇 40
控製手段 42
SLO 可以建立(lì)用戶預(yù)期 42
協(xié)議在實踐中(zhōng)的應(yīng)用 43
第5 章(zhāng) 減少瑣事 44
瑣事的定義(yì) 44
為什麽瑣事越少越好 45
什麽算作工程工作(zuò) 46
瑣事繁(fán)多(duō)是不是(shì)一定不好 47
小(xiǎo)結 48
第6 章(zhāng) 分布式係統的監控 49
術語定義(yì) 49
為什麽要(yào)監控 50
對(duì)監控係統設(shè)置合理預期 51
現象與原(yuán)因 52
黑盒監控與白盒(hé)監控(kòng) 53
4 個黃金指標 53
關(guān)於長尾問(wèn)題 54
度量指(zhǐ)標時采用合適的(de)精度 55
簡化,直(zhí)到不能(néng)再簡化(huà) 55
將上述理念整合起(qǐ)來 56
監控係統的長期維護 57
Bigtable SRE :警報過多的(de)案例 57
gmail :可預知的(de)、可腳本化的人工幹預 58
長跑 59
小(xiǎo)結 59
第(dì)7 章 Google 的自動化係統的(de)演進 60
自動化的價值 60
一致性(xìng) 60
平台性 61
修複(fù)速度更快 61
行動(dòng)速度更快 62
節省時間(jiān) 62
自動化(huà)對Google SRE 的價值(zhí) 62
自動化的應(yīng)用(yòng)案例 63
Google SRE 的自(zì)動化使用案例 63
自動化(huà)分類的層(céng)次結構 64
讓自己脫離工作:自動化所(suǒ)有的東西 66
舒緩(huǎn)疼(téng)痛(tòng):將自動化應用到(dào)集群(qún)上線中 67
使用Prodtest 檢測不一致情況(kuàng) 68
冪等地解決不一(yī)致情(qíng)況(kuàng) 69
專業化傾向 71
以服務為導向的集群上線流程 72
Borg :倉庫規模計算機的誕生 73
可靠性(xìng)是最(zuì)基本(běn)的功(gōng)能 74
建議 75
第8 章 發布工程 76
發(fā)布工(gōng)程(chéng)師的角(jiǎo)色 76
發布工程哲(zhé)學 77
自(zì)服務模型 77
追求速(sù)度 77
密閉性 77
強調(diào)策(cè)略和流(liú)程 78
持續構建與(yǔ)部署 78
構建 78
分(fèn)支 79
測試 79
打包 79
Rapid 係(xì)統 80
部署 81
配置管理 81
小結 82
不僅僅隻對Google 有用 83
一開始就進行發布(bù)工程 83
第(dì)9 章 簡單化 85
係統的穩定性與靈活性 85
乏味是一(yī)種(zhǒng)美德 86
我絕(jué)對不放棄(qì)我(wǒ)的(de)代碼 86
“負代(dài)碼行”作為一個指標 87
最小 API 87
模塊(kuài)化 87
發布的簡單化(huà) 88
小結 88
第Ⅲ部分 具體實踐
第10 章(zhāng) 基於時間序列數(shù)據進行(háng)有效報警 93
Borgmon 的起源 94
應用軟件的監(jiān)控埋點 95
監控指標的收(shōu)集 96
時間序列數(shù)據(jù)的存(cún)儲 97
標簽與(yǔ)向(xiàng)量 98
Borg 規則計算 99
報警 104
監(jiān)控係統的(de)分片機製 105
黑盒監控 106
配置文(wén)件的(de)維護 106
十(shí)年之後 108
第11 章(zhāng) on-call 輪值(zhí) 109
介紹 109
on-call 工(gōng)程師的一天 110
on-call 工作平衡 111
數量上保持(chí)平衡 111
質量上保(bǎo)持平(píng)衡(héng) 111
補貼措施 112
安全感 112
避免(miǎn)運維壓(yā)力過大(dà) 114
運維壓力過大(dà) 114
奸詐的敵人—運維壓力不夠(gòu) 115
小結(jié) 115
第12 章 有效的(de)故障排(pái)查(chá)手段 116
理論 117
實(shí)踐 119
故障報(bào)告 119
定位 119
檢查 120
診斷 122
測試和(hé)修複 124
神奇的負麵結果 125
治愈 126
案(àn)例分析 127
使故障排(pái)查更簡單 130
小(xiǎo)結(jié) 130
第13 章 緊(jǐn)急事件(jiàn)響應 131
當係統出現問題時怎麽辦(bàn) 131
測(cè)試導致的緊急事故 132
細節 132
響應 132
事後總結(jié) 132
變更(gèng)部署帶來(lái)的緊急事故 133
細節 133
事故響應 134
事(shì)後總結 134
流程(chéng)導致的嚴重事故 135
細節 135
災難(nán)響應 136
事後總結 136
所有的(de)問題都有解決方案 137
向(xiàng)過(guò)去學習,而不(bú)是重複它 138
為事故保留記錄 138
提出那(nà)些大的,甚至(zhì)不可能的問題:假如…… 138
鼓(gǔ)勵主動測試 138
小結 138
第14 章 緊急事故管理 140
無流程管理的緊(jǐn)急(jí)事(shì)故 140
對這次無流程管(guǎn)理的(de)事故的剖析 141
過於關注技(jì)術問題 141
溝通不暢 141
不請自來 142
緊急事(shì)故的流程管(guǎn)理要(yào)素 142
嵌套式職責(zé)分離(lí) 142
控製中心 143
實時事故狀態文(wén)檔 143
明確公開的職(zhí)責(zé)交(jiāo)接 143
一次(cì)流程(chéng)管理良好(hǎo)的事故(gù) 144
什麽時(shí)候對外宣(xuān)布事故 144
小結 145
......
請描述您所遇到的(de)錯(cuò)誤(wù),我們將盡快予以修正,謝謝!
*必填項,請輸入內容