摘自程序员杂志第五期,文章所有权属于程序员杂志,如果内容对任何人有影响,请让我知道,谢谢!
===================================================
这是近期我看到过最好的一篇论文,与之类似的是介绍flickr经验的一本书,flickr的服务器比ms肯定是少
一个数量级的,所以这篇论文的价值就更大了,每个架构师和运维工程师都应该好好读一下,尤其是运维
工程师,要从运营系统的角度去看待里面的经验,和自己能做的事情。
===================================================
引言
本文就设计和开发运营友好的服务的话题进行总结,得出一系列最佳实践。设计和部署大规模服务是一个高速发展的领域,因而随着时间的流逝,任何最佳实践集合都可能成熟并完善。我们的目的是为了帮助人们:
◆快速交付运营友好的服务;
◆避免清早电话铃声的骚扰,帮助备受运营不友好的服务侵扰的客户尽量摆脱窘境。
这篇论文是我们在过去的20年中在大规模以数据为中心的软件系统和互联网级大规模服务的智慧结晶,包括Exchagnge Hosted Services团队、Microsoft GIobal Foundation Services Operations团队以及Windows Live!平台多个团队的经验。这些贡献经验的服务中,有不少规模已经增长到拥有超过二亿五千万名用户。同时,本论文也大量吸取了加州大学伯克利分校在面向恢复计算(Recovery Oriented Computing)方面取得的成果和斯坦福大学在只崩溃软件(Crash一Only Software)方面的研究经验。 Bill Hofffman为本论文贡献许多最佳实践。此外,他还提出三条简单原则,值得大家在进入正题之前进行考量:
1. 做好发生故障的心理准备。
2. 保持简单化。
3. 将所有的工作自动化。