ちょっと前に邦訳が出て話題になっていた「SRE サイトリライアビリティエンジニアリング」をようやく読んだ。
GoogleエンジニアによるSRE(Site Reliability Engineering)の解説記事の集合体。全体のページ数は500ページを超えていてかなりのボリュームだけど、割と短い記事の集合なので拾い読みには丁度良いかも。
日本ではメルカリがSREチームを大々的にアピールしていますね(既に日本、と限定できない組織になっていますが)。
トイル(toil)
色々と読み所の多い本では有りますが、個人的には第5章「トイルの撲滅」が一番興味深く読めました。
トイル(toil)という言葉は今まで知らなかったのですが、辞書を引くと「骨折り(仕事); 苦労」と書かれていて、あまり良い意味では無さそうです。
本書の中では、以下のように定義されています。
プロダクションサービスを動作させることに関係する作業で、手作業で繰り返し行われ、自動化することが可能であり、戦術的で長期的な価値を持たず、作業量がサービスの成長に比例するといった傾向を持つものです。
システムを運用していれば日々色々なアラートメッセージを受け取りますが、必ずしも全てに新規性が有るわけではなく、日々既知のアラートを受け取り、「(改善を図る暇も無いし)既知だから問題ありません」とインシデントをクローズすることが有るかと思います。
しかし、このような作業の割合が増えていくと、本書でも触れられているようにエンジニアとしてのキャリアの停滞につながります。
たいてい一つ一つの作業はすぐに終わるし、システムは安定的に運用されているし…と言った理由でこのような小さな問題はマネージメントサイドから注目されることが少ないのですが、実はこうゆうことを一つ一つクリアにしていくことが大事なんだな、と改めて理解しました。
トイル、減らしていきましょう!
おわりに
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/08/12
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
なお、原著がオンラインで無料公開されているので、まずはそちらを読んでみると良い。