Magnolia Tech

いつもコードのことばかり考えている人のために。

SRE サイトリライアビリティエンジニアリングを読んだ

ちょっと前に邦訳が出て話題になっていた「SRE サイトリライアビリティエンジニアリング」をようやく読んだ。

GoogleエンジニアによるSRE(Site Reliability Engineering)の解説記事の集合体。全体のページ数は500ページを超えていてかなりのボリュームだけど、割と短い記事の集合なので拾い読みには丁度良いかも。

日本ではメルカリがSREチームを大々的にアピールしていますね(既に日本、と限定できない組織になっていますが)。

tech.mercari.com

トイル(toil)

色々と読み所の多い本では有りますが、個人的には第5章「トイルの撲滅」が一番興味深く読めました。

トイル(toil)という言葉は今まで知らなかったのですが、辞書を引くと「骨折り(仕事); 苦労」と書かれていて、あまり良い意味では無さそうです。

本書の中では、以下のように定義されています。

プロダクションサービスを動作させることに関係する作業で、手作業で繰り返し行われ、自動化することが可能であり、戦術的で長期的な価値を持たず、作業量がサービスの成長に比例するといった傾向を持つものです。

システムを運用していれば日々色々なアラートメッセージを受け取りますが、必ずしも全てに新規性が有るわけではなく、日々既知のアラートを受け取り、「(改善を図る暇も無いし)既知だから問題ありません」とインシデントをクローズすることが有るかと思います。

しかし、このような作業の割合が増えていくと、本書でも触れられているようにエンジニアとしてのキャリアの停滞につながります。

たいてい一つ一つの作業はすぐに終わるし、システムは安定的に運用されているし…と言った理由でこのような小さな問題はマネージメントサイドから注目されることが少ないのですが、実はこうゆうことを一つ一つクリアにしていくことが大事なんだな、と改めて理解しました。

トイル、減らしていきましょう!

おわりに

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

なお、原著がオンラインで無料公開されているので、まずはそちらを読んでみると良い。

Google - Site Reliability Engineering