SREは運用エンジニアの立場からみると、ユーザージャーニーを改善するものと考えていいだろう。日本ではまだあまり馴染みのないワードだが、ある調査では、海外の大企業の41%が利用し、国内でもメルカリやクックパッド、ビズリーチなど、クラウドネイティブ企業を中心に利用が広がっているという。
一方で、SREの広がりがまだ一般的でない理由は、大規模に実装するための一貫したアプローチがないからだという指摘がある。実際、エンジニアチームの多くは、SREのプロセスを採用するのが難しいと感じているようだ。BlamelessのSREプラットフォームは、こうした運用チームに打開策のフレームワークを提供する。
マイクロソフト出身CEOが生んだ、サイトの信頼性を高めるためのツール
――まずお二人の経歴を教えてください。
Wong: 私はMicrosoftでキャリアをスタートし、6年間、Windows VistaやWindows7製品のユーザーエクスペリエンスを担当してきました。サイトの信頼性に関わる経験は、その時に積んだものです。その後、投資家としてさまざまなSaaS企業に投資し、トータルで300億ドル以上の回収に成功したこともあります。
VCのパートナーとして働いている時、現在の共同創業者らと出会い、Blamelessを立ち上げることにしました。Christina Tanはその4カ月後に入社しています。
Tan: 私のバックグラウンドはコンピューターサイエンスです。短い期間ですが、タレントとして働いていたこともあります。技術系企業の創業者が人前で話す際の指導をしていました。彼らの資金調達や、課題解決のお手伝いをしていたこともあります。Wongとは、彼が投資家だった頃に知り合いました。
――Blamelessを創業しようと思ったのはどのような理由でしょうか。
Wong: どんな企業でもGoogleと同じくらい信頼性を得られるようにしたいと思ったからです。私たちのSREプラットフォームは、バグや問題が起こった時、より早く回復できるように支援します。これはウェブサイト企業向けに限ったものではありません。金融機関やテレビメディア、空港貨物など、ビジネスでソフトウェアを利用する、あらゆる企業を対象としています。ソフトウェアの品質と信頼性を維持するのが私たちのミッションです。
Tan: 私は日本でVRのスタートアップをお手伝いしていた時期があり、その経験から会社をゼロから成長させることに興味を持つようになりました。Wongが会社の本質を見極め、導くことに長けた人物だったので、一緒に仕事をしたいと思い、Blameless立ち上げを聞いて参画することにしたのです。当時、4人しか従業員がいなかった当社ですが、4年以上たった今、従業員65人まで成長させることができました。
サイト改善スピードを倍に、かつインシデント発生を76%削減
――御社のSREプラットフォームはどのような形で、どんなユーザーに提供されていますか。
Wong: ビジネスモデルはアカウントごとに課金されるSaaS型で、チーム単位からスタートできます。その場合、かかるコストは年間5万ドル以下です。現在、100社近くが利用していて、顧客にはUNDER ARMOUR(アンダーアーマー)や、The Home Depot(ホーム・デポ)など流通もあれば、エンターテイメント企業、VMwareといったテクノロジー企業までさまざまです。日本企業ではメルカリが私たちのサービスを利用しています。
Image: Blameless
――御社のサービスを使うことによって、どんな効果がもたらされるのでしょうか?成功事例があれば教えてください。
Tan: メルカリの事例をご紹介しましょう。当時、同社では製品ページとチェックアウトプロセスで多くの問題が発生していました。BlamelessのSREプラットフォームを使って、どこで何件のインシデントが発生しているか、対応にどれくらい時間を費やしているか分析したところ、多額のコストがかかっていることが分かったのです。
私たちは時間をかけて、インシデントの原因は何か、将来起こりうるリスクはどこか、調査して優先順位をつけました。そうすることで、取り組むべき課題を浮き彫りにし、どこにエネルギーを注ぐべきか分かるようにしたのです。こうして改善計画を立て、インフラやアーキテクチャの変更を行った結果、インシデント発生を76%も削減できました。さらにインシデント対応に費やす時間を半分に減らすことにも成功しています。この成果にたどり着くのに、わずか1年しかかかっていません。
――わずか1年で、そこまで大きな成果をあげるとは素晴らしいですね。似たようなクラウドに対応した運用監視サービスとして、Datadogなどの製品がありますが、御社の特徴や違いは何でしょうか。
Wong: データ収集を目的としたジャンルの製品群は主に3つの世代に分かれます。第一世代は、クラウドへ移行するためのツールでした。第二世代になると、システムを監視するため学習機能を追加したツールへと発展し、第三世代にいたってはインシデント発生に対応策を講じるツールへと進歩しています。
私たちの製品はまさに、この第三世代にあたるもので、アクション・プラットフォームと呼んでいます。Datadogのような従来ツールは、ただデータを収集するだけですが、私たちのツールはデータから学んで、継続的な改善につなげていくことを目的としています。エンジニアチームの行動を監視して、学習していきますから、チームが問題解決するまでの時間を少なくとも50%短縮し、これまでと比べて倍のスピードで改善します。
Tan: 私たちが目指しているのは、インシデントの原因を追求して、誰かを罰することではありません。うまくいかなかった理由を考えて、より良くするためにどうすればいいか、みんなで考えてもらうことが目的です。私たちはこれを「Blameless Retrospective」と呼んでいます。
失敗する恐れから解放する「文化」をつくりたい
――2021年7月、シリーズBで御社はThird Point Ventures、 AccelといったVCから3000万ドル(約36億円)を調達しました。SREはいま注目を集めているホットなテーマのひとつですが、市場からの手応えはいかがですか。
Wong: パンデミック以降、SRE市場は少なくとも10倍以上までニーズが拡大しました。多くのクライアントがオンライン市場へ移行し、より多くのトラフィック処理と、急激な変化に応える可用性の需要が増しているからです。実際、私どもも10倍以上の成長を遂げています。これは世界的な潮流でしょう。
調達した資金は日本をはじめ、インドやラテンアメリカなどへの進出と、エンジニアリングチームに投資していきたいと考えています。最近、「CommsFlow TM」と呼ばれるインシデント対応フローを自動化する機能をアップしましたが、今後半年間はシステムの学習機能や、将来リスクを防ぐSLO(Service Level Objective)機能に重点を置く予定です。
――日本ではどのような企業とパートナーシップを求めているのでしょうか?
Wong: コロナ禍で宅配やオンライン需要が伸びていますから、Eコマース企業が最も私たちにとって適している顧客でしょう。メルカリもそうですね。でもそれだけではありません。建設や不動産開発、自動車業界からも引き合いが来ています。ユーザーエクスペリエンスを重視する企業にとっては、Blamelessは非常に大きな力となるでしょう。ディストリビューターでも、どんな業種でも興味を持っていただける企業であれば歓迎します。
――最後にどうしたらSREを成功させることができるのでしょうか。長期的なビジョンを教えてください。
Wong: 信頼性を高められるか、そうでないかを分ける要素は、実は心理的なものに影響されます。というのも、問題が起きた時、ミスを指摘することは、他人を責めているようで誰にとっても怖いことだからです。怖れが失敗から学び、改善する機会を奪っています。
そうした心のバリアを除くために「非難し合うことのない文化」というものを構築する必要があります。実際、TwilioやTwitterなど成功する企業は、まったく同じ努力をしています。システムが大きくなればなるほど、不具合の起きない企業はありません。
どの企業も、4つの共通した根本的な課題、ダウンタイムとレイテンシ、正確性、在庫管理の徹底を抱えています。すべてのインシデントを横断的に見て、そのパターンを調べ、どのチームが、どのような行動をとり、改善をもたらしたかを知ることが学びです。これは非常に時間のかかることで、ソフトウェアに関してはほとんど不可能でしょう。だからこそ、私たちはそれを実現する最初の企業になりたいと願っています。
Tan: パンデミックの最中、フルリモートワークに移行した私たちは、仲間たちの趣味や生活の様子を知ることができる、Facebookのようなページを作ることにしました。お互いに真のつながりを感じることで、建設的な意見を交わし、信頼し、同じ目標に向かって1つのチームとして取り組むことができると考えたからです。
Wong: 私たちのサービスも同じ考え方で、データを早く集めることが目的ではなく、データにどう対応したらチームの成長につながるか、そうした文化を作ることに貢献していきたいと思います。