株式会社リクルートテクノロジーズ 様
日々進化、拡大を続けるリクルートグループのネットワークインフラを支えるZabbix統合監視
株式会社リクルートテクノロジーズ
ITソリューション統括部 インフラソリューション部 社内インフラ5グループ
グループマネージャー 長峯 秀人 氏
中澤 勇貴 氏

2012年、株式会社リクルート(当時)の分社化に伴い設立。リクルートグループのIT・ネットマーケティング領域のテクノロジー開発を担っています。インフラソリューション部はリクルートグループ内で利用されるインフラ環境を支える組織として、グループ環境の整備、運用保守、改善などを提供されています。
01
導入前の課題
大規模環境におけるZabbixを用いた監視運用の課題とは
多様なサービスを非常にスピーディーかつ広範囲に展開するリクルートグループ。それらを支えるインフラは非常に大規模かつ複雑であり、目まぐるしいスピードで進化を続けています。その根幹を担うネットワークインフラは高い安定性とパフォーマンスを求められ、同時に急速に広がる700を超える事業拠点や、100を超えるサービスの展開による変化への柔軟な対応が求められています。
高い安定性、すなわち止まらないネットワークを実現するためにはシステムの可用性・信頼性を向上させることはもちろんのこと、監視を通じて障害と障害の予兆となる事象をいち早く見逃さずに検知することが非常に重要です。
リクルートグループを支えるネットワークインフラは機器にして約12,000台から構成されています。それらのノードに対して障害予兆を検知するためにはさまざまな監視項目の設定が必要であり、Zabbixサーバーは1台あたりで3,300nvps(1秒間当たりの監視項目数)もの監視処理を実行する必要があり、既存監視システムの性能、キャパシティの不足、さらには運用管理上の高負荷状況は早期に解決が求められる大きな課題となっていました。
大規模環境監視における運用上の課題
ネットワーク機器は今なお増え続けており、それに伴ってZabbixの監視処理能力の逼迫やデータベース容量の不足、Webフロントエンドのレスポンス悪化、履歴データのハウスキーピング処理の重負荷・長期化など、運用上さまざまな課題が発生していました。特にパフォーマンスの低下、キャパシティ不足は深刻であり、パフォーマンス確保のためデータベースのレプリケーション処理の停止、さらにはデータ保存領域確保のためデータバックアップ処理の停止までも発生する事態となっており、監視システムの可用性の低下は、大きな不安要素となっていました。また、ハウスキーピング処理における長期の重負荷化により、データの手動削除対応が必要となるなど運用上の課題が山積していました。
EOSLに対するシステムライフサイクル対応
日々増え続けるネットワーク機器を監視システムに登録・実装する作業だけでも運用管理の負荷は高く、監視システムの可用性や運用保守性の低下に目をつぶらざるを得ない状況に加え、旧バージョンであるZabbix 2系をはじめとした各コンポーネントのEOSLも迫っており、監視システムの抜本的な刷新が急務な状況になっていました。
02
選定・導入決定ポイント
大規模かつ急速に進化を続けるネットワーク
インフラを安定稼働させるために必要不可欠なZabbixの刷新
これら喫緊の課題を解決すべく、以前からリクルートグループで豊富な支援実績がありZabbix認定パートナーである当社へ統合監視システム刷新について打診をいただきました。
刷新にあたってのリクルートテクノロジーズ(以下、「RTC」という)様のご要望は運用面、コスト面を最大限考慮し、Zabbixサーバー1台あたりの監視収容能力を最大化することと、予測のできないネットワーク機器の急激な増加に対応できる柔軟性を持ち、膨大な監視設定に対してもより効率的に運用作業が行えるようメンテナンス性を兼ね備えることでした。
日々拡大を続けながらも止まらないネットワーク。その監視を可能な限り低コストで実現するために高い収容能力と柔軟な監視方式、多彩な運用自動化機能を持つ監視基盤が求められていました。そこで当社のZabbixに関する長年の実績と知見をフルに活用し、以下ポイントを踏まえたご提案内容をご評価いただきました。

大規模監視のためのZabbix環境構成の最適化
既存環境でレスポンスタイムやハウスキーピング系処理の長時間化など非機能面に課題が発生していたことや、今後も監視対象の増加などにより継続的な負荷増が見込まれることを踏まえ、Zabbixサーバーを用途、監視対象の区分ごとに使い分け負荷分散するなど構成の最適化を提案しました。
データベースのバックアップ方式見直し
現行環境ではデータベースの肥大化によるバックアップ処理の負荷増が発生していたため、Zabbix公式ツールを利用したバックアップ方式を提案しました。
データベースのパーティショニングとマイグレーション
データベースの肥大化による負荷増を解消するため、パーティショニングの仕組みの実装とそれに適したデータベースへのマイグレーションを提案しました。
03
導入決定から本番稼働までのプロセス
PoCの実施による的確な課題対処と、
円滑なデリバリー

PoCフェーズでの取り組み
今回のご支援では、Zabbixサーバー1台あたりの監視収容能力の最大化と、監視システムの拡張契機予測を明確にすることを目的として、PoCフェーズを設けました。まずは既存環境の動作状況を分析することで監視内容や負荷の特性を洗い出し、分析・調査フェーズで得たデータを用いて、実際にZabbixを導入することとなるベアメタルサーバーを利用してさまざまなパターンでの重負荷試験をすることによって、Zabbixサーバーおよび OS、データベースのチューニングポイントを洗い出し、1台あたりのZabbixサーバーで処理可能な限界値を導き出しました。
併せて、メンテナンス性の向上を目指して既存の監視設定の見直しと最適化を図り、全体監視設定ボリュームの削減と監視品質の向上を目指しました。また、既存の監視システムから可能な限りスムーズに移行できるよう、移行計画もこのフェーズで作成し、余裕を持ったシステム停止調整を可能とし RTC様の今後必要となる作業を漏れなく洗い出すことを目指しました。
実行フェーズでの取り組み
実行フェーズではPoCフェーズで得た結果や知見、計画・手順をベースとして、設計/構築/移行作業に取り組みました。各種性能課題に関してはZabbixサーバーおよびWebサーバー、データベースのパーティショニングを含むDBMSのチューニング、ディスカバリやアクションをはじめとした監視設定の最適化など、ボトルネックとなっていた箇所に応じた対処を実施し、既存システムにおいては性能上の問題から停止を余儀なくされていたデータベースのレプリケーション処理やバックアップ処理も問題なく動作させることが可能となり、可用性も本来求められていたレベルに引き上げることができました。
また、Zabbixサーバーの処理能力が明確になることで1台あたりに収容可能な監視対象数を特定することが可能になり、結果としてそれぞれのZabbixサーバーに持たせる役割を定義することが可能となりました。それらの役割に応じて各Zabbixサーバーに正しく処理分散することで、より運用しやすいシステム構成へと改善することができました。
設計/構築/移行作業を進める上でも、監視設定の変更追加は日々数多く発生しています。監視設定のデグレードや考慮漏れが発生しないよう、運用者とコミュニケーションを密に取りながら作業を進め、チェックと設定変更に対してツールによる自動化を図ることで作業の効率と品質を向上させる工夫をしました。
04
導入効果や製品・サービスの評価
監視収容能力は2.5倍に。
チューニングと監視設定最適化の重要性。
本対応により、これまで1台あたりのZabbixサーバーで処理可能であった1秒あたりの監視項目数は約3,300nvpsから約8,300nvpsへと大幅な性能改善を実現し、1台あたりの監視収容能力は2.5倍以上の向上を実現できました。
データベースのパーティショニングとメンテナンス処理の自動化により、週あたり数時間必要とした手動データメンテナンス作業も不要となり、表示に数分もの時間を要することもあったWebフロントエンドのアクセスに関しても、数秒で可能なまでに改善し、運用作業にかかるコストも大幅に削減することができました。また、このような各種の改善効果にに加えて、EOSLを迎えようとしていた各種コンポーネントの最新化も実現しています。
また、従来のデータベース全体のバックアップ処理から、Zabbixバックアップツールを用いた監視設定のみのバックバックアップ処理へ切り替えたことにより、維持管理に必要なリソースも大幅に削減でき、データベースへのアクセス負荷を下げたことによりパフォーマンス向上につながり、監視システム障害発生時のRPOやRTOの改善も実現できました。
05
同様な課題を持つ企業へ
大規模監視システムをZabbixで
実現したいお客様に
今回のプロジェクトでは、Zabbixシステムの高可用性と大規模監視対応について運用面まで考慮し、PoCを通じて十分に検証できたこともあり、当社内でのナレッジは飛躍的に向上しました。これらの実績と知見をベースに今後「大規模監視」のニーズに応えうる素地は整ったと考えています。
「大規模監視」を低コストで実現したい、というニーズをお持ちのお客様はぜひ当社にお声がけ下さい
06
製品・サービス提供会社への感想や今後の期待
安定した監視基盤が整い、更なる効率的な運用へ
当社は以前から当社環境の運用を行ってきた実績があり、かつ豊富なZabbixノウハウを保持しているため、Zabbixの構築から運用までのプロセスをスムーズに行えるだろう、という期待感があった。また当社環境を熟知しているため、新環境を構築するために必要なリソースのサイジングや手配もお任せして、導入に関する作業負荷を最小限に抑えられるのではないかと考えていた。
構築段階においてZabbixを熟知しているエンジニアが担当してくれたことで、要件に対する実現性の判断が的確であり、Zabbix構築の際に考慮しなければいけない勘所を押さえてくれていたので、非常にスムーズに導入が進んだと考えている。今回構築していただいたZabbix監視環境は現在も安定稼働しており、当初抱えていたレスポンス遅延の問題も解消し、今後長期的に利用できる監視の基盤が整ったと評価している。
目まぐるしく監視対象が増減する当社のシステム環境において、運用の仕方や適切なデータの取得についてはまだまだ改善の余地があると考えており、今後ともより効率的な運用や、他サービスとの連携ソリューションなどがあれば積極的に提案して欲しい。
(株式会社リクルートテクノロジーズ インフラソリューション部 社内インフラ5グループ 中澤 勇貴 氏)
※ 掲載内容ならびに社名等の記載は、取材当時のものです。
ご利用いただいた主なサービス
オーダーメイド構築サービス
Zabbixを始めとしたオープンソースの統合監視ソフトウェアの登場により、従来はROIの観点から監視対象とされていなかったシステムに関しても、低コストで容易に監視が始め…
高可用性環境構築サービス
Zabbix サーバーを冗長化する場合、Zabbix ならびに主従系切替・データ同期に伴う仕組みの実装が必要です。当社では、これらの考慮ポイントを網羅的にカバーすることで監…
Zabbix公式保守サポート
製品のソースコードを詳細まで熟知している Zabbixエンジニアが直接ご質問に回答し、問題解決をお手伝いするZabbix Japan LLCの公式技術サポートです。Zabbixサーバー、…