高性能・多機能を使いこなすお客さまからの声

日々、Zabbix をご利用していただいたお客様からたくさんの声をいただいております。
お客様からお寄せいただいた声はすべて運営スタッフにて共有し、Zabbix のサービス向上に活かしています。
この場を通じて、お客様と Zabbix スタッフとのコミュニケーションの場を作っていけたらと考えています。

  • HOME
  • レビュー
  • リクルートグループの大規模ネットワークインフラを支える監視システム刷新

株式会社リクルートテクノロジーズ 様

リクルートグループの大規模ネットワークインフラを支える監視システム刷新

日々進化、拡大を続けるリクルートグループのネットワークインフラを支える Zabbix 統合監視

株式会社リクルートテクノロジーズ
ITソリューション統括部 インフラソリューション部 社内インフラ5グループ
グループマネージャー 長峯 秀人 氏
中澤 勇貴 氏

2012年、株式会社リクルート(当時)の分社化に伴い設立。リクルートグループのIT・ネットマーケティング領域のテクノロジー開発を担っています。インフラソリューション部はリクルートグループ内で利用されるインフラ環境を支える組織として、グループ環境の整備、運用保守、改善などを提供されています。

01

導入前の課題

大規模環境における Zabbix を用いた監視運用の課題とは

多様なサービスを非常にスピーディーかつ広範囲に展開するリクルートグループ。それらを支えるインフラは非常に大規模かつ複雑であり、目まぐるしいスピードで進化を続けています。その根幹を担うネットワークインフラは高い安定性とパフォーマンスを求められ、同時に急速に広がる 700 を超える事業拠点や、100 を超えるサービスの展開による変化への柔軟な対応が求められています。

高い安定性、すなわち止まらないネットワークを実現するためにはシステムの可用性・信頼性を向上させることはもちろんのこと、監視を通じて障害と障害の予兆となる事象をいち早く見逃さずに検知することが非常に重要です。

リクルートグループを支えるネットワークインフラは機器にして約 12,000 台から構成されています。それらのノードに対して障害予兆を検知するためにはさまざまな監視項目の設定が必要であり、Zabbix サーバーは1台あたりで 3,300nvps (1秒間当たりの監視項目数)もの監視処理を実行する必要があり、既存監視システムの性能、キャパシティの不足、さらには運用管理上の高負荷状況は早期に解決が求められる大きな課題となっていました。

大規模環境監視における運用上の課題

ネットワーク機器は今なお増え続けており、それに伴って Zabbix の監視処理能力の逼迫やデータベース容量の不足、Web フロントエンドのレスポンス悪化、履歴データのハウスキーピング処理の重負荷・長期化など、運用上さまざまな課題が発生していました。特にパフォーマンスの低下、キャパシティ不足は深刻であり、パフォーマンス確保のためデータベースのレプリケーション処理の停止、さらにはデータ保存領域確保のためデータバックアップ処理の停止までも発生する事態となっており、監視システムの可用性の低下は、大きな不安要素となっていました。また、ハウスキーピング処理における長期の重負荷化により、データの手動削除対応が必要となるなど運用上の課題が山積していました。

EOSL に対するシステムライフサイクル対応

日々増え続けるネットワーク機器を監視システムに登録・実装する作業だけでも運用管理の負荷は高く、監視システムの可用性や運用保守性の低下に目をつぶらざるを得ない状況に加え、旧バージョンである Zabbix 2 系をはじめとした各コンポーネントの EOSL も迫っており、監視システムの抜本的な刷新が急務な状況になっていました。

02

選定・導入決定ポイント

大規模かつ急速に進化を続けるネットワーク
インフラを安定稼働させるために必要不可欠な Zabbix の刷新

これら喫緊の課題を解決すべく、以前からリクルートグループで豊富な支援実績がありZabbix認定パートナーである当社へ統合監視システム刷新について打診をいただきました。

刷新にあたってのリクルートテクノロジーズ(以下、「RTC」という)様のご要望は運用面、コスト面を最大限考慮し、Zabbix サーバー1台あたりの監視収容能力を最大化することと、予測のできないネットワーク機器の急激な増加に対応できる柔軟性を持ち、膨大な監視設定に対してもより効率的に運用作業が行えるようメンテナンス性を兼ね備えることでした。

日々拡大を続けながらも止まらないネットワーク。その監視を可能な限り低コストで実現するために高い収容能力と柔軟な監視方式、多彩な運用自動化機能を持つ監視基盤が求められていました。そこで当社の Zabbix に関する長年の実績と知見をフルに活用し、以下ポイントを踏まえたご提案内容をご評価いただきました。

大規模監視のためのZabbix環境構成の最適化

既存環境でレスポンスタイムやハウスキーピング系処理の長時間化など非機能面に課題が発生していたことや、今後も監視対象の増加などにより継続的な負荷増が見込まれることを踏まえ、Zabbix サーバーを用途、監視対象の区分ごとに使い分け負荷分散するなど構成の最適化を提案

データベースのバックアップ方式の見直し

現行環境ではデータベースの肥大化によるバックアップ処理の負荷増が発生していたため、Zabbix 公式ツールを利用したバックアップ方式を提案

データベースのパーティショニングとマイグレーション

データベースの肥大化による負荷増を解消するため、パーティショニングの仕組みの実装とそれに適したデータベースへのマイグレーションを提案

03

導入決定から本番稼働までのプロセス

PoC の実施による的確な課題対処と、
円滑なデリバリー

PoC フェーズでの取り組み

今回のご支援では、Zabbix サーバー1台あたりの監視収容能力の最大化と、監視システムの拡張契機予測を明確にすることを目的として、PoC フェーズを設けました。まずは既存環境の動作状況を分析することで監視内容や負荷の特性を洗い出し、分析・調査フェーズで得たデータを用いて、実際に Zabbix を導入することとなるベアメタルサーバーを利用してさまざまなパターンでの重負荷試験をすることによって、Zabbix サーバーおよび OS、データベースのチューニングポイントを洗い出し、1台あたりの Zabbix サーバーで処理可能な限界値を導き出しました。

併せて、メンテナンス性の向上を目指して既存の監視設定の見直しと最適化を図り、全体監視設定ボリュームの削減と監視品質の向上を目指しました。また、既存の監視システムから可能な限りスムーズに移行できるよう、移行計画もこのフェーズで作成し、余裕を持ったシステム停止調整を可能とし RTC 様の今後必要となる作業を漏れなく洗い出すことを目指しました。

実行フェーズでの取り組み

実行フェーズでは PoC フェーズで得た結果や知見、計画・手順をベースとして、設計/構築/移行作業に取り組みました。各種性能課題に関しては Zabbix サーバーおよび Web サーバー、データベースのパーティショニングを含む DBMS のチューニング、ディスカバリやアクションをはじめとした監視設定の最適化など、ボトルネックとなっていた箇所に応じた対処を実施し、既存システムにおいては性能上の問題から停止を余儀なくされていたデータベースのレプリケーション処理やバックアップ処理も問題なく動作させることが可能となり、可用性も本来求められていたレベルに引き上げることができました。

また、Zabbix サーバーの処理能力が明確になることで1台あたりに収容可能な監視対象数を特定することが可能になり、結果としてそれぞれの Zabbix サーバーに持たせる役割を定義することが可能となりました。それらの役割に応じて各 Zabbix サーバーに正しく処理分散することで、より運用しやすいシステム構成へと改善することができました。

設計/構築/移行作業を進める上でも、監視設定の変更追加は日々数多く発生しています。監視設定のデグレードや考慮漏れが発生しないよう、運用者とコミュニケーションを密に取りながら作業を進め、チェックと設定変更に対してツールによる自動化を図ることで作業の効率と品質を向上させる工夫をしました。

04

導入効果や製品・サービスの評価

監視収容能力は2.5倍に。
チューニングと監視設定最適化の重要性。

本対応により、これまで1台あたりの Zabbix サーバーで処理可能であった1秒あたりの監視項目数は約 3,300nvps から約 8,300nvps へと大幅な性能改善を実現し、1台あたりの監視収容能力は2.5倍以上の向上を実現できました。

データベースのパーティショニングとメンテナンス処理の自動化により、週あたり数時間必要とした手動データメンテナンス作業も不要となり、表示に数分もの時間を要することもあった Web フロントエンドのアクセスに関しても、数秒で可能なまでに改善し、運用作業にかかるコストも大幅に削減することができました。また、このような各種の改善効果にに加えて、EOSL を迎えようとしていた各種コンポーネントの最新化も実現しています。

また、従来のデータベース全体のバックアップ処理から、Zabbix バックアップツールを用いた監視設定のみのバックバックアップ処理へ切り替えたことにより、維持管理に必要なリソースも大幅に削減でき、データベースへのアクセス負荷を下げたことによりパフォーマンス向上につながり、監視システム障害発生時の RPO や RTO の改善も実現できました。

05

同様な課題を持つ企業へ

大規模監視システムを Zabbix で
実現したいお客様に

今回のプロジェクトでは、Zabbix システムの高可用性と大規模監視対応について運用面まで考慮し PoC を通じて十分に検証できたこともあり、当社内でのナレッジは飛躍的に向上しました。これらの実績と知見をベースに今後「大規模監視」のニーズに応えうる素地は整ったと考えています。

「大規模監視」を低コストで実現したい、というニーズをお持ちのお客様はぜひ当社にお声がけ下さい。

06

製品・サービス提供会社への感想や今後の期待

安定した監視基盤が整い、更なる効率的な運用へ

アークシステムは以前から当社環境の運用を行ってきた実績があり、かつ豊富な Zabbix ノウハウを保持しているため、Zabbix の構築から運用までのプロセスをスムーズに行えるだろう、という期待感があった。また当社環境を熟知しているため、新環境を構築するために必要なリソースのサイジングや手配もお任せして、導入に関する作業負荷を最小限に抑えられるのではないかと考えていた。

構築段階において Zabbix を熟知しているエンジニアが担当してくれたことで、要件に対する実現性の判断が的確であり、Zabbix 構築の際に考慮しなければいけない勘所を押さえてくれていたので、非常にスムーズに導入が進んだと考えている。今回構築していただいた Zabbix 監視環境は現在も安定稼働しており、当初抱えていたレスポンス遅延の問題も解消し、今後長期的に利用できる監視の基盤が整ったと評価している。

目まぐるしく監視対象が増減する当社のシステム環境において、運用の仕方や適切なデータの取得についてはまだまだ改善の余地があると考えており、今後ともより効率的な運用や、他サービスとの連携ソリューションなどがあれば積極的に提案して欲しい。

(株式会社リクルートテクノロジーズ インフラソリューション部 社内インフラ5グループ 中澤 勇貴 様)