Yahoo! Japanの親会社が164個のOpenStackクラスターを1つに統合

アジアの多くの国でメッセージング、電子商取引、決済を支配する日本の大手ウェブ企業LY Corporationは、大幅にカスタマイズされたOpenStackクラウドをより一般的なオープンソースクラウドスタックに置き換えており、その過程で大規模な統合を進めていることを明らかにしました。

2023年にYahoo! JapanがKorean messaging giant LINEとの合併で設立されたLY Corpは、「Flava」という新しい統一クラウドにインフラストラクチャを統合し、サービスに電力を供給しようとしています。このクラウドは大規模な規模で運用する必要があります。なぜなら、LINEメッセージングアプリやYahooポータルなどのサービスには約3億人の月間ユーザーがいるからです。

先週後半、同社は「Verda」と呼ばれるLINEの内部クラウドが4つのOpenStackクラスターに分散する11,000ホスト上で実行されている130,000個のVMで構成されていることを明らかにしました。Yahoo! JapanのYNWクラウドは27,000台のサーバーで実行され、160を超えるOpenStackクラスターで160,000個以上のVMが実行されていました。

新しい「Flava」クラウドの同社の計画では、500以上のホスト、9,000以上のVM、および単一のOpenStackクラスターが必要です。同社はオープンソースのEnvoyプロキシ、LinuxおよびExtended Berkeley Packet Filter(eBPF)、Express Data Path(XDP)、FRRouting(FRR)、およびCephも使用しています。

「レガシークラウドでは、OpenStackへの多くのカスタム修正がアップグレードを困難にしていました」とLYのCloud Infrastructure Unit長の井上隆太郎氏によります。「FlavaはアップストリームのOpenStackと一致したままであるアーキテクチャを採用しています。カスタムパッチを最小限に抑え、機能的な変更が必要な場合は、メインプロジェクトにマージできるようにアップストリームに積極的に貢献しています。」

「アップグレードの障壁を取り除くことで、定期的な更新サイクルを可能にし、セキュリティと最新機能の両方を継続的に利用できるようにします」と彼は付け加えました。

井上氏はLYも「インフラストラクチャレイヤーだけでの可用性保証への過剰投資を回避」し、代わりに常に障害が発生する可能性があると想定していると述べました。彼はFlavaの設計が次の3つの「柱」でそれをカバーしようとしていると述べました:

  • ステートレスの追求 – 仮想マシン(VM)のルートディスク(エフェメラルディスク)に保存されたデータを一時的なものとして定義します。インスタンスがフェイルしたときのサービスへの影響を最小限に抑えるため、永続データを外部ストレージに移動します。
  • アプリケーション駆動型の可用性 – インフラストラクチャだけで完全な可用性を提供しようとするのではなく、インフラストラクチャとアプリケーション側のアーキテクチャを組み合わせて信頼性を確保し、不要なインフラストラクチャの複雑性を軽減します。
  • より高速な復旧 – インシデントの場合、優先事項は正確に前の状態を復元することではありません。サービスを実行し続けることです。最初にRoot-cause解析に時間をかけるのではなく、Infrastructure as Code(IaC)を使用して環境を迅速に再構築する運用アプローチを推奨しています。

同社はまた可観測性に非常に熱心です。井上氏は彼のチームがPrometheus、Grafana、および内部ダッシュボードを使用して「クラウド全体の健全性と傾向を継続的に監視し、異常の初期兆候をキャッチする」と述べました。これらのツールが問題の兆候を示す場合、「カーネルレベルのトレースとパケットキャプチャなどのディープシグナルにドリルダウンして原因を特定する」と述べています。

井上氏はLYが「毎日どこかでハードウェア障害」を経験し、それらすべてを手動で処理することは不可能だと述べました。「現在、私たちは障害検出からオンサイトのデータセンター作業要求、置き換えられたハードウェアをクラスターに統合し直すまでのフローのほとんどを自動化しました」と彼は書きました。「とはいえ、一部のタスクと不規則な障害パターンは依然として実践的なエンジニアリング対応が必要です。今後、これらの意思決定が重いワークフローにも大規模言語モデルを使用することを目指し、さらに自動化を進めます。」

LYはこれが機能する必要があります。なぜなら、ユーザーのデータを公開した重大なinfosecの問題があり、日本政府がセキュリティとプライバシーを改善するためにテックスタック上で機能するための措置を命じたからです。®

翻訳元: https://go.theregister.com/feed/www.theregister.com/2026/04/07/ly_corp_openstack_consolidation/

ソース: go.theregister.com