導入事例
株式会社DMM.comラボ
導入について
容量10PBに達する膨大なコンテンツ急成長に対応し、システム拡張を続ける
多くの人々に多様なコンテンツを提供しているDMM.comグループ。2017年3月には新しいアニメーションレーベル「DMM pictures」の設立を発表するなど、さらなる成長に向け意欲的な取り組みを続けています。
DMM.comグループの会員数は右肩上がりで伸びています。数年前に1000万人を突破し、2017年1月には2500万人を超え、現在も順調に拡大中です。その多くがオンラインサービスの会員であり、こうした会員向けにコンテンツを配信するシステムも、増強に増強を重ねて成長を遂げてきました。
同グループのシステムやネットワークを含めたIT基盤の開発、保守運用などを一手に引き受けているのがDMM.comラボです。DMM.comラボは技術者を中心に1500人以上の社員を擁し、グループ全体の多様なシステムを支えています。
DMM.comラボにおいて、デジタルコンテンツの配信を担うのがインフラ本部 配信インフラ構築運用部。同部は同じくインフラ本部のデータセンター運用部とともに、配信サービスの基盤づくりと、その運用管理を行っています。
「現在、私たちのチームでは900台強のサーバーを運用しています。それは大きく2つの種類に分かれています。フロントエンドのHTTPサーバーと、バックエンドでコンテンツを格納・管理しているストレージサーバーです。前者と後者の比率は1対4程度でしょうか。管理しているコンテンツの量は毎年1割ほどのペースで増えており、現在は約10PBの容量になります」と語るのは、配信インフラ構築運用部マネージャの渡辺宣彦氏です。
ユーザーからのアクセス、コンテンツの量、配信量のすべてが急増している中で、システムの安定稼働を維持するのは容易ではありません。同社は、負荷の増大に応じてサーバーの増強を繰り返し実施してきました。しかし、抜本的な解決には至らなかったため、ハードウェアを含めたシステム構成の改善に取り組むことにしました。
「特にストリーミング配信が増加する中、サーバーの高負荷状態が続くとお客様へのサービス品質低下につながりますので、できる限り回避しなければなりません。そのために、システム構成の冗長化や、キャッシュサーバーの増設などの、トラブルを低減するための設計への取り組みを続けてきました。その結果、提供品質の低下やサーバー単体の障害によるダウンタイム発生などの課題については、大きく改善しています」と配信インフラ構築運用部の田中常雄氏はいいます。
システム構成上の具体的な取り組みの一例を、同部の磯邉達也氏は次のように説明します。
「コンテンツを格納するオリジンサーバーは総じて大容量、低速のHDDを採用していますので、前段にはキャッシュサーバーを置く構成にしています。配信するリッチコンテンツには、ダウンロード型とストリーミング型がありますが、トラフィックの特徴やサーバーへのアクセスの特徴も変わってきます。新作へのアクセスが発売開始時に特に集中しやすいダウンロード型のコンテンツについては、オリジンサーバーの上にSSDを搭載したサーバーを多段階型で用意し、安定的に配信できるよう工夫しました」(磯邉氏)
現在、約250台の Lenovo x86 サーバーが稼働中大規模な配信システムを支える
DMM.comラボはデータセンター内のシステム、そしてネットワークの強化に取り組んできましたが、膨大なリッチコンテンツを配信している同社にとって、遅延やダウンタイムのリスクは常に存在しています。そのリスクをいかに最小化するか、また、万一の場合のためにいかに備えるかはビジネスを継続する上での重要なテーマです。
「いうまでもなく、お客様へのサービスレベルを維持・向上させるために、システムトラブルは最小化しなければなりません。その取り組みは、管理コストにも大きな影響を与えます。たとえば、サーバーダウンのような事態が発生すると、管理工数は飛躍的に増大します。そうした緊急事態を起こさないことが、管理コストを抑制する上でも効果的です。そのためには、冗長構成などを含めたシステム設計が極めて重要になります。特に、この数年間はしっかりとしたサービス提供ができるように、全体的な設計の見直しにも取り組んできました。最適な設計はそれだけ工数がかかるのですが、結果としてトラブルを防止することとなり、トラブル対応で求められる工数を大幅に減らすことができるのです」と渡辺氏。こうした施策の結果、数年前に比べてダウンタイムは10分の1以下に減少したといいます。
大きな負荷に耐えられるようシステム全体の設計を見直す一方で、DMM.comラボはシステムの構成要素も強化してきました。2015年秋に採用した「Lenovo x86 サーバー」は、代表的な構成要素といえるでしょう。
「配信インフラ基盤では、複数ベンダーからの調達を基本方針としています。特定ベンダーに依存すると、ファームウェアなどにクリティカルなバグがあった場合に、サービスに甚大な影響が及ぶ可能性があるからです。当然サーバーについても複数ベンダーからの調達を原則としていますが、想定していた2社のうち1社の製品が条件面で折り合わなかったため、新たなベンダーからの見積りも検討していました。このタイミングで、レノボからの提案を受けたのです」(渡辺氏)
2015年秋、DMM.comラボは Lenovo x86 サーバーを110台導入しました。現在、同社データセンター内では約250台の Lenovo x86 サーバーが動いています。インテル® Xeon® プロセッサー E5-2600 v4 製品ファミリーを搭載した「Lenovo System x3550 M5」と「Lenovo System x3650 M5」が導入されており、前者はHTTPサーバー、後者はストレージサーバーとしての役割を担うケースが多いとのことです。
主としてストレージサーバーとして活用されているSystem x3650 M5には米Scality社のSSDソフトウェア「Scality RING」が搭載され、高いスケーラビリティーを発揮しています。Scality RINGは先端的なSDS(Software-Defined Storage)技術を活用し、SSDを搭載したx86サーバーをクラスタ化し、単一かつ大容量のストレージプールを提供することができます。
管理工数を抑制する「ToolsCenter」1週間足らずで50台を立ち上げ
2015年秋以来、DMM.comラボは何度かに分けて、数十台規模でLenovo x86サーバーを追加導入してきました。
「数十台をデータセンターに設置し、一括でセットアップやFirmware Updateを実施することがよくあります。その際、レノボが提供しているプロビジョニングツールは非常に役立ちます。プロビジョニングツールのないサーバーのセットアップも経験したことがありますが、それに比べると工数は3分の1程度で済みます。50台の Lenovo x86 サーバーを一気に立ち上げたときにも、1週間かかりませんでした。その他にも、IMMのCLI機能が充実しており、プロビジョニングツールと併用した活用で、より柔軟にプロビジョニング自動化を実現させていただいてます。」とデータセンター運用部の坂井勇人氏はいいます。
プロビジョニングツールをはじめ、デプロイメントツールや更新ツール、診断ツールなどを、レノボは「ToolsCenter」を通じて提供しています。ToolsCenterとは、Lenovo x86サーバーなどを対象とするサーバー管理ツール群のこと。これを活用することで、BIOSやファームウェアなどを一括で更新することもできます。また、修理対応などでシステムボードを交換するときにも、設定のバックアップやリストアといった作業が、ToolsCenterの機能によってかなり効率化されているということです。
「涼しいサーバー」:Lenovo x86サーバーの最適化されたエアフロー NIC故障の回避と消費電力抑制に効果
さらに、坂井氏は Lenovo x86 サーバーの信頼性についてこう語ります。
「Lenovo x86 サーバーの運用を1年半ほど続けてきましたが、他社サーバーと比べて故障率が低く、その要因として考えられるのが熱問題です。他社サーバーでは筐体内の温度上昇によって、NIC(Network Interface Card)が故障するケースがよくあるのですが、Lenovo x86 サーバーでは同種のトラブルはほとんどありません。筐体内の排熱温度を比較したところ、5度くらいの差がありました。他社サーバーが40度のとき、Lenovo x86 サーバーは35度という具合です。筐体内のエアフローと排熱設計に強みを持っているサーバーであると感じています」(坂井氏)
つまり、レノボのサーバーは「涼しいサーバー」といえるでしょう。渡辺氏も筐体温度についてこうコメントしています。「筐体内の温度は重要な監視対象です。NICの不具合が起きると、その瞬間にサービスが停止してしまいます。NICの故障率は、サーバーを評価する上での大きな要素です」。
Lenovo x86 サーバーにはシステム管理プロセッサー、IMM(Integrated Management Module)が搭載されています。サーバー管理者はIMMを通じて、筐体内の温度やシステムの稼働状況などをリモートで確認することができます。坂井氏もIMMを通じて、日ごろからサーバーの温度などをモニタリングしています。
また、IMMの監視対象が多いことも Lenovo x86 サーバーの特徴の一つです。熱問題について、坂井氏がこう続けます。
「データセンター運用部はデータセンターにおけるラック内の環境をトータルで監視する一方、個々のサーバーのどこに温度問題があるのかを把握する必要があります。他社サーバーでは『フロントエリアの周辺温度が何度です』という風に大まかな情報は確認できても、サーバーのどのコンポーネントで熱問題を引き起こしているのかはっきりしない場合があります。一方、Lenovo x86 サーバーの温度監視点数が他社サーバーに比べて多く、リモートからIMMを活用して、ピンポイントで筐体内各所の温度を知ることができ、ラック環境の改善に役立てています」(坂井氏)
IMMによるリモート監視は、管理運用業務の様々な場面で役立っているようです。
「私の経験では、他社サーバーでファームウェアの問題によりマネジメントポート自体がハングアップし、リモートによるトラブル対応ができないケースがかなりありました。その場合、問題のサーバーが設置されたデータセンターに出向いてマネジメントポートをリセットした上でトラブル対応を行う必要があり、余計な工数が発生していました。IMMではそのような問題はなく、安定した運用につながっています」(坂井氏)
また、坂井氏が指摘したように、Lenovo x86 サーバーにおけるエアフローの設計は大きなポイントです。それは筐体内の温度を下げ故障のリスクを低減するとともに、ファンの回転数抑制を通じて消費電力の削減にも寄与しているからです。
サーバーだけでなく、PCも。薄く軽く進化したPC、 ThinkPad X1 Carbon も採用
DMM.comラボはサーバーだけでなく、クライアントPCについてもレノボの製品を採用しています。ボディーをカーボンファイバーで強化し、耐久性を高めた、第7世代のインテル® Core™ プロセッサー搭載の「ThinkPad X1 Carbon」です。従来のモデルと同じ耐久性を維持しつつ、これまで以上に「薄く、軽く」進化したPCです。
「ほかのノートPCと比べて軽いので、持ち運ぶ際の負荷が小さくなりました」(磯邉氏)
冒頭で新たに立ち上げるアニメーション事業に触れましたが、DMM.comグループのビジネスエリアは広く、次々に新規事業が生まれています。その多くがインターネットを活用した事業です。こうしたビジネススピードに対応するためには、DMM.comラボもまたスピードを速める必要があるでしょう。
DMM.comラボのITをサポートするレノボも同様です。レノボはコンテンツ配信ビジネスのフロンティアを走り続けるDMM.comラボに対して、高信頼・高性能のハードウェアと、スピード感のあるタイムリーなサービスで強力にサポートしていきたいと考えています。