Facebookのデータストレージと光ディスクライブラリー

2014年1月のOpen Compute SummitでCold Data用の10,386枚BDライブラリーが発表され、9月にはそれをどのように使用するかも公表されました。それで、Facebookのストレージに関してWeb上にある情報をまとめました。ここでは、FacebookのWebページを構成するソーシャルグラフを除く写真やビデオとそれ以外のBLOB(Binary Large Objects)の保存用ストレージに使用されているハードとソフトの構成を紹介します。BLOBはライトワンスのファイルで、削除されますが、変更はされません。

BLOBストレージの全体像に関しては、2014年4月に開催されたInternational Workshop on Rack-scale ComputingでのSanjeev Kumar(Director of Engineering, Facebook)のプレゼンテーションで紹介されています。

BLOBストレージの経緯とNASからHayStackへ

初期は、通常のNFS NAS(Filer)を使用し、写真のファイルは4種類の解像度に変換して保存していた。ファイルを読むためだけにも多数のHDへのIOが発生し、効率が悪いことが判明。メタデータの処理でHDへのアクセスが集中しボトルネックが発生。2010年から、新たに開発したObjectstoreのHaystackを使用し、写真のファイルを読むためだけにHDへのアクセスが行われるような仕組みを構築した。その時点でのデータ量は、1.5PBだった。

HayStackに関しては、2009年のFacebook EngineeringのWebページでの紹介に続き、2010年のOSDI(Open Systems Design and Implementation)で、 Finding a Needle in Haystack: Facebook's Photo Storageとして公表されています。ファイル単位での記録ではなく、ログ構造を含む100GBの大きなファイル(=Haystack)内に写真のファイルをAppendしてRAID-6(1TBx12, 10TB xfsフォーマット)に保存し、保存先をメモリー上にindexとして保存する。さらに3箇所のデータセンター間でデータレプリケーションが行われる。

アクセス頻度に基づく階層管理へ

その後、新たな問題として、保存されたデータへのアクセス頻度が保存後の経過時間で大きく減少することが判明。Hot/Warm/Coldの3階層管理に移行した。

Hotデータ HayStack
Warmデータ F4 Storage(HayStack in Cell)
Coldデータ HD + Optical Archival Disc library

 

Warm Dataを保存するF4 Storageは2014年10月のOSDI2014で、f4: Facebook's Warm BLOB Storage Systemとして紹介された。F4は、ノード間やデータセンター間でのデータレプリケーションを、Erasure Coding(10,4)を適用し、元データ+パリティを3分割し3箇所のデータセンターで保存する。これにより、HayStackでは、3.6倍だったレプリケーション率が、2.1倍となった。(facebookのF4説明Video

Cold Dataに関しては、2014年9月22-23日に開催された Designing Storage Architectures for Digital Collections 2014で、Kestutis Patiejunas - Facebook, "Freezing Exabytes of Data at Facebook’s Cold Storage"として詳細な内容が紹介されています。以下がその概要です。

HD Based Cold Storage
4TBのHDへのデータ保存に12時間掛かるが、使用していたXFSで誤ってformatすると1秒で全て消去される。対応策として、独自のrawなformatを使用し、メタデータを3箇所に分散して記録した。さらに、データセンター間でのデータレプリケーションで、10/15のErasure Coding(Reed-Solomon)を使用し、トータルのデータ量を2.8倍から1.5倍に削減した。

Facebook Blu-ray cold storage rack
Blu-rayへの保存用に、HDからのデータを一旦元に戻し(元は20/28)、Blu-ray用の記録用にRead-Solomon(4/5?)を演算する。 1台のライブラリー(Rack)には、Head Node Computerが内蔵され、ライブラリー制御とデータの読書きを行う。内蔵PCとライブラリー本体とのインターフェイスは現行Netzon HMSseriesと同じSATAとEthernet。
HD Based Cold Storageの128TBをラック内蔵の12台のドライブで効率的に記録するように、データを分割し複数ラックをクラスター化して、W/Rを実行するようなストラテジーを使用する。但し、このシステムは実運用には至らず。

300GB Optical DiscがOpen Compute Project US Summit 2015のパナソニックブースでデモ

2015年3月9日から開催されたOpen Compute Project US Summitの展示会場でのパナソニックの出展内容がYoutubeのビデオで紹介されています。300GB Optical Discのドライブとメディアのサンプルが2:00から紹介されています。

SonyがFacebookスピンオフのOptical Archive Incを買収

Sonyが、FacebookからBlu-rayのCold Storageシステムを販売するために、元VPのFrank Frankowskiが設立したOptical Archive Incを買収したとUSA現地時間2015年5月27日に発表しました。

Archival DiscのWhite Papar2nd Editionが公開され、500GBのフォーマットが追加されています。(2018/7/31 PDFファイルへのリンク)

Desigining Storage Architectures for Digital Collections 2016での Facebook Kestutis PatiejunasのFacebookでのPanasonic Library(Freeze-Rayとして製品化)の現状に関するプレゼン(2016/9/20 PDFへのリンク) このプレゼンからは、Facebookは2016年までに100GBのメディアを使用したPanasonic Libraryを使用してのvalidation processを繰り返して実行し数10PBのデータを保存したことが判ります。2017年には、300GBのArchival Discを使用して数100PBを記録するとありますが、2018年のイベントでは紹介されていません。2018年には、500GBのドライブが発表されなかったので、Facebookのプロジェクトは進んでいないと思われます。

300GBのメディアをカートリッジに入れてライブラリーにした製品は、SONYPanasonicから販売されています。

アメリカのQualstar社が自社のプレスリリース(2017/12/12)で、Sony Imaging Products & Solutions社との技術開発で提携し、エンタープライズクラスの光ディスクライブラリーの仕様と構成を開発設計すると発表しました。Qualstar PressRelease Qualstar社は中型から大型までのLTOライブラリーを販売しています。

Qualsterで開発している大型ライブラリーシステムに関して、ODA第三世代の500GBのドライブと一緒にSONYから、プレスリリースが出ました。(https://www.sony.co.jp/SonyInfo/News/Press/201911/19-116/) 大型ライブラリーは、Petasite EXというソリューションで紹介されています。 PetaSite EXの詳細は、2019年12月16日時点で、アメリカのPro SonyのWebサイトで紹介されています。(2020年4月1日に、リンク先を変更しました。) このリンクは、2020年6月10日に確認したところ、Webページが削除されています。結果として、SonyUSAのWebページには、PetaSiteEXの製品紹介が無くなったので、製品自体の導入が中止されたと思われます。Sony USAでPetaSiteEXの営業担当は、光ディスク業界で20年以上の経歴を持つ方々でしたが、それぞれのlinked.inのプロファイルページによると2020年3月末で退社しています。