Skip to content

モダンデータレイクのためのRustFS

モダンデータレイクとレイクハウスアーキテクチャはモダンオブジェクトストレージ上に構築されています。つまり、RustFS上に構築されているのです。

RustFSは、プライベートクラウド、パブリッククラウド、コロケーション、ベアメタル、さらにはエッジでも動作するモダンデータレイク/レイクハウス向けの統一ストレージソリューションを提供します。高速、スケーラブル、クラウドネイティブで、すぐに使用可能です。

データレイクアーキテクチャ

オープンテーブルフォーマット対応

テーブルフォーマット

モダンデータレイクはマルチエンジンであり、これらのエンジン(Spark、Flink、Trino、Arrow、Daskなど)はすべて、まとまりのあるアーキテクチャで結び付けられる必要があります。モダンデータレイクは、中央テーブルストレージ、ポータブルメタデータ、アクセス制御、永続的な構造を提供する必要があります。ここで、Iceberg、Hudi、Delta Lakeなどのフォーマットが重要な役割を果たします。これらはモダンデータレイク用に設計されており、RustFSはそれぞれをサポートしています。どれが勝利するかについて意見はありますが(いつでもお聞きください...)、意味がなくなるまでサポートし続けることをコミットしています(Docker SwarmとMesosphereを参照)。

クラウドネイティブ

RustFSはクラウドで生まれ、クラウドの原則(コンテナ化、オーケストレーション、マイクロサービス、API、Infrastructure as Code、自動化)で動作します。このため、クラウドネイティブエコシステムがRustFSと「そのまま動作」します - SparkからPresto/Trino、SnowflakeからDremio、NiFiからKafka、PrometheusからOpenObserve、IstioからLinkerd、Hashicorp VaultからKeycloakまで。

私たちの言葉を鵜呑みにせず、お気に入りのクラウドネイティブテクノロジーを入力して、Googleに証拠を提供させてください。

マルチエンジン

RustFSはすべてのS3互換クエリエンジンをサポートしています。つまり、すべてのエンジンです。使用しているものが見つからない場合は、ご連絡いただければ調査いたします。

マルチエンジンサポート

マルチエンジンサポート

パフォーマンス

モダンデータレイクには一定レベルのパフォーマンス、そしてより重要なことに、古いHadoop時代のコモディティストアが夢見ることしかできなかったスケールでのパフォーマンスが必要です。RustFSは複数のベンチマークでHadoopを上回ることを証明しており、移行パスは十分に文書化されています。これは、クエリエンジン(Spark、Presto、Trino、Snowflake、Microsoft SQL Server、Teradataなど)がより良く動作することを意味します。これには、MLflowからKubeflowまでのAI/MLプラットフォームも含まれます。

私たちは世界に向けてベンチマークを公開し、再現可能にしています。わずか32台の汎用NVMe SSDノードでGETで325 GiB/s(349 GB/s)、PUTで165 GiB/s(177 GB/s)を達成した方法については、この記事をご覧ください。

軽量

RustFSのサーババイナリは全体でも100MB未満です。その強力さにもかかわらず、データセンターで動作するのに十分堅牢でありながら、エッジでも快適に稼働できるほど小さいのです。Hadoop世界には、このような代替案は存在しません。エンタープライズにとって、これはS3アプリケーションが同じAPIでどこでもデータにアクセスできることを意味します。RustFSエッジロケーションとレプリケーション機能を実装することで、エッジでデータをキャプチャしてフィルタリングし、集約とさらなる分析実装のために親クラスターに配信することができます。

分解

モダンデータレイクは、Hadoopを分解した分解機能を拡張します。モダンデータレイクには、高速クエリ処理エンジンと高スループットストレージがあります。モダンデータレイクはデータベースに収まるには大きすぎるため、データはオブジェクトストレージに存在します。この方法により、データベースはクエリ最適化機能に集中し、ストレージ機能を高速オブジェクトストレージにアウトソースできます。データのサブセットをメモリに保持し、述語プッシュダウン(S3 Select)や外部テーブルなどの機能を活用することで、クエリエンジンはより大きな柔軟性を持ちます。

オープンソース

Hadoopを採用したエンタープライズは、オープンソーステクノロジーを好んで採用しました。論理的な後継者として、エンタープライズはデータレイクもオープンソースであることを望んでいます。これがIcebergが繁栄し、DatabricksがDelta Lakeをオープンソース化した理由です。

数万人のユーザーから得られる能力、ロックインからの自由、そして安心感には真の価値があります。RustFSも100%オープンソースであり、モダンデータレイクへの投資において組織が目標に忠実であり続けることを保証します。

急速な成長

データは常に生成されているため、消化不良を起こすことなく、常に取り込まれる必要があります。RustFSはこの世界向けに構築されており、Kafka、Flink、RabbitMQ、その他多数のソリューションと開箱即用で動作します。その結果、データレイク/レイクハウスは、エクサバイト以上にシームレスにスケールできる単一の真実の源となります。

RustFSには、日次データ取り込み量が250PBを超える複数の顧客がいます。

シンプルさ

シンプルさは困難です。作業、規律、そして最も重要なことに、コミットメントが必要です。RustFSのシンプルさは伝説的であり、ソフトウェアを簡単にデプロイ、使用、アップグレード、スケールできるようにする哲学的なコミットメントです。モダンデータレイクは複雑である必要はありません。部品は少数であり、RustFSを最も採用と展開が簡単になるようにすることをコミットしています。

ELTまたはETL - 両方とも動作します

RustFSは、すべてのデータストリーミングプロトコル、すべてのデータパイプラインと動作するだけでなく、すべてのデータストリーミングプロトコルとデータパイプラインがRustFSと動作します。すべてのベンダーが広範囲にテストされており、通常、データパイプラインは回復力とパフォーマンスを持っています。

レジリエンス

RustFSは、採用されることのなかったHDFSレプリケーション代替案よりもはるかに効率的な、各オブジェクトのインライン消去符号化を使用してデータを保護します。さらに、RustFSのビット腐敗検出は破損したデータを読み取ることがなく、オブジェクトの破損データを動的にキャプチャして修復します。RustFSはまた、クロスリージョン、アクティブ-アクティブレプリケーションもサポートしています。最後に、RustFSは、リーガルホールドと保持(ガバナンスとコンプライアンスモード付き)を提供する完全なオブジェクトロッキングフレームワークをサポートしています。

ソフトウェア定義

Hadoop HDFSの後継者は、ハードウェアアプライアンスではなく、コモディティハードウェア上で動作するソフトウェアです。これがRustFSの本質です - ソフトウェア。Hadoop HDFSと同様に、RustFSはコモディティサーバーを最大限に活用するように設計されています。NVMeドライブと100 GbEネットワークを活用できるRustFSは、データセンターを縮小し、運用効率と管理性を向上させることができます。実際、代替データレイクを構築する企業は、パフォーマンスを向上させ、管理に必要なFTEを削減しながら、ハードウェアフットプリントを60%以上削減しています。

セキュリティ

RustFSは、データが存在する場所、移動中か保存時かを問わず、データを保護するために複数の洗練されたサーバーサイド暗号化スキームをサポートしています。RustFSのアプローチは、パフォーマンスのオーバーヘッドを無視できるほど小さくしながら、機密性、完全性、真正性を保証します。AES-256-GCM、ChaCha20-Poly1305、AES-CBCを使用したサーバーサイドおよびクライアントサイド暗号化サポートは、アプリケーションの互換性を確保します。さらに、RustFSは業界をリードするキー管理システム(KMS)をサポートしています。

Apache License 2.0の下でリリースされています。