DUICUO

Apache Spark が唯一の選択肢ではありません。3 つの新しいオープンソース データ分析ツールについて学んでみましょう。

[[167537]]

[51CTO.com クイック翻訳] Apache Grappa、Apache Drill、Apache Kafka といったデータ分析プロジェクトが大流行しています。

データ分析の世界では、大きな変化が起こりつつあり、オープンソースツールがこれらの変化の多くを牽引しています。HadoopやApache Sparkといった、この分野を代表するオープンソースプロジェクトについては既にご存知かもしれませんが、データ分析エコシステムを包括的に強化する新しいツールへの需要が高まっています。注目すべきは、これらのツールの多くがストリーミングデータの処理向けにカスタマイズされていることです。

モノのインターネット(IoT)は、多数のセンサーやデバイスをもたらし、絶え間なくデータストリームを生成します。これは、市場における新しい分析ツールへのニーズを牽引する主要なトレンドの一つに過ぎません。例えば、ストリーミングデータ分析ツールは創薬の改善に必要とされており、NASAとSETI研究所は宇宙からのテラバイト単位の複雑な無線信号ストリームの分析に協力しています。

IBMをはじめとする企業による数十億ドル規模の開発投資のおかげで、Apache Sparkはデータ分析分野で大きな注目を集めていますが、これまで知られていなかったオープンソースプロジェクトも急速に台頭しています。以下では、注目すべき3つの新興データ分析ツールをご紹介します。

1. グラッパ

あらゆる規模の組織が、データストリームから貴重な情報を抽出する新たな方法を模索しています。多くの組織は、クラスタ上で生成されたデータを処理しており、コモディティハードウェア上で処理するケースも増えています。その結果、MapReduceやSparkといったツールのパフォーマンスと機能を向上させる、費用対効果の高いデータ中心のアプローチに注目が集まっています。まさにGrappaオープンソースプロジェクトが真価を発揮する分野です。Grappaは、マスマーケット向けクラスタ上でデータ集約型アプリケーションをスケーリングし、従来の分散共有メモリ(DSM)システムを凌駕する革新的な抽象化メカニズムを提供します。

Grappaのソースコードはこちらから入手でき、詳細情報もご覧いただけます。Grappaの誕生秘話はこうです。Crayシステムでビッグデータタスクを実行した豊富な経験を持つエンジニアグループが、市販のハードウェアでCrayシステムが実現できる分析能力に匹敵できるのではないかと考えました。

開発者たちは特に次のように述べています。「Grappa は十分に高いレベルの抽象化を提供し、データ集約型プラットフォームに共通する多くのパフォーマンス最適化を網羅しています。しかし、比較的低レベルのインターフェースは、その上にデータ集約型フレームワークを構築するための便利な抽象化を提供します。(簡略化された)MapReduce、GraphLab、リレーショナルクエリエンジンのプロトタイプ実装は Grappa 上に構築されており、元のシステムよりも優れたパフォーマンスを発揮します。」

BSDライセンスに基づくGrappaは、GitHubで無料で入手できます。Grappaの実際の動作を確認したい場合は、アプリケーションのREADMEファイルに記載されている分かりやすいクイックスタート手順に従って、Grappaアプリケーションを構築し、クラスター上で実行することができます。独自のGrappaアプリケーションの作成方法については、こちらのチュートリアルをご覧ください。

2. アパッチドリル

Apache Drillプロジェクトはビッグデータ分野に大きな影響を与えており、MapRなどの企業がHadoopディストリビューションにDrillを組み込むほどです。Apacheのフラッグシッププロジェクトであり、多くのストリーミングデータシナリオでApache Sparkと併用されています。

[[167538]]

たとえば、今年 1 月にニューヨークで開催された Apache Drill カンファレンスでは、MapR のシステム エンジニアが、パケット キャプチャとほぼリアルタイムのクエリおよび検索を含むユース ケースで Apache Spark と Drill がどのように連携するかをデモンストレーションしました。

Drillは、分散型のスキーマフリーSQLエンジンであるため、ストリーミングデータアプリケーションで高い評価を得ています。DevOps担当者やIT担当者は、Drillを使用することで、HadoopやHBase、MongoDBなどのNoSQLデータベース内のデータをインタラクティブに探索できます。Drillはデータに埋め込まれた構造を自動的に活用するため、スキーマを明示的に定義・管理する必要はありません。オペレータ間でデータをメモリ内でストリーミングし、クエリ完了に必要なディスク使用量を最小限に抑えます。

3. アパッチカフカ

Apache Kafkaプロジェクトは、そのリアルタイムデータ追跡機能により、スタープロジェクトとなりました。Kafkaは、均一性、高スループット、低レイテンシといった利点を備えたリアルタイムデータ処理能力を提供します。Confluentをはじめとする組織も、Kafkaをデータストリームと統合するためのカスタムツールを開発しています。

Apache Kafkaは元々LinkedInによって開発され、その後2011年初頭にソースコードが公開されました。堅牢でテスト済みのツールであるため、多くの組織では従業員にKafkaの知識を求めています。Kafkaを使用している著名な企業には、Cisco、Netflix、PayPal、Uber、Spotifyなどがあります。

LinkedInでKafkaを開発したエンジニアたちが、Kafkaに特化したConfluentを設立しました。Confluent Universityは、Kafkaの開発者、運用者、管理者向けのトレーニングコースを提供しています。対面式とオープンコースの両方をご用意しています。

あまり知られていないものの、急速に成長しているオープンソースのデータ分析プロジェクトを比較することに興味がありますか?もしそうなら、このトピックに関する私の最近の記事(https://www.linux.com/news/rise-six-unsung-apache-big-data-projects)で、これらのプロジェクトの詳細をご覧いただけます。

原題: Apache Spark を超える 3 つの新興オープンソースデータ分析ツール、著者: SAM DEAN

[この記事は51CTOによって翻訳されました。提携サイトへの転載の際は、元の翻訳者と出典を51CTO.comとして明記してください。]