|
ビッグデータは今日最も注目されているテクノロジーの一つとなり、爆発的な成長を遂げています。世界中で日々新しいプロジェクトが生まれています。幸いなことに、オープンソースのおかげで、ますます多くのプロジェクトがビッグデータ技術を直接導入できるようになりました。以下は、最も人気のあるオープンソースのビッグデータ技術10選です。 1. Hadoop – 非常に効率的で信頼性が高く、スケーラブルで、データ ストレージ プロジェクトに必要な YARN、HDFS、インフラストラクチャを提供し、主要なビッグ データ サービスとアプリケーションを実行します。 2. Spark – 使いやすく、主要なビッグデータ言語(Scala、Python、Java、R)をすべてサポートしています。堅牢で急速に成長しているエコシステムを誇り、マイクロバッチ処理、バッチ処理、SQL処理を容易にサポートします。Sparkは、データマイニングや機械学習などの反復的なMapReduceアルゴリズムに適しています。 3. NiFi – Apache NiFiは、米国国家安全保障局(NSA)がApacheソフトウェア財団に寄贈したオープンソースプロジェクトです。システム間のデータフローを自動化することを設計目標としています。ワークフローベースのプログラミング哲学に基づくNiFiは、非常に使いやすく、強力で信頼性が高く、高度な設定が可能です。最も重要な2つの機能は、堅牢なユーザーインターフェースと優れたデータバックトラッキングツールです。ビッグデータツールボックスにおける万能ナイフと言えるでしょう。 4. Apache Hive 2.1 – HiveはHadoop上に構築されたデータウェアハウス・インフラストラクチャです。データの抽出、変換、ロード(ETL)のためのツールスイートと、Hadoopに格納された大規模データの保存、クエリ、分析のためのメカニズムを提供します。最新バージョンのリリースにより、パフォーマンスと機能が全面的に向上し、HiveはビッグデータにおけるSQLに最適なソリューションとなっています。 5. Kafka – Kafkaは、コンシューマー規模のウェブサイトからのすべてのアクションストリームデータを処理できる、高スループットの分散型パブリッシュ・サブスクライブ型メッセージングシステムです。非同期メッセージングと分散メッセージングを橋渡しする機能を備え、ビッグデータシステムに最適な選択肢となっています。SparkやNiFiからサードパーティ製プラグイン、さらにはJavaやScalaまで、強力な連携機能を提供します。 6. PhoenixはHBase用のSQLドライバです。現在、多くの企業で利用されており、業務の拡張に役立っています。HDFS対応のNoSQLは、あらゆるツールとスムーズに連携します。Phoenixクエリエンジンは、SQLクエリを1つ以上のHBaseスキャンに変換し、その実行を調整して標準的なJDBC結果セットを生成します。 7. Zeppelin – Zeppelinは、インタラクティブなデータ分析機能を備えたWebベースのノートブックです。美しくフォーマットされた、データ駆動型のインタラクティブで共同作業可能なドキュメントの作成を支援し、Scala(Apache Sparkを使用)、Python(Apache Spark)、SparkSQL、Hive、Markdown、Shellなど、複数の言語をサポートしています。 8. Sparkling Water (H2O) は、Spark の機械学習のギャップを埋め、機械学習のあらゆるニーズを満たすことができます。 9. Apache Beam – Javaで統合されたデータパイプライン開発フレームワークを提供し、SparkとFlinkを強力にサポートします。多くのオンラインフレームワークに対応しているため、開発者は複数のフレームワークを学習する必要がありません。 10. Stanford CoreNLP – 自然言語処理には大きな成長の可能性があり、スタンフォードはフレームワークの改善に熱心に取り組んでいます。 |