|
ますます多くの企業がビッグデータ技術に注目しており、オープンソースこそがまさにビッグデータ技術の真髄です。以下に、注目すべき9つのオープンソース・ビッグデータ技術をご紹介します。どうぞお楽しみに。 1. アパッチハドゥープ Apache Hadoopはオープンソースの分散コンピューティングフレームワークで、元々はDougが自身のオープンソースWeb検索エンジンNutchをサポートするために開発しました。MapReduceテクノロジーを統合することで、Hadoopはビッグデータを複数のデータノードに分散処理します。HadoopはApache 2.0ライセンスの下で動作し、構造化データ、半構造化データ、非構造化データを容易に処理できるため、非常に人気のあるビッグデータソリューションとなっています。 2. R言語 Rは、データ統計と可視化に特化したオープンソースのプログラミング言語です。オークランド大学のロス・イハカとロバート・ジェントルマンによって最初に設計され、瞬く間にビッグデータ分野で不可欠なツールとなりました。RはGPLライセンスに基づいています。 3. カスケード Cascadingは、Apache Hadoopをベースとしたデータ分析およびデータ管理アプリケーションの迅速かつ容易な開発を可能にする、Java開発者向けのアプリケーションフレームワークです。CascadingはHadoopの抽象化レイヤーとして機能し、MapReduceの複雑さからHadoopを保護し、あらゆるJVMベースのプログラミング言語でHadoopクラスター上のデータ処理タスクを実行できるようにします。MapReduceの代替APIとしてChris Wenselによって開発されたCascadingは、GNUライセンスに基づいてライセンスされており、広告ターゲティング、ログ分析、Webデータマイニング、ETLアプリケーションなどで広く利用されています。 4. 筆記者 2008年にリリースされたScribeは、Facebookが開発したログ集約サーバーソフトウェアで、多数のサーバーからログデータをリアルタイムに集約します。Apache 2ライセンスに基づいてライセンスされており、高いスケーラビリティを備え、1日あたり数百億件のログレコードを処理できます。 5. エラスティックサーチ ElasticSearchは、Shay Banon氏によって開発され、Apacheライセンスに基づいてライセンスされているオープンソースの検索サーバーです。分散コンピューティングをベースとしたElasticSearchは、リアルタイム検索のための非常にスケーラブルなソリューションを提供します。StumbleUponやMozillaなど、多くの企業がElasticSearchを支持しています。 6. Apache HBase Apache HBaseは、Javaで記述され、GoogleのBigTableテクノロジーをベースとしたオープンソースの非リレーショナル列指向分散データベースです。HDFSファイルシステム上で動作します。HBaseは優れたストレージフォールトトレランスと、多数のスパースファイルへの高速アクセス機能を提供します。HBaseはApache 2ライセンスに基づいてライセンスされています。 7. アパッチ カサンドラ Cassandraは、Facebookが開発し、Apache 2ライセンスに基づいてライセンスされているオープンソースのNoSQLデータベースです。FacebookはHBaseを優先していたため、徐々にCassandraの使用を中止しましたが、Netflixなど多くの企業は、ストリーミングサービスのバックエンドとしてCassandraデータベースを今でも使用しています。 8. モンゴDB MongoDBはC++で記述された分散ファイルベースデータベースです。Webアプリケーション向けにスケーラブルで高性能なデータストレージソリューションを提供することを目的としています。MongoDBはJSONドキュメントベースのNoSQLデータベースとして非常に人気があり、多くの企業で高く評価されています。MTV Networks、Craigslist、Disney Interactive Media Group、The New York Times、EtsyなどはいずれもMongoDBのクライアントです。MongoDBはGNU Affero General License、言語駆動型バージョンはApache Licenseに基づいてライセンスされており、10genは商用MongoDBライセンスを提供しています。 9. アパッチカウチDB CouchDBも、JSON形式でデータを保存する人気のオープンソースNoSQLデータベースです。CouchDBはクエリ言語としてJavaScriptを使用し、MapReduceテクノロジーを統合しています。IBM Lotus Notesの開発者であるDamien Katz氏は、2005年に大規模オブジェクトデータの保存用にCouchDBを開発しました。CouchDBはApache 2.0ライセンスに基づいており、BBCでは動的コンテンツの保存に、Credit Suisseのコモディティ部門でも使用されています。 |