|
[51CTO.com クイック翻訳] この記事で紹介するオープンソースツールは、ビッグデータ処理、ビジネスインテリジェンス、機械学習、予測分析の分野をリードするものです。 多くの大企業にとって、オープンソースのビッグデータ分析は日常業務に欠かせないものとなっています。New Vantage PartnersがFortune 1000企業の上級管理職を対象に実施した調査によると、企業の62.5%が現在、少なくとも1つのビッグデータツールまたはアプリケーションを本番環境で運用しています。これは、2013年に同じ回答をした企業のほぼ2倍に相当し、ビッグデータプランを持たない回答者はわずか5.4%でした。 ビッグデータ分析において、オープンソースソフトウェアは例外ではなく、もはや当たり前のものです。企業が利用する主要なツールの多くはApache Foundationによって管理されており、多くの商用ツールも少なくとも部分的にこれらのオープンソースソリューションに基づいています。 この記事では、市場をリードするオープンソースのデータ分析ソリューション12選をご紹介します。ビッグデータ分析のための包括的なエンドツーエンドプラットフォームを提供するものもあれば、他のテクノロジーとの統合を必要とするものもあります。いずれも大規模企業に適しており、現在利用可能な主要なデータ分析ツールです。 1. ハドゥープ オープンソースのデータ分析技術を語る上で、Hadoopは欠かせません。Apache Software Foundationのこのプロジェクトは、ビッグデータとほぼ同義語となっており、企業が極めて大規模なデータセットを分散処理することを可能にします。TDWIとSASの共同調査によると、企業の約60%が2016年末までにHadoopクラスターを本番環境に導入する予定であると回答しています。 ただし、Hadoop自体はデータ分析を実行できないことに注意してください。Hadoopは通常、ビッグデータから洞察を得るための、より大規模で包括的なソリューションの一部です。 2. スパーク ApacheプロジェクトであるSparkは、ビッグデータの高速処理を約束しています。実際、「メモリ内でプログラムを実行する場合はHadoop MapReduceの100倍、ディスク上で実行する場合は10倍高速」と謳っています。この優れたパフォーマンスにより、Sparkはストリーミングデータの分析やインタラクティブな分析を必要とするアプリケーションでよく使用されています。多くの企業はSparkをHadoopやMesosと組み合わせて使用していますが、単独でも実行可能です。近年、Sparkの人気は急上昇しており、Syncsortが2016年に実施した調査では、調査対象となった企業のビッグデータ専門家の約70%がSparkに関心を示していることが明らかになりました。 3. タレンド 前述の2つのプロジェクトとは異なり、Talendは財団ではなく営利企業によって運営されています。そのため、有料サービスも提供しています。Talendは無料製品と有料製品の両方を提供しています。無料のオープンソースソリューションであるTalend Open Studioは、200万回以上ダウンロードされています。 市場調査会社ガートナーは最近、Talendをデータ統合分野の「リーダー」に選出しました。同社は、Talendのソリューションは競合ソリューションの5倍の速度でビッグデータ分析を可能にし、コストはわずか5分の1であると主張しています。 4. ジャスパーソフト Talendと同様に、Jaspersoftも複数のバージョンを提供しており、無料版と有料版があります。Community Editionは無料でオープンソースですが、Reporting、AWS、Professional、Enterprise Editionは有料ですが、サポートサービスが付属しています。 Jaspersoftは、企業ユーザーがセルフサービスで自らのニーズに対応できるように設計されたオープンソースのビジネスインテリジェンスツールです。同社によると、同社のテクノロジーは13万以上のアプリケーションをサポートし、組み込み型のビジネスインテリジェンス機能を提供しています。 5. ペンタホ Pentahoは「包括的なデータ統合およびビジネスインテリジェンスプラットフォーム」を自称しています。同社は主に、オープンソースのコミュニティ版をベースにした商用版を販売しています。多くの企業がHadoopやSparkなどのツールと組み合わせて、ビッグデータのレポート作成や表示に利用しています。Pentahoは、ブリティッシュ・テレコム(BT)、キャタピラー、ナスダック、米国国土安全保障省、アメリカ海洋大気庁(NOAA)、ニューヨーク・タイムズ、EMCなど、数多くの著名な企業を顧客に抱えています。 6. ラピッドマイナー RapidMinerは「ナンバーワンのオープンソース・データサイエンス・プラットフォーム」を自称しており、ガートナー社の「高度な分析に関するマジック・クアドラント」においてリーダーに選出されています。セルフサービス型の予測分析を可能にし、驚異的なパフォーマンス向上を約束します。BMW、ルフトハンザ、ドミノ・ピザ、ソニー、フォード、セールスフォース・ドットコム、アムネスティ・インターナショナル、ゼネラル・エレクトリックなどがユーザーに名を連ねています。RapidMinerプラットフォーム全体は、RapidMiner Studio、RapidMiner Server、RapidMiner Radoopという3つのコンポーネントで構成されています。これら3つのコンポーネントはすべて、オープンソースライセンスまたは商用ライセンスで利用可能です。商用版の価格はユーザー数によって異なります。 7. 嵐 Yahoo、Twitter、Spotify、Yelp、Flipboard、Grouponなどの企業で採用されているApache Stormは、リアルタイムビッグデータ処理エンジンです。公式サイトでは、「Stormは、Hadoopのバッチ処理能力に匹敵するリアルタイム処理能力を提供し、無制限のデータストリームを簡単かつ確実に処理することを可能にします」と説明されています。お客様は、あらゆるデータベースやプログラミング言語でStormを利用できます。スケーラビリティ、フォールトトレランス、部分的な利用の容易さといった利点を誇ります。ただし、Stormはまだバージョン1.0に達していないことに注意してください。 8. 水 H2Oは6万人以上のデータサイエンティストと7,000以上の企業組織に利用されており、「世界をリードするオープンソース機械学習プラットフォーム」を自称しています。インメモリ技術により、卓越したパフォーマンスを提供します。また、HadoopやSparkといった多くのオープンソースデータ分析ツールとの統合が可能で、主要なデータベースをすべてサポートし、有料サポートサービスも提供しています。 同社は、H2O の標準バージョンに加えて、エンドツーエンドの AI アプリケーション エンジンである Spark と Steam を統合した Sparkling Water も提供しています。 9. ルミファイ Altamira Technologiesという企業によって開発されたLumifyは、「オープンソースのビッグデータ分析および可視化プラットフォーム」と自称しています。ユーザーは、エンティティ間の関係性を表示したり、地図上にデータを重ね合わせたりできる2Dまたは3Dグラフを簡単に作成できます。仕組みを知りたい方は、公式ウェブサイトでLumifyの動作を紹介する動画をいくつか公開しているほか、ユーザーが独自のデータをアップロードしてソフトウェアを試すことができるデモウェブサイトも用意されています。 10. ドリル Apache Drillは、NoSQLデータストレージシステムに対してSQLクエリを実行できるようにします。HBase、MongoDB、MapR-DB、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、Swiftなど、幅広いNoSQLおよびクラウドベースのデータストレージシステムをサポートしています。また、異なるテクノロジーで保存された複数のデータセットを単一のクエリで検索することも可能です。さらに、多くの一般的なビジネスインテリジェンスツールもサポートしています。 11. モンゴDB 最もよく知られているNoSQLデータベースの一つであるMongoDBは、オープンソースの非リレーショナルデータストレージソリューションです。顧客には、メットライフ、シカゴ市、Expedia、Google、The Weather Channel、BuzzFeed、Facebookなどが名を連ねています。無料のオープンソース版に加え、有料のエンタープライズ版とクラウドホスト版のMongoDB Atlasも提供しています。大手市場調査会社Forrester Researchは、MongoDBをビッグデータNoSQL分野の「リーダー」に選出しました。 12. スパゴBI SpagoBIは、オープンソースのビジネスインテリジェンスおよびビッグデータ分析プラットフォームです。ソフトウェア自体は完全に無料ですが、ユーザーサポート、メンテナンス、コンサルティング、トレーニングなどの有料サービスもご利用いただけます。レポート作成、OLAP、チャート作成、ロケーションインテリジェンス、データマイニング、ETL(抽出、変換、ロード)などのツールが含まれています。また、一般的なインメモリ処理エンジンと統合されているため、リアルタイム処理も可能です。 原題: 12 Top Open Source Data Analytics Apps、著者: Cynthia Harvey [この記事は51CTOによって翻訳されました。提携サイトへの転載の際は、元の翻訳者と出典を51CTO.comとして明記してください。] |