|
情報過多の時代を迎え、膨大なデータが当たり前となり、企業におけるそれらの処理ニーズはますます高まっています。この記事では、「ビッグデータ」への対応策をいくつかご紹介します。 まず、リレーショナルデータベースやデスクトップ分析、仮想化パッケージではビッグデータを処理できません。数千台のサーバー上で膨大な量のソフトウェアを並列実行する必要があります。多くの組織は、ビッグデータを処理するためにApache Hadoopなどのオープンソースツールを活用しています。例えば、Twitterはログイン情報をHadoopに送信し、それをHadoopファイルシステムであるHDFSに直接書き込みます。 メサビ・グループの会長であるデイビッド・ヒル氏は、「Hadoopは数千のノードに展開され、数ペタバイト規模のデータを扱うデータ集約型アプリケーションをサポートします」と述べています。しかし、ビッグデータは異なる種類のアプリケーションに汎用化できるわけではありません。例えば、Hadoopは必ずしもあらゆるケースに適しているわけではないとヒル氏は警告しています。 ヒル氏は、ビッグデータの収集、保存、分析は各アプリケーションの固有の特性に依存すると強調しています。例えば、EMC IsilonやIBM SONASのようなスケールアウト型のネットワーク接続ストレージシステムは、画像や動画などの非構造化データの処理に適している可能性があります。 ビッグデータ処理の種類 Revolution Analyticsのエグゼクティブバイスプレジデント、マイク・ミネリ氏によると、ビッグデータ処理は情報管理、ビジネスインテリジェンス(BI)、そしてインテリジェントアナリティクスの3つの基本的なタイプに分類できるという。情報管理は情報の収集と保存、BIは過去の出来事を分析するためにデータを分析し、インテリジェントアナリティクスはデータの予測に重点を置くとミネリ氏は説明する。 Revolution Analyticsは、オープンソースのR言語とRevolution R Enterpriseを提供し、テラバイト規模のデータに対する高度な分析機能を提供します。また、Revolution Analyticsは、GoogleのMap/Reduceフレームワーク上で動作するHadoopコネクタとR言語機能の開発も進めています。 ビッグデータを処理するためのツール ビッグデータ分析機能を提供するプロプライエタリソフトウェアには、AsterData、IBMのプロプライエタリソフトウェアであるNetezza、Apache Hadoopを基盤とするプロプライエタリソフトウェアであるDatameer、Paraaccelなどがあります。IBMのNetezzaはInfoSphere製品に含まれています。OracleのExadataとEMCのGreenplumも、大容量データを処理するためのプロプライエタリツールです。 EMCは、Greenplumデータベースの無償コミュニティ版を発表しました。これはソフトウェアのみです。Greenplumコミュニティレポートには、Greenplum DB、MADlib、Alpine Minerという3つの共同モジュールが含まれています。大規模データセットを処理するためのオープンソースツールには、Hadoop、MapReduce、JaspersoftのBIツールなどがあります。 JaspersoftのBIツールは、EMC GreenplumやHP Verticaなど、幅広い並列分析データベースに対応したレポート作成、分析、ETL(抽出、変換、ロード)機能を提供します。また、HadoopやMongoDB、Riak、CouchDB、Infinispanなど、様々なNoSQLデータベースへのオープンソース接続を介して、ネイティブレポート作成機能も提供しています。 オープンソースツール VS プロプライエタリツール オープンソースツールを使用すると、開発者はコードを閲覧できるため、コードを統合する際にその中身を確認できます。Revolution Analyticsのミネリ氏は、ほとんどの場合、オープンソース分析はより費用対効果が高く、柔軟性が高いと述べています。 データ量の増加に伴い、企業はインフラの導入拡大を迫られるでしょう。特許料は引き続き上昇する一方、オープンソース技術はこうした継続的な特許費用を節約します。TwitterがHadoopを選択した主な理由は、プロプライエタリツールのコストが法外に高かったことです。 長期的には、オープンソースツールを活用することで、企業は従来のベンダーに頼ることなく、新たな分析技術を開発し、画像などの非構造化データをより適切に処理できるようになります。オープンソースツールは、企業にイノベーションの機会を提供します。 もう 1 つの領域は、オープン ソース ツールと独自のツールの混合使用です。 短期的には、オープンソース分析はますます広く利用され、急速に成長するでしょう。長期的には、競争の激しい市場でハイブリッド技術が登場し、両方のタイプに大きな需要が見込まれるでしょう。 [編集者のおすすめ]
|