|
競合他社の懸念を払拭するため、Databricksは火曜日、Delta Lake 2.0の一部としてすべてのDelta Lake APIをオープンソース化すると発表しました。また、Delta Lakeのすべての拡張機能をLinux Foundationに寄贈することも発表しました。 Databricks の競合他社である Cloudera、Dremio、Google (Big Lake)、Microsoft、Oracle、SAP、AWS Snowflake、HPE (Ezmeral)、Vertica などは、Delta Lake がオープンソースか独自のものか疑問視し、潜在的な顧客のシェアを奪っているとして同社を批判している。 ベンタナ・リサーチのリサーチディレクター、マット・アスレット氏は次のように述べている。「今回の発表は、ユーザーに継続性と明確性を提供し、Delta Lakeが独自のものかオープンソースなのかという(一部は競合他社が引き起こした)混乱を払拭するのに役立つはずだ。」 コンステレーション・リサーチの主任アナリスト、ダグ・ヘンシェン氏は、これらの発表により、データブリックスは顧客の懸念と競争相手に対する批判を和らげていると述べた。 「競争上の取引では、スノーフレークのような競合他社は、デルタレイクの特定の側面が独自のものであることを潜在的な顧客に指摘するだろう」とヘンシェン氏は述べ、データブリックスの顧客は、データがデルタレイク内にロックされているのではなく、オープンプラットフォーム上にあると信頼できると付け加えた。 Databricks では Delta Lake をデータベース レイクと呼びます。これは、ネイティブ形式でデータを保存するデータ レイクや、構造化データ (通常は SQL 形式) を保存するデータ ウェアハウスの概念とは対照的に、ストレージ機能と分析機能の両方を提供するデータ アーキテクチャです。 商用オープンソース市場での競争が激化データ レイク市場に商用オープンソース プロジェクトがますます増えるにつれ、Databricks の Delta Lake は、非常に大規模な分析テーブルに対して高パフォーマンスのクエリを提供する Apache Iceberg など、新たな競争に直面することになるでしょう。 「Apache Hudi向けのOneHouseなど、最近いくつかのオープンソースプロジェクトが商用化され始めており、StarburstとDremioもApache Iceberg製品をリリースしました」と、Amalgam Insightsの主席アナリスト、Hyon Park氏は述べています。「これらの製品のリリースにより、Lakehouse市場が細分化し、技術者の選択肢が増え、機能が豊富になるにつれて、Delta Lakeは他のオープンソースLakehouse形式からの圧力にさらされることになります」とPark氏は付け加えました。 VentanaのAslett氏によると、この分野の多くの企業がDelta Lakeテーブルの代替としてApache Icebergに注目しているという。行と列にデータを格納する従来のテーブルと比較して、DeltaテーブルはACID(原子性、一貫性、独立性、永続性)トランザクションを使用してメタデータを格納し、データのインポートを高速化できる。 Googleは4月にBig LakeとIcebergのサポートを発表し、今月初めにはSnowflakeがプライベートプレビューでApache Icebergテーブルのサポートを発表しました。Henschen氏は、Databricksのオープンソース戦略と同様に、Icebergの発表は、単一ベンダーへの依存によって将来的にデータへのアクセスを失う可能性を懸念する潜在顧客を引き付けることを狙っていると述べています。 ガートナーの元調査担当副社長サンジーヴ・モハン氏は、データブリックスがデルタ・レイクをオープンソース化したのは、新たな競争に直面する上で良い動きだと語った。 Delta Lake 2.0 は、より高速なクエリ パフォーマンスを提供します。同社によれば、Databricks の Delta Lake 2.0 は今年後半に全面的にリリースされ、データ分析のためのクエリパフォーマンスが向上すると期待されているという。 Databricksは火曜日に、エンドツーエンドの機械学習ライフサイクル(MLOps)を管理するためのオープンソースプラットフォームであるMLflowのバージョン2もリリースしました。同社によると、MLflow 2.0にはMLflow Pipelinesが搭載されており、データサイエンティストは構築するモデルの種類に基づいて、事前定義された本番環境対応のテンプレートを利用できるため、本番環境エンジニアの介入なしにモデル開発を加速できます。 アナリストによると、機械学習の制作は依然として困難なプロセスであり、アルゴリズム モデルを安全に管理されたリソース上の製品グレードのアプリケーション コードに変換することは依然として困難であるため、MLflow 2.0 はデータ サイエンティストにとってより成熟した選択肢となるでしょう。 「この分野には、Amazon Sagemaker、Azure Machine Learning、Google Cloud AI、Datarobot、Domino Data、Dataiku、Iguazioなど、多くのベンダーソリューションが存在します。しかし、ハイパースケールやDatabricksの統合アプローチと比較すると、Databricksは中立的なベンダーです。データとモデルの管理は、モデルの運用化に関連するコーディングや運用上の課題に重点を置くMLOpsベンダーにとって、差別化要因となっています」と、AmalgamのPark氏は述べています。 ヘンシェン氏は、MLflow 2.0 のリリースにより、ストリーミングとストリーミング分析を本番データ パイプラインに組み込むプロセスが簡素化されると述べ、多くの企業が MLOps に苦戦し、機械学習モデルの作成に成功しても失敗していると付け加えた。 |