|
2018年と2019年、クラウドコンピューティングの台頭を受け、従来型IT企業とクラウドサービスプロバイダーはこぞってオープンソースという肥沃な土壌に目を向けました。「開発者の夢」と称されたMicrosoftによるGitHubの75億ドルでの買収に続き、IBMはオープンソースの「王者」Red Hatを340億ドルで買収しました。また、AlibabaはFlinkの開発元であるスタートアップ企業Data Artisans(後にVervericaに社名変更)を9,000万ユーロで買収し、グローバルなオープンソース開発者エコシステムの発展と競争において中国企業を代表する存在となりました。 かつては「営利企業がオープンソース・エコシステムに損害を与えている」と批判されていたこれらの買収は、わずか数年後、オープンソース・エコシステムの継続的な繁栄にとって、巨大営利企業の関与がいかに重要かをまさに証明しています。あらゆる兆候が示唆しているのは、社会変化の波の中で、急速に発展するパブリッククラウドベンダーは、オープンソースの障害となるどころか、むしろオープンソース・ソフトウェア・エコシステムの急速な成長を促進し、この分野のリーダーとなりつつあるということです。 2022年だけでも、GitHubには2,050万人の新規開発者が参加し、開発者総数は9,400万人に達し、前年比27%増の大幅な増加となりました。FlinkのGitHubスターと貢献者も前年比30%以上の成長率で増加し、現在では2万以上のスター、数千人の貢献者、20万人以上の開発者がフォローし、国内外の有名企業100社以上がコードを提供しています。ピーク時の月間ダウンロード数は1,400万を超え、Apache Foundationの年次レポートでは2年連続で最も活発なプロジェクトにランクインしています。 これらの事実は、オープンソースソフトウェア分野における「黄金律」を改めて裏付けています。オープンソースと商業は矛盾するものではありません。オープンソースプロジェクトを支える営利企業は、オープンソースプロジェクトのエコシステムの繁栄を促進する鍵となることがよくあります。オープンソースプロジェクトを支える営利企業がなければ、オープンソースプロジェクト自体が必然的に衰退、あるいは消滅するでしょう。 Flinkが「テクノロジーリーダー」から「エコシステムリーダー」へと変貌を遂げた過程を振り返ると、この「鉄則」はクラウド時代においても有効であり続けるだけでなく、さらに強化されています。アリババの深い関与により、このヨーロッパ生まれのプロジェクトに中国の強力な技術、人材、そしてアプリケーションエコシステムが注入され、Flinkのグローバルコミュニティの急速な進化を牽引し、様々な業界の大規模商用アプリケーションをサポートし、世界のビッグデータ・リアルタイムコンピューティング業界におけるデファクトスタンダードへと成長しました。 ヨーロッパで生まれ、中国で爆発的に成長:中国の開発者が Flink を驚異的な成長に導いた。 Flinkは、ドイツのベルリン工科大学のStratosphereビッグデータ研究プロジェクトから生まれました。2014年、Stratosphereプロジェクトチームのコアメンバーは、Flinkをストリーム処理コンピューティングを主眼としたビッグデータエンジンとして位置付け、インキュベーションを行いました。同年、彼らはFlinkをApache Software Foundationに寄贈しました。2015年、FlinkはApacheのトップレベルプロジェクトとなりました。 Flinkが登場する以前、前世代のストリーミングエンジンはStormと呼ばれていました。FlinkとStormの主な違いは、Stormにはなかったステートフルストリーミング機能を備えている点です。つまり、低レイテンシで高スループットのストリーミング機能に加え、Flinkはストリーミング計算とステートストレージを有機的に統合し、フレームワークレベルでストリーミングステート全体にわたる正確なデータ一貫性を実現します。これが、FlinkがStormを急速に追い抜き、開発者の支持を得て、Apacheのトップレベルプロジェクトへと急速に成長した理由です。 しかし、Flinkの真の躍進は2019年に始まりました。当時、Flinkの技術ロードマップを最も早く提唱した企業の一つであるアリババが、Flinkを支える企業を買収し、Flinkコミュニティの最大の推進者となりました。同年、アリババは長年社内で開発・進化を続けてきたFlinkのブランチであるBlinkをオープンソース化し、100万行を超えるコードをFlinkに提供しました。特に、Stream SQLの導入により、Flinkコミュニティは非常に使いやすいStream SQLソリューションを実現し、開発者が複雑なJavaコードを書く必要がなくなり、開発の敷居が大幅に下がりました。 それ以来、アリババはコアテクノロジー、人材育成、コミュニティ運営、アプリケーション実装に継続的に投資し、多くの中国人開発者を惹きつけ、Flinkのグローバルエコシステムの爆発的な成長を牽引してきました。データによると、Flinkは現在20万人以上の開発者フォロワーを誇り、100社以上の国内外の有名企業がコードを提供し、月間ダウンロード数はピーク時に1,400万件を超え、巨大なユーザーと開発者のエコシステムを形成しています。2022年には、アリババ、テンセント、バイトダンスなどの中国企業がコードの半分以上を提供しました。GitHub上のFlinkコミュニティによって生成されたプルリクエストの45%は中国人開発者によるものであり、中国人開発者がFlinkのグローバルコミュニティのバックボーンとなっていることを示しています。 中国の開発者たちの力強い努力により、Flinkは2020年以降、リアルタイム・ビッグデータ・コンピューティングの世界的なデファクトスタンダードとなりました。今日、リアルタイム・ストリーム・コンピューティングといえば、Apache Flinkが当然の選択肢です。その応用分野は、初期のインターネット業界から政府、金融、製造、小売、運輸、メディア、ゲーム、テクノロジーなど、様々な分野に広がっています。わずか数年で、Flinkはオープンソース・プロジェクトにおけるテクノロジーリーダーからエコシステムリーダーへと変貌を遂げました。 ユーザーからリーダーまで、Alibaba は Flink コミュニティの急速な進化を導いています。 周知の通り、オープンソースコミュニティはオープンソースエコシステムの成長と発展の基盤です。中国には開発者が不足しているわけではありませんが、長年にわたり、オープンソースソフトウェア分野における中国のイメージは、先進国というよりは、オープンソース大国という位置づけでした。その最も顕著な指標は、主導的なオープンソースコミュニティが欠如していることで、コアプロジェクトの方向性を明確にし、コントロールすることが不可能になっています。近年、政策や市場の需要に後押しされ、大手企業は主導的なオープンソースコミュニティの構築に取り組んでいます。アリババとFlinkコミュニティの関係はその好例です。 アリババのビジネスに精通している人は、リアルタイム・ビッグデータ・コンピューティングがアリババの最も顕著な特徴の一つであることをご存知でしょう。例えば、毎年恒例のダブル11ショッピングフェスティバル(双十一節)の期間中、天猫(Tmall)の取引画面に表示される、常に変化するリアルタイムの取引数値は、リアルタイム・ストリーム・コンピューティングの成果です。これらの急速に変化する数値は、様々なレポートやデータベースから膨大な量のデータを集約し、ミリ秒レベルの時間遅延で計算を行い、結果を単一のビューに表示する必要があります。さらに、リアルタイム・ストリーム・コンピューティングは、リアルタイム広告、レコメンデーション、不正検出、サービス品質監視といった分野にも活用されています。 そのため、アリババは2015年からFlinkの研究を開始し、2016年にはダブル11の検索・レコメンデーションのシナリオで初めてFlinkを使用しました。その後、Flinkは検索・レコメンデーションとオンライン学習チェーン全体のリアルタイム処理を実現し、2017年にはアリババグループ内の標準的なリアルタイムコンピューティングソリューションとなりました。 2018年、アリババはFlinkをクラウドに移行し、中小企業へのサービス向上を目指してAlibaba Cloud上で商用Flinkベースの製品を展開しました。同年、アリババはFlinkのフラッグシップカンファレンスであるFlink Forwardを中国で導入し、連続開催しました。これにより、中国の開発者がこのトップクラスのビッグデータ技術カンファレンスに直接参加できるようになり、中国におけるFlinkコミュニティの浸透を加速させました。 そして2019年は、アリババがFlinkの開発会社を買収し、Flinkをベースに綿密に開発した技術であるBlinkをオープンソース化し、コミュニティへの還元という重要な年を迎えました。100万行を超えるコードの貢献により、Blinkはランタイム、SQL、PyFlink、MLなど、複数の側面でFlinkのパフォーマンスを大幅に向上させました。その後、アリババはFlinkのバージョンリリースを主導し、中国の開発者と共にグローバルコミュニティ構築への道を歩み始めました。同年、アリババクラウドはグローバルに統合されたFlinkエンタープライズプラットフォームであるVerverica Platformを立ち上げ、オープンソース製品化への取り組みを継続しました。 2020年、アリババは自社のコアBlinkカーネルをFlinkカーネルに統合し、Apache Flink中国コミュニティを立ち上げ、オープンソースコミュニティのグローバルな発展を全面的にサポートしました。その年のダブル11ショッピングフェスティバルでは、Flinkはアリババグループのエンドツーエンドのリアルタイムソリューションをすべて処理し、数百万CPUコア規模に達し、リアルタイムデータ処理で毎秒40億レコードという新記録を樹立しました。それ以来、オープンソースのFlinkカーネルをベースとしたアリババクラウドの製品と社内サービスにより、AWSやClouderaなどのクラウドコンピューティングおよびビッグデータベンダーは、Flinkを標準クラウド製品に組み込み、Flinkをリアルタイムコンピューティングの事実上の世界標準にしました。 データによると、現在までにアリババとVervericaは共同で211のFLIPを主導し、Flinkのコア改善の70%以上に貢献しました。また、70人近くのFlinkコア貢献者(PMCメンバーとアクティブ貢献者を含む)を育成し、70%以上を占めました。さらに、4回連続でFFA(Flink Forward Asia)カンファレンスやさまざまな開発者イベントを開催し、Flinkエコシステムを積極的に推進し、Alibaba CloudのFlinkクラウド製品とVervericaプラットフォームを通じて、さまざまな業界にわたるFlinkの大規模展開を推進しました。アリババはあらゆる面で重要な推進役を果たしてきたと言えます。 こうしてアリババは、オープンソースを活用し、貢献する段階から、主導的なオープンソースコミュニティの構築へと着実に歩みを進めました。これは、中国の技術、人材、そしてアプリケーションエコシステムが、世界のオープンソースコミュニティと足並みを揃えるだけでなく、その急速な進化と力強い発展をリードできることを世界に証明しました。 「ストリーミング データ ウェアハウス」への進化により、「統合フローおよびバッチ処理」時代の到来が加速します。 もちろん、オープンソースの世界における技術進化は驚くほど急速であることを認識する必要があります。HadoopやHiveからStorm、そしてSparkやFlink、バッチ処理からストリームコンピューティング、そして「ストリーム・バッチ統合」へと、技術アーキテクチャと市場の需要は常に相互選択を繰り返しており、少しでも間違えると「次の波」に取り残されてしまう可能性があります。全体として、今日では、技術アーキテクチャの起源がバッチ処理であれストリームコンピューティングであれ、すべてがストリーム・バッチ統合へと向かっており、単一のエンジンでリアルタイムとオフラインの両方のコンピューティングニーズを満たすことを目指しています。 これを踏まえ、アリババは2019年にBlinkのコードをFlinkに提供した後、バージョン1.9以降、Flinkにおけるストリーミングとバッチ処理の統合を主導し始めました。これには、SQLとDataStreamをAPIレベルで統合し、単一のコードベースでストリーミングモードとバッチモードのどちらでも実行できるようにする、単一のジョブで有限データセットと無限データセットの両方を同時に処理できるようにする、ストリーミングストレージとバッチストレージの両方に接続し、1つのコードベースで2つのデータソースを処理する、そしてランタイムレベルでストリーミングジョブとバッチジョブの両方に適した単一のスケジューリングフレームワークを確立することが含まれていました。 Alibabaのオープンソース委員会副委員長、Alibaba Cloudのオープンソース・ビッグデータ・プラットフォーム責任者、そしてFlink中国コミュニティの創始者であるWang Feng氏によると、Flinkコミュニティの次の機会は、統合エクスペリエンスの継続的な向上と、断片化されたストレージレイヤーの問題を解決し、統合されたリアルタイムデータパイプラインを実現することにあります。これには、Flinkの統合ストリームおよびバッチSQL、そして統合ストリームおよびバッチストレージを通じて、真に統合されたストリーミングデータウェアハウスを構築することが含まれます。 ストリーミングデータウェアハウスを実現する鍵は、効率的なストリーミング読み取り、ストリーミング書き込み、バッチ読み取り、バッチ書き込みをサポートし、データウェアハウス内でデータが自由に流れることを可能にする、本番環境対応の統合ストリーミング・バッチストレージを構築することです。この目標達成のため、アリババは2022年にFlink Table Store(現在はPaimonに改名)プロジェクトを立ち上げ、統合ストリーミング・バッチストレージ機能の実現を目指し、Flinkをストリーミングコンピューティングからストリーミングデータウェアハウスへと進化させました。これにより、ユーザーは開発プロセス全体を通して完全に統合された増分開発エクスペリエンスと、統一されたデータストレージ・管理システムを享受でき、「究極の」統合ストリーミング・バッチストレージを実現できます。 ストリーミングデータウェアハウスに代表される、ストリームとバッチ処理を統合した時代の到来は、ビジネス開発の効率化とコンピューティング性能の向上だけでなく、コンピューティングクラスターのリソース利用率のさらなる向上も意味することは間違いありません。バッチ処理とストリーミング処理を単一のエンジンと単一のリソースプラットフォームで実行することで、開発・保守コストの削減だけでなく、コンピューティングに消費されるリソースコストも大幅に削減されます。これは、コンピューティングパワーが高価になるデジタル経済の時代には非常に貴重です。アリババが率いるFlinkコミュニティは、これを進化の目標として掲げ、野心的な志を示しています。 まとめ: 「中国の開発者コミュニティがどこへ向かおうとも、そこで主導権を握る可能性が高い」と、中国科学院院士の王懐敏氏は2022年のOpen Atomオープンソースサミットで述べた。「世界のオープンソース分野における中国の開発者の役割は、プロジェクトの主要参加者から、いくつかの代表的なオープンソースプロジェクトの発起者やリーダーへと進化している」。アリババの代表的なオープンソース実践事例であるFlinkを見ると、この主張は現実に裏付けられている。中国開発者の台頭はFlinkの急速な成長を後押しし、世界のオープンソースの舞台でより重要な役割を果たしているのだ。 これらすべての根底にある論理を掘り下げてみると、冒頭で述べたように、オープンソース・プロジェクトのエコシステムの繁栄の鍵は、商業大手の優位性にあります。クラウドとオープンソースが新たなコンピューティング時代において互いに惹きつけ合う中、この波の最前線に立つクラウド大手は、支配的なオープンソース・コミュニティを構築し、先進的なオープンソース技術をより低い参入障壁でより広い市場に展開する能力と責任を有しています。実際、大手クラウドベンダーはオープンソースのリーダーとなりつつあり、クラウドとオープンソースを活用してデジタル世界の基盤を構築し、業界を問わず開発者がクラウドとオープンソースを採用できるよう支援し、デジタルでインテリジェントな未来への歩みを加速させています。 |