DUICUO

Tencent のオープンソース データ コンポーネントである Fast-Causal-Inference は、分散型ベクトル化統計分析および因果推論に使用できます。

テンセントは9月18日、同社の公式WeChatアカウント「Tencent Open Source」で、オープンソースの分散型データサイエンスコンポーネントプロジェクト「Fast-Causal-Inference」をGitHubでリリースしたと発表した。

▲画像出典:テンセントオープンソース公式アカウント

これは、テンセント傘下のWeChatが開発した、SQLインタラクションを活用し、分散ベクトル化をベースとした統計分析・因果推論コンピューティングライブラリであると報じられています。 「ビッグデータにおける既存の統計モデルライブラリ(R/Python)のパフォーマンスボトルネックを解消し、数十億のデータポイントに対して数秒で因果推論機能を提供すると同時に、SQL言語を通じて統計モデルの利用ハードルを下げ、実稼働環境での利用を容易にする」とされています。既にWeChatビデオチャンネルやWeChat検索など、WeChat内の複数の業務に導入されています。

公式紹介:

1 秒未満の実行速度で、大規模なデータセットに対する因果推論機能を提供します。

ベクトル化された OLAP 実行エンジン ClickHouse / StarRocks に基づいており、より高速で、最適なユーザー エクスペリエンスを実現します。


最小限のSQLの使用

SQLGateway WebServer は、SQL 言語を使用することで統計モデルへの参入障壁を下げ、上位層で SQL を使用する非常に簡単な方法を提供し、エンジン関連の SQL 拡張と最適化を透過的に実行します。

基本演算子と高次演算子の因果推論機能、および上位レベルのアプリケーション カプセル化を提供します。

ttest、OLS、Lasso、ツリーベース モデル、マッチング、ブートストラップ、DML などをサポートします。

IT Home はまた、公式声明によれば最初のバージョンではすでに以下の機能がサポートされていることを知りました。

基本的な因果推論ツール

  • デルタ法に基づくt検定はCUPEDをサポートする
  • OLS、数十億行のデータ、1秒未満の精度

高度な因果推論ツール

  • OLS ベースの IV、WLS、およびその他の GLS、DID、合成制御、CUPED、仲介テクノロジがインキュベートされています。
  • Uplift: 数百万のデータポイントを数分で処理
  • ブートストラップや順列などのデータ シミュレーション フレームワークは、明示的なソリューションが利用できない分散推定の問題を解決するために使用できます。

参照する

  • オープンソース発表 | Tencent 分散データサイエンスコンポーネント
  • テンセント/高速因果推論 — GitHub