AutoML 向けオープンソース開発ツール AutoGloon を使った実践的な演習

翻訳者 |朱賢宗

校正者 | Chonglou

この記事では、オープンソースライブラリAutoGloonを使ってKaggleコンペティションで勝利する方法と、他の競合相手に勝つ方法を紹介します。さらに、AutoGloonフレームワークをベースにしたわずか4行のコードで、99%のデータサイエンティストを上回るパフォーマンスを発揮できることも学びます。

導入

2 つの人気のある Kaggle コンテストにおいて、AutoGloon は生データでわずか 4 時間のトレーニングを行っただけで、参加したデータサイエンティストの 99% に勝利しました (AutoGloon チーム、「AutoGloon: テキスト、画像、表形式データに AutoML を使用する」、2020 年)。

AutoGloonの研究論文（https://arxiv.org/abs/2003.06505）から引用した上記の文章は、この記事で探求する内容を完璧に要約しています。それは、最小限のコーディングで優れたパフォーマンスを実現する機械学習フレームワークです。完全な機械学習パイプラインを構築するには、たった4行のコードが必要です。そうでなければ、この作業には何時間もかかるでしょう。そうです、たった4行のコードです！ご覧ください。

 from autogluon.tabular import TabularDataset, TabularPredictor train_data = TabularDataset('train.csv') predictor = TabularPredictor(label='Target').fit(train_data, presets='best_quality') predictions = predictor.predict(train_data)

これらの4行のコードは、各列のデータ型を自動的に識別してデータ前処理を行い、次に有用な列の組み合わせを見つけることで特徴量エンジニアリングを実行し、最後にこれらの組み合わせを使用してモデルをトレーニングし、指定された時間枠内で最もパフォーマンスの高いモデルを特定します。このコードでは、機械学習タスクの種類（回帰/分類）すら指定していないことに注意してください。AutoGloonはラベルチェックを自動的に実行し、タスク自体を決定します。

このアルゴリズムを推奨しているかというと、必ずしもそうではありません。AutoGloonの威力は高く評価していますが、データサイエンスをKaggleコンペティションの精度スコアに矮小化しないソリューションを好みます。しかし、これらのモデルが人気を集め、広く採用されるようになるにつれて、その仕組み、その背後にある数学とコード、そしてそれらをどのように活用し、あるいはさらに進化させるかを理解することが非常に重要になります。

1. オートグローンの概要

AutoGloonは、Amazon Web Services（AWS）が開発したオープンソースの機械学習ライブラリです。データの準備から最適なモデルの選択、設定の調整まで、機械学習プロセス全体を自動化するように設計されています。

AutoGloonライブラリは、シンプルさと最高レベルのパフォーマンスを兼ね備えています。アンサンブル学習や自動ハイパーパラメータチューニングといった高度な技術を採用することで、作成するモデルの高精度化を保証します。そのため、技術的な詳細に煩わされることなく、強力な機械学習ソリューションを開発できます。

このライブラリは、データの前処理、特徴量の選択、モデルのトレーニング、評価を処理し、堅牢な機械学習モデルの構築に必要な時間と労力を大幅に削減します。さらに、AutoGloonは非常にスケーラブルで、小規模なプロジェクトから大規模で複雑なデータセットまで、あらゆる環境に適しています。

AutoGloonは、表形式データの場合、分類タスク（データを異なるカテゴリにグループ化する）と回帰タスク（連続的な結果を予測する）の両方に対応できます。また、テキストデータもサポートしているため、感情分析やトピック分類などのタスクに適しています。さらに、画像データも管理できるため、画像認識や物体検出にも役立ちます。

AutoGloonには時系列データ、テキスト、画像の処理能力を向上させるためのバリアントが複数開発されていますが、ここでは表形式データを扱うためのバリアントに焦点を当てます。この記事がお役に立てば幸いです。また、今後これらのオープンソースライブラリのバリアントについてさらに詳しく知りたい場合は、ぜひお知らせください。(AutoGloonチーム、「AutoGloon：テキスト、画像、表形式データへのAutoMLの活用」、2020年)

2. AutoMLの概要

（１）AutoMLとは何か？

AutoML（Automated Machine Learning）とは、機械学習を現実世界の問題に適用するプロセス全体を自動化する技術の略称です。AutoMLの主な目的は、機械学習をより身近で効率的なものにし、深い専門知識を必要とせずにモデルを開発できるようにすることです。既に述べたように、AutoMLはデータの前処理、特徴量エンジニアリング、モデル選択、ハイパーパラメータ調整といった、複雑で時間のかかるタスクを処理できます（He他著、「AutoML：最新技術のレビュー」、2019年）。

AutoMLの概念は長年にわたり大きく進化してきました。当初、機械学習は専門家による膨大な手作業を必要とし、特徴量の慎重な選択、ハイパーパラメータの調整、適切なアルゴリズムの選択といった作業が必要でした。この分野の発展に伴い、ますます大規模かつ複雑化するデータセットを処理するための自動化の必要性も高まりました。プロセスの一部を自動化する初期の取り組みが、現代のAutoMLシステムへの道を切り開きました。今日、AutoMLはアンサンブル学習やベイズ最適化といった高度な手法を用いて、人間の介入を最小限に抑えながら高品質なモデルを作成しています（Feurer他、「Efficient and Robust Automated Machine Learning」、2015年、リンク：https://www.arxiv.org/abs/1908.00709）。

近年、AutoML分野では複数の研究チームが登場し、それぞれが独自の特徴と機能を提供しています。Amazon Web Servicesが開発したAutoGloonは、その使いやすさと、様々なデータタイプにわたる強力なパフォーマンスで高く評価されています（AutoGloonチーム、「AutoGloon：テキスト、画像、表形式データ向けのAutoML」、2020年）。Google CloudのAutoMLは、開発者が最小限の労力で高品質のモデルをトレーニングできる機械学習製品スイートを提供しています。H2O.aiは、教師あり学習タスクと教師なし学習タスクの両方に自動機械学習機能を提供するH2O AutoMLを提供しています（H2O.aiチーム、「H2O AutoML：スケーラブルな自動機械学習」、2020年、リンク：https://www.automl.org/wp-content/uploads/2020/07/AutoML_2020_paper_61.pdf）。DataRobotは、エンタープライズグレードのAutoMLソリューションに注力しており、モデルのデプロイメントと管理のための堅牢なツールの提供を目指しています。 Microsoft の Azure Machine Learning には AutoML 機能も搭載されており、他の Azure サービスとシームレスに統合して包括的な機械学習ソリューションを形成します。

（2）AutoMLの主要コンポーネント

AutoGluon ワークフローは次の図に示されています。

AutoGloonワークフロー

あらゆる機械学習パイプラインの最初のステップは、データの前処理です。これには、欠損値の処理、重複の除去、エラーの修正などによるデータのクリーニングが含まれます。また、データの前処理には、値の正規化、カテゴリ変数のエンコード、特徴量のスケーリングなど、分析に適した形式へのデータ変換も含まれます。データの品質は機械学習モデルのパフォーマンスに直接影響するため、適切なデータ前処理は不可欠です。

データのクレンジングが完了したら、次のステップは特徴量エンジニアリングです。このプロセスでは、新しい特徴量を作成したり、既存の特徴量を修正したりして、モデルのパフォーマンスを向上させます。特徴量エンジニアリングは、既存のデータに基づいて新しい列を作成するという単純なものから、ドメイン知識を用いて意味のある特徴量を作成するという複雑なものまであります。適切な特徴量を使用することで、モデルの予測力を大幅に向上させることができます。

データの準備と特徴量の設計が完了したら、次のステップはモデルの選択です。多くのアルゴリズムが利用可能で、それぞれに長所と短所があり、問題によって異なります。AutoMLシステムは複数のモデルを評価し、特定のタスクに最適なモデルを決定します。これには、決定木、サポートベクターマシン、ニューラルネットワークなどのモデルを比較し、どのモデルがデータに対して最も優れたパフォーマンスを発揮するかを判断することが含まれる場合があります。

モデルを選択した後、次の課題はハイパーパラメータの最適化です。ハイパーパラメータとは、ニューラルネットワークの学習率や決定木の深さなど、機械学習アルゴリズムの動作を制御する設定です。最適なハイパーパラメータの組み合わせを見つけることで、モデルのパフォーマンスを大幅に向上させることができます。AutoMLは、グリッドサーチ、ランダムサーチ、ベイズ最適化などの高度な手法を用いてこのプロセスを自動化し、モデルが最適な結果を達成できるように微調整します。

最後のステップはモデルの評価と選択です。このステップでは、交差検証などの手法を用いて、モデルが新しいデータにどの程度一般化できるかを評価します。モデルの有効性を測定するために、精度、適合率、再現率、F1スコアなどの様々なパフォーマンス指標が使用されます。AutoMLシステムはこの評価プロセスを自動化し、選択されたモデルが特定のタスクに最適なものとなるようにします。評価後、最もパフォーマンスの高いモデルがデプロイ用に選択されます（AutoGloonチーム、「AutoGloon：テキスト、画像、表形式データへのAutoMLの使用」、2020年）。

（3）AutoMLの課題

AutoMLは時間と労力を節約しますが、計算負荷が大きくなる場合があります。ハイパーパラメータの調整やモデルの選択といった自動化タスクでは、複数の反復処理の実行や複数のモデルのトレーニングが必要になることが多く、高性能コンピューティングを利用できない小規模組織や個人にとっては課題となる可能性があります。

もう一つの課題は、カスタマイズの必要性です。AutoMLシステムは多くの状況で非常に効果的ですが、特定の要件をすぐに満たすとは限りません。自動化されたプロセスでは、特定のデータセットや問題の固有の側面を完全に捉えられない場合があります。ユーザーはワークフローの特定の部分を調整する必要がある場合があり、システムが十分な柔軟性を提供していない場合、またはユーザーが必要な専門知識を持っていない場合、これは困難になる可能性があります。

これらの課題にもかかわらず、AutoMLの利点は多くの場合、欠点を上回ります。生産性を大幅に向上させ、アクセシビリティを拡大し、より多くの人々が機械学習の力を活用できるようにするスケーラブルなソリューションを提供します（Feuer et al., Efficient and Robust Automated Machine Learning, 2015）。

3. AutoGloonライブラリによる数学的サポート

（1）オートグローン・アーキテクチャ

AutoGloonのアーキテクチャは、データの前処理からモデルのデプロイまで、機械学習ワークフロー全体を自動化するように設計されています。このアーキテクチャは、相互に接続された複数のモジュールで構成されており、各モジュールはプロセスの特定の段階を担当します。

最初のステップはデータモジュールです。これはデータの読み込みと前処理を行います。このモジュールは、データのクリーニング、欠損値の処理、分析に適した形式へのデータ変換などのタスクを処理します。例えば、欠損値を含むデータセットXを考えてみましょう。データモジュールは、平均値または中央値を用いてこれらの欠損値を推定できます。

 from sklearn.impute import SimpleImputer imputer = SimpleImputer(strategy='mean') X_imputed = imputer.fit_transform(X)

データの前処理が完了すると、特徴量エンジニアリングモジュールが処理を引き継ぎます。このコンポーネントは、新しい特徴量を生成したり、既存の特徴量を変換したりすることで、モデルの予測力を高めます。カテゴリ変数のワンホットエンコーディングや、数値データ用の多項式特徴量の作成といった手法が一般的です。例えば、カテゴリ変数のエンコーディングは次のようになります。

 from sklearn.preprocessing import OneHotEncoder encoder = OneHotEncoder() X_encoded = encoder.fit_transform(X)

AutoGloonの中核を成すのはモデルモジュールです。このモジュールには、決定木、ニューラルネットワーク、勾配ブースティングマシンといった幅広い機械学習アルゴリズムが含まれています。データセットを用いて複数のモデルを学習し、その性能を評価します。例えば、決定木は以下のように学習できます。

 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier() model.fit(X_train, y_train)

ハイパーパラメータ最適化モジュールは、各モデルに最適なハイパーパラメータを自動的に探索します。グリッドサーチ、ランダムサーチ、ベイズ最適化などの手法を使用します。ベイズ最適化については、Snoekらによる論文 (2012: https://arxiv.org/abs/1206.2944) で詳しく説明されており、探索プロセスを導くための確率モデルが確立されています。

 from skopt import BayesSearchCV search_space = {'max_depth': (1, 32)} bayes_search = BayesSearchCV(estimator=DecisionTreeClassifier(), search_spaces=search_space) bayes_search.fit(X_train, y_train)

トレーニング後、評価モジュールは精度、適合率、再現率、F1スコアなどの指標を用いてモデルのパフォーマンスを評価します。モデルが新しいデータに適切に一般化されることを確認するために、通常はクロスバリデーションが使用されます。

 from sklearn.model_selection import cross_val_score scores = cross_val_score(model, X, y, cv=5, scoring='accuracy') mean_score = scores.mean()

AutoGloonの統合モジュールは優れており、複数のモデルからの予測を組み合わせて、より正確な予測を生成します。スタッキング、バギング、ブレンディングといった手法を採用しています。例えば、バギングはBaggingClassifierを使って実行できます。

 from sklearn.ensemble import BaggingClassifier bagging = BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=10) bagging.fit(X_train, y_train)

最後に、デプロイメントモジュールは、最適なモデルまたは統合を本番環境にデプロイする役割を担います。これには、モデルのエクスポート、新しいデータに対する予測の生成、既存システムへのモデルの統合が含まれます。

 import joblib joblib.dump(bagging, 'model.pkl')

要約すると、これらのコンポーネントは連携して機械学習パイプラインを自動化し、ユーザーが高品質のモデルを迅速かつ効率的に構築および展開できるようにします。

（２）AutoGloonにおけるアンサンブル学習

アンサンブル学習はAutoGloonの重要な機能であり、高性能モデルの提供能力を高めます。複数のモデルを組み合わせることで、アンサンブル手法は予測の精度と堅牢性を向上させます。AutoGloonは、スタッキング、バギング、ミキシングという3つの主要なアンサンブル手法を活用しています。

スタッキング

スタッキングとは、複数のベースモデルを同じデータセットで学習させ、それらの予測結果をより高次のモデル（メタモデルと呼ばれることが多い）の入力特徴量として用いることです。このアプローチは、様々なアルゴリズムの長所を活用することで、アンサンブルによる予測精度の向上を可能にします。スタッキングのプロセスは、数学的に次のように表すことができます。

スタッキング式

ここで、h1はベースモデル、h2はメタモデルを表します。各ベースモデルh1は入力特徴量xiを受け取り、予測値を生成します。これらの予測値はメタモデルh2の入力特徴量として使用され、最終的な予測値y^が計算されます。異なるベースモデルの出力を組み合わせることで、スタッキングはデータ内のより幅広いパターンを捉えることができ、予測性能を向上させることができます。

袋詰め

バギング（ブートストラップ集約の略）は、同じモデルの複数のインスタンスを異なるデータのサブセットで学習させることで、モデルの安定性と精度を向上させます。これらのサブセットは、元のデータセットから要素をランダムにサンプリングし、置換することで作成されます。最終的な予測は通常、回帰タスクの場合はすべてのモデルの予測値を平均化することで、分類タスクの場合は多数決によって行われます。

数学的に言えば、バギングは次のように表すことができます。

回帰の場合:

バギング式における回帰

分類について：

袋詰めにおける分類

ここで、hiはデータの異なるサブセットで学習されたi番目のモデルを表します。回帰の場合、最終的な予測値y^は各モデルによる予測値の平均です。分類の場合、最終的な予測値y^はモデルによって最も頻繁に予測されるクラスです。

バギングによる分散低減効果は、大数の法則によって説明できます。大数の法則とは、複数のモデルからの予測値の平均が期待値に収束し、全体的な分散が低減し、予測の安定性が向上するというものです。これは以下のように説明できます。

バギングにおける分散の削減

データのさまざまなサブセットでトレーニングすることにより、バギングは過剰適合を減らし、モデルの一般化可能性を向上させるのにも役立ちます。

ミックス

ハイブリッドはスタッキングに似ていますが、実装がよりシンプルです。ハイブリッドでは、データはトレーニングセットと検証セットの2つの部分に分割されます。ベースモデルはトレーニングセットで学習され、検証セットでの予測値は最終モデル（ミキサーまたはメタ学習器とも呼ばれます）の学習に使用されます。ハイブリッドでは保持された検証セットを使用するため、実装が迅速になります。

 # 简单训练验证拆分的混合示例train_meta, val_meta, y_train_meta, y_val_meta = train_test_split(X, y, test_size=0.2) base_model_1.fit(train_meta, y_train_meta) base_model_2.fit(train_meta, y_train_meta) preds_1 = base_model_1.predict(val_meta) preds_2 = base_model_2.predict(val_meta) meta_features = np.column_stack((preds_1, preds_2)) meta_model.fit(meta_features, y_val_meta)

これらの技術により、最終的な予測がより正確かつ堅牢になり、複数のモデルの多様性と長所を活用して優れた結果が得られます。

（３）ハイパーパラメータ最適化

ハイパーパラメータ最適化とは、モデルのパフォーマンスを最大化するための最適な設定を見つけることです。AutoGloonは、ベイズ最適化、早期停止、インテリジェントなリソース割り当てなどの高度な手法を用いて、このプロセスを自動化します。

ベイズ最適化

ベイズ最適化は、目的関数の確率モデルを構築することで、最適なハイパーパラメータセットを見つけることを目的としています。過去の評価結果を用いて、次にどのハイパーパラメータを試すべきかについて、情報に基づいた判断を行います。これは、大規模で複雑なハイパーパラメータ空間を効率的に探索するのに特に役立ち、最適な構成を見つけるために必要な評価回数を削減します。

ベイズ最適化式

ここで、f(θ)はモデルの精度や損失値など、最適化の対象となる目的関数です。θはハイパーパラメータを表します。E[f(θ)]は、ハイパーパラメータθが与えられた場合の目的関数の期待値です。

ベイズ最適化には主に 2 つのステップが含まれます。

エージェントモデリング: 過去の評価に基づいて、目的関数を近似するための確率モデル (通常はガウス過程) が構築されます。
獲得関数：この関数は、探索（ハイパーパラメータ空間における新しい領域を試すこと）と開発（良好なパフォーマンスが知られている領域に焦点を当てること）のバランスを取り、次に評価するハイパーパラメータのセットを決定します。一般的な獲得関数には、期待改善度（EI）と上側信頼限界（UCB）があります。

グリッドまたはランダム検索方法と比較して、この最適化では、サロゲートモデルと取得関数を反復的に更新して、より少ない評価で最適なハイパーパラメータのセットに収束します。

早期停止技術

早期停止は、検証セットにおけるモデルのパフォーマンス向上が止まった時点で、過学習を防ぎ、トレーニング時間を短縮します。AutoGloonはトレーニング中にモデルのパフォーマンスを監視し、それ以上のトレーニングを行っても大幅な改善が見込めない場合はプロセスを停止します。この手法は、計算リソースを節約するだけでなく、モデルが新しい未知のデータに対して適切に一般化されることを保証します。

 from sklearn.model_selection import train_test_split from sklearn.metrics import log_loss X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2) model = DecisionTreeClassifier() best_loss = np.inf for epoch in range(100): model.fit(X_train, y_train) val_preds = model.predict(X_val) loss = log_loss(y_val, val_preds) if loss < best_loss: best_loss = loss else: break

資源配分戦略

ハイパーパラメータの最適化において、特に計算リソースが限られている場合は、効果的なリソース割り当てが不可欠です。AutoGloonは、高忠実度最適化などの戦略を採用しています。高忠実度最適化では、システムはまずデータのサブセットや少ない反復処理を用いてモデルを学習し、その潜在能力を迅速に評価します。その後、有望なモデルにより多くのリソースを割り当て、徹底的な評価を行います。このアプローチは、探索と開発のバランスを取り、計算リソースの効率的な利用を保証します。

多重忠実度最適化式

この式では、

hi は i 番目のモデルを表します。
Ci は、計算時間や使用されるリソースなど、モデル hi に関連付けられたコストです。
リソース(hi)は、モデルhiに割り当てられた合計リソースの割合を表します。

高忠実度最適化は、最初に忠実度を低く（例えば、データポイントや反復回数を少なく）してモデルを学習させることで、有望な候補を迅速に特定することができます。これらの候補はその後、より高い忠実度で学習され、計算リソースの効率的な利用が保証されます。このアプローチは、ハイパーパラメータ空間の探索と既知の良好な設定の利用のバランスをとることで、効率的かつ効果的なハイパーパラメータ最適化を実現します。

（4）モデルの評価と選択

モデルの評価と選択により、選択されたモデルが新しい未知のデータに対して優れたパフォーマンスを発揮することが保証されます。AutoGloonは、クロスバリデーション、パフォーマンスメトリクス、そして自動化されたモデル選択基準を用いて、このプロセスを自動化します。

クロスバリデーション技術

クロスバリデーションでは、データを複数のサブセットに分割し、異なるサブセットでモデルをトレーニングし、残りのサブセットで検証を行います。AutoGloonは、k分割クロスバリデーションなどの手法を用いてデータをk個のサブセットに分割し、毎回異なるサブセットを検証セットとして用いて、モデルのトレーニングと検証をk回行います。これにより、モデルのパフォーマンスに関する信頼性の高い推定値が得られ、特定のトレーニングとテストの分割によって評価が偏らないことが保証されます。

クロスバリデーション精度の式

パフォーマンス指標

AutoGloonは、モデルの品質を評価するために、個々のタスクに応じて異なる様々なパフォーマンス指標を活用します。分類タスクでは、精度、適合率、再現率、F1スコア、ROC曲線下面積（AUC-ROC）などが一般的な指標として用いられます。回帰タスクでは、平均絶対誤差（MAE）、平均二乗誤差（MSE）、決定係数（R-squared）などが一般的に用いられます。AutoGloonは、評価プロセス中にこれらの指標を自動的に計算し、モデルの長所と短所を包括的に把握できるようにします。

 from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score y_pred = model.predict(X_val) accuracy = accuracy_score(y_val, y_pred) precision = precision_score(y_val, y_pred) recall = recall_score(y_val, y_pred) f1 = f1_score(y_val, y_pred)

自動モデル選択基準

AutoGloonはモデルを評価した後、自動化された基準を用いて最適なパフォーマンスを発揮するモデルを選択します。これには、複数のモデルのパフォーマンス指標を比較し、タスクに最も関連性の高い指標において最も優れたパフォーマンスを発揮するモデルを選択することが含まれます。AutoGloonは、モデルの複雑さ、トレーニング時間、リソース効率といった要素も考慮します。この自動化されたモデル選択プロセスにより、選択されたモデルは優れたパフォーマンスを発揮するだけでなく、実際のシナリオでの導入と使用にも実用的であることが保証されます。AutoGloonは自動選択を通じて人間のバイアスを排除し、一貫性と客観性に基づいて最適なモデルを選択します。

best_model = max(モデル、キー=lambdaモデル: model['score'])

4. PythonベースのAutoGloonサンプルプロジェクト

AutoGloonを使い始める前に、開発環境をセットアップする必要があります。これには、必要なライブラリと依存関係のインストールが含まれます。

AutoGloonはpipを使ってインストールできます。ターミナルまたはコマンドプロンプトを開き、以下のコマンドを実行するだけです。

 pip install autogluon

このコマンドは、AutoGloon と必要な依存関係をインストールします。

次に、データをダウンロードする必要があります。この記事で提供されているサンプルデータセットをダウンロードするには、Kaggleをインストールする必要があります。

 pip install kaggle

インストール後、ターミナルで以下のコマンドを実行してデータセットをダウンロードしてください。.pyファイルと同じディレクトリにいることを確認してください。

 mkdir data cd data kaggle competitions download -c playground-series-s4e6 unzip "Academic Succession/playground-series-s4e6.zip"

あるいは、最近のKaggleコンペティション「学業成績データセットに基づく分類」からデータセットを手動でダウンロードすることもできます。このデータセットは商用利用において無料でご利用いただけます（https://creativecommons.org/licenses/by/4.0/）。

環境がセットアップされたら、AutoGloonを使って機械学習モデルを構築・評価できます。まず、データセットを読み込んで準備する必要があります。AutoGloonを使えば、このプロセスはシンプルかつ簡単に行えます。例えば、トレーニングデータを含むtrain.CSVというCSVファイルがあるとします。

 from autogluon.tabular import TabularDataset, TabularPredictor # 加载数据集train_df = TabularDataset('data/train.csv')

データをロードしたら、AutoGloonを使用してモデルを学習できます。この例では、「target」というターゲット変数を予測するようにモデルを学習し、評価指標として精度を使用します。また、モデルのパフォーマンスを向上させるために、ハイパーパラメータ調整と自動スタッキングを有効にします。

 # 训练模型predictor = TabularPredictor( label='Target', eval_metric='accuracy', verbosity=1 ).fit( train_df, presets=['best_quality'], hyperparameter_tune=True, auto_stack=True )

トレーニング後、リーダーボードを使用してモデルのパフォーマンスを評価できます。リーダーボードには、トレーニングデータに対するモデルのパフォーマンスの概要が表示されます。

 #评估模型leaderboard = predictor.leaderboard(train_df, silent=True) print(leaderboard)

リーダーボードには、AutoGloon によってトレーニングされたすべてのモデルの詳細な比較が表示されます。

ここで、上の表の主要な列とその意味を詳しく説明しましょう。

モデル: この列にはモデル名がリストされます。例えば、RandomForestEntr_BAG_L1 は、エントロピーを基準とし、レベル1でパッケージ化されたランダムフォレストモデルを指します。
score_test: データセットにおけるモデルの精度を表示します。スコアが1.00の場合、一部のモデルは完全な精度を持っていることを示します。名前とは異なり、score_testはトレーニング中に使用されるトレーニングデータセットです。
score_val: 検証データセットにおけるモデルの精度を示します。これは、未知のデータに対するモデルのパフォーマンスを示しているため、この点に注意してください。
eval_metric: 使用される評価メトリック (この例では、精度)。
pred_time_test: テストデータの予測に費やされた時間。
pred_time_val: 検証データの予測に費やされた時間。
fit_time: モデルのトレーニングに費やされた時間。
pred_time_test_marginal: テストデータセットのセット内のモデルによって追加された追加の予測時間。
pred_time_val_marginal: 検証データセットのセット内のモデルによって追加された追加の予測時間。
fit_time_marginal: セット内のモデルに追加された追加のトレーニング時間。
stack_level: モデルのスタッキングレベルを示します。レベル1モデルはベースモデルであり、レベル2モデルはレベル1モデルの予測値を特徴量として使用するメタモデルです。
can_infer: モデルを推論に使用できるかどうかを示します。
fit_order: モデルをトレーニングする順序。

提供されたリーダーボードデータを見ると、RandomForestEntr_BAG_L1やRandomForest Gini_BAG_Lなどのモデルは、トレーニング精度は完璧（1,000,000）であるものの、検証精度がわずかに低く、オーバーフィッティングの可能性を示唆していることがわかります。WeightedEnsemble_L2はレベル1モデルの予測値を組み合わせ、ベースモデルの強度とバランスをとることで、通常、良好なパフォーマンスを示しています。

LightGBMLarge_BAG_L1 や XGBoost_BAG_L1 などのモデルは、競争力のある検証スコアと妥当なトレーニングおよび予測時間を備えているため、最終的な展開の有力な候補となります。

fit_time 列と pred_time 列は、実際のアプリケーションにとって非常に重要な、各モデルの計算効率に関する詳細な情報を提供します。

AutoGloon は、リーダーボードに加えて、トレーニングプロセスをカスタマイズしたり、不均衡なデータセットを処理したり、ハイパーパラメータの調整を実行したりできる高度な機能を提供します。

フィッティング手法のパラメータを調整することで、トレーニングプロセスのさまざまな側面をカスタマイズできます。例えば、トレーニングの反復回数を変更したり、使用するアルゴリズムを指定したり、各アルゴリズムにカスタムハイパーパラメータを設定したりできます。

 from autogluon.tabular import TabularPredictor, TabularDataset # 加载数据集train_df = TabularDataset('train.csv') #定义自制超级参数hyperparameters = { 'GBM': {'num_boost_round': 200}, 'NN': {'epochs': 10}, 'RF': {'n_estimators': 100}, } # 使用定制设置训练模型predictor = TabularPredictor( label='Target', eval_metric='accuracy', verbosity=2 ).fit( train_data=train_df, hyperparameters=hyperparameters )

不均衡なデータセットは扱いが難しい場合がありますが、AutoGloonはそれらを効果的に処理するためのツールを提供します。少数クラスのオーバーサンプリング、多数クラスのアンダーサンプリング、コスト重視の学習アルゴリズムの適用といった手法が利用可能です。AutoGloonはデータセット内の不均衡を自動的に検出し、処理します。

 from autogluon.tabular import TabularPredictor, TabularDataset #加载数据集train_df = TabularDataset('train.csv') #通过指定自定义参数处理不平衡的数据集#AutoGloon可以在内部处理此问题，但为了清楚起见，在此处指定hyperparameters = { 'RF': {'n_estimators': 100, 'class_weight': 'balanced'}, 'GBM': {'num_boost_round': 200, 'scale_pos_weight': 2}, } # 使用处理不平衡的设置来训练模型predictor = TabularPredictor( label='Target', eval_metric='accuracy', verbosity=2 ).fit( train_data=train_df, hyperparameters=hyperparameters )

ハイパーパラメータの調整は、モデルのパフォーマンスを最適化する上で不可欠です。AutoGloonは、ベイズ最適化などの高度な手法を用いてこのプロセスを自動化します。フィッティングメソッドで「hyperparameter_tune=True」を設定することで、ハイパーパラメータの調整を有効にすることができます。

 from autogluon.tabular import TabularPredictor, TabularDataset # 加载数据集train_df = TabularDataset('train.csv') # 使用超参数优化训练模型predictor = TabularPredictor( label='Target', eval_metric='accuracy', verbosity=2 ).fit( train_data=train_df, presets=['best_quality'], hyperparameter_tune=True )

AutoMLモデルを超える可能性

上記でAutoGloonライブラリについて学んだので、AutoMLモデルをさらに発展させる方法を探ってみましょう。レイテンシ、計算コスト、その他の指標ではなく、損失指標の改善を主な目標としましょう。

ディープラーニングに適した大規模なデータセットをお持ちであれば、ディープラーニングアーキテクチャの実験が容易になるでしょう。AutoMLフレームワークは、ディープラーニングではデータセットの深い理解が必要であり、モデルを盲目的に適用すると膨大な時間とリソースを消費するため、この分野ではしばしば課題となります。ディープラーニングを始める際に役立つリソースをいくつかご紹介します。

*ニューラルネットワークの数学*：本書は、現代の人工知能の基盤であるニューラルネットワークを深く掘り下げ、その数学的側面を探求し、ゼロから実装し、その応用例を探ります。記事のアドレス：
https://towardsdatascience.com/the-math-behind-neural-networks-a34a51b93873
「ファインチューニングされたディープニューラルネットワークの背後にある数学」：本書では、ニューラルネットワークのファインチューニング技術、その数学的考察、ゼロからの構築、そしてその応用例を深く掘り下げています。記事へのリンク：https://towardsdatascience.com/the-math-behind-fine-tuning-deep-neural-networks-8138d548da69
「LSTMを支える数学」：LSTMを深く掘り下げ、その数学を理解し、ゼロから実装します。記事へのリンク：https://towardsdatascience.com/the-math-behind-lstm-9069b835289d

然而，真正的挑战在于用传统的机器学习任务击败AutoML。AutoML系统通常使用集成技术，这意味着你最终可能会做同样的事情。一个好的开始策略可以是首先拟合一个AutoML模型。例如，使用AutoGloon，你可以确定哪些模型表现最好。然后，你可以采用这些模型，重新创建AutoGloon使用的集成架构。通过使用Optuna等技术进一步优化这些模型，你可能获得更好的性能。以下是掌握Optuna的全面指南：

《Optuna的机器学习优化》：介绍如何在Python中微调每个机器学习算法。Optuna机器学习优化的终极指南，实现卓越的模型性能。文章地址：https://towardsdatascience.com/machine-learning-optimization-with-optuna-57593d700e52

此外，将领域知识应用于特征工程可以为你提供优势。了解数据的细节可以帮助你创建更有意义的功能，从而显著提高模型的性能。如果可行，请扩充数据集以提供更多不同的训练示例，这有助于提高模型的稳健性。

通过将上述这些策略与从初始AutoML模型中获得的见解相结合，你就可以超越自动化方法并获得更为卓越的训练结果。

結論は

AutoGloon通过自动化从数据预处理到模型部署的一切，彻底改变了ML过程。其尖端的架构、强大的集成学习技术和复杂的超参数优化使其成为机器学习新手和经验丰富的数据科学家不可或缺的工具。借助于AutoGloon，你可以将复杂、耗时的任务转换为简化的工作流程，使你能够以前所未有的速度和效率构建顶级模型。

然而，要想真正在机器学习中脱颖而出，就不能仅仅依赖AutoGloon。将其作为启动项目的基础，并深入了解有效的模型策略。然后，以此为基础，深入了解你的数据，并将领域知识应用于功能工程。最后，尝试自定义模型，还要尝试在AutoGloon的初始产品之外对其进行微调。

参考文献

Erickson，N.、Mueller，J.、Charpentier，P.、Kornblith，S.、Weissenborn，D.、Norris，E.…和Smola，A.(2020)。《AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data》。arXiv预印本arXiv:2003.0605。
Snoek，J.、Larochelle，H.和Adams，RP(2012)。《机器学习算法的实用贝叶斯优化》。Advances in neural information processing systems，25。
Pedregosa，F.，Varoquex，G.，Gramfort，A.，Michel，V.，Thirion，B.，Grisel，O.，…和Duchesnay，É。(2011)。《Scikit学习：Python中的机器学习》。Journal of machine learning research，12(10月)，2825–2830。
AutoGloon团队。《AutoGluon: AutoML for Text, Image, and Tabular Data》，2020。
Feuer，Matthias等，《Efficient and Robust Automated Machine Learning》，2015年。
何，辛，等。《AutoML: A Survey of the State-of-the-Art》。2020。
Hutter，Frank等人，《Automated Machine Learning: Methods, Systems, Challenges》，2019年。
H2O.ai，《H2O AutoML: Scalable Automatic Machine Learning》，2020年。

翻訳者紹介

朱先忠，51CTO社区编辑，51CTO专家博客、讲师，潍坊一所高校计算机教师，自由编程界老兵一枚。

原文标题：AutoML with AutoGluon: ML workflow with Just Four Lines of Code,作者：Cristian Leo

链接：https://towardsdatascience.com/automl-with-autogluon-transform-your-ml-workflow-with-just-four-lines-of-code-1d4b593be129。

AIGC の詳細については、以下をご覧ください。

51CTO AI.x コミュニティ

https://www..com/aigc/

DUICUO