ハイパーパラメータ最適化においてDataRobotで使用されるアプローチはほとんどの場合で十分ですが、DataRobotのAutopilotモデリングプロセスをさらに拡張して、カスタムチューニング方法を構築することもできます。このAIアクセラレーターでは、DataRobotの細かいチューニングAPIを使ってDataRobotのパターン検索アプローチを制御する方法を学びます。また、XGBoostモデルのテキストおよびカテゴリカルデータパイプラインおよびハイパーパラメータに対する改良されたブルートフォース・グリッドサーチを実装する方法も学びます。このノートブックは、DataRobotのAutopilotプロセス以外のチューニング手法を構築するための導入学習例として機能します。例えば、ベイジアン最適化はハイパーパラメータ空間を効率的に探索し、最適な解に収束する確率的モデルを利用します。これは次のアクセラレーターで紹介されます。
なお、ハイパーパラメータの最適化を行う前には、すでにモデリングの際に必要な以下の要素が確定されていることが重要です:
- トレーニングデータ(例:使用するデータソース)
- モデル検証方法(例:グループクロスバリデーション、ランダムクロスバリデーション、バックテスティング。問題の定義はエラー最小化の戦略に影響を与えるため、重要です。)
- 特徴エンジニアリング(特に、専門知識を活かした計算)
- 前処理とデータ変換(例:単語や文字のトークナイザ、PCA、埋め込み、正規化など)
- 使用するアルゴリズムの種類(例:GLM、ツリーベース、ニューラルネット)
これらの要素は、特にDataRobotを使用する場合(自動的に選択されるハイパーパラメータが競争力があるため)、機械学習アルゴリズムのハイパーパラメータを調整することよりも、モデルのパフォーマンスに大きな影響を与える傾向があります。
このアクセラレータについて
このAIアクセラレーターでは、前処理とモデルハイパーパラメータのブループリントにアクセスし、理解し、チューニングする方法を学びます。DataRobotの高度なチューニングをプログラム的に操作し、他のプロジェクトに適用する方法を学びます。
学習内容
- DataRobot APIを介してモデルをチューニングするための準備
- チューニングのためのプロジェクトとモデルのロード
- エラーを最小限に抑えるための検証タイプの設定
- モデルメタデータの抽出
- モデルパフォーマンスの取得
- ハイパーパラメータの確認
- 単一の高度なチューニングセッションの実行
- 単一および複数のモデルに対するカスタムグリッドサーチの実装と評価