回帰問題でモデルを作成し「すべてのデータ」で予測結果をダウンロードした時、 その結果ファイルを取り出して手動でRMSEを計算した場合に 交差検定の値がパーティション0~4の平均値と一致しない状態になっています。 なお、「検定」「ホールドアウト」のRMSEの値は手動計算と一致しています。 交差検定の計算時に何か特殊な計算方法がとられているのでしょうか?
解決済! 解決策の投稿を見る。
「すべてのデータ」の場合、トレーニング、検定、およびホールドアウトパーティションに対してスタックされた予測を行って演算されます。 スタックされた予測では、データの様々な複数のサブセット上に複数のモデルを構築します。行の予測は、そのデータをトレーニングから除外したモデルを使用して作成されます。この方法により、各予測は効果的に「アウトオブサンプル」予測になります。 ですので、「すべてのデータ」の予測結果は各パーティションが検定時の予測を出しているわけではなく、交差検定値を出すことはできません。 DataRobotのドキュメントで「元のデータセットで予測を作成する」をサーチしてみてください。もし見つからなければデプロイのバッチ予測を探していただくと上に書いたことがより詳細に紹介されております。 英語のサイトになりますが、こちらも分かりやすいです。