キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

100%モデルへの再トレーニングについて

Soi
青色LED
スモールデータをホールドアウトなし、CV=10でオートパイロットし、最も精度が良いモデルで100%モデルへの再トレーニングを行う場合の質問です。 ①サンプルサイズ=100.0%の場合、画面に表示される交差検定スコアとはどういう意味でしょうか?100%モデルは交差検定なしでモデルを構築しているのではないでしょうか? ②CV=10の交差検定で精度が良かったモデルが、100%サンプルサイズになることで精度がぐっと悪化する場合があります。このように、CVでは精度が良かったが100%では精度が悪いモデルと、CVでは精度そこそこだが100%では精度が最も高いモデルとでは、どちらを採用すべきでしょうか?
0 件の賞賛
1件の返信1
Isao
データサイエンティスト
データサイエンティスト

ご質問ありがとうございます。

まず、大前提としては100%モデルの精度は「 *(アスタリスク) 」付きの参考スコアであり、通常のモデルの精度スコアと比較しないで頂く性質のものになります。その為、再トレーニング前のモデルにて「*」のついていない、通常の交差検定の精度スコアで評価して頂くのが原則です。以下、ご回答です。

①ご理解の通り、100%モデルは交差検定を行うデータが残っていませんので、100%モデルの精度ではありません。100%モデルでチューニングされたハイパーパラメータを用いて、80%のモデルを構築し直して交差検定を行い、そのスコアを参考に表示します。しかし、交差検定のパーティションは通常のモデルと異なりますので、繰り返しですが精度の評価はできません。

②前述の通り、100%モデルはそもそも精度を評価出来ませんので、悪化して見えたとしてもCV=10の交差検定の精度スコアが良かったモデルを100%まで引き上げたモデルを採用するのが通常の選択肢になります。ただし、あまりに極端に悪化して気になる場合には、CV=10の交差検定スコアに極端にオーバーフィットしている可能性を検証した方が良いかもしれません。その場合、以下のような確認手段が取れます。

・交差検定モデルのホールドアウトのスコアの確認

・予測タブからトレーニングデータのダウンロードを行い、データのパーティションを確認し、極端なデータが検定データやホールドアウトに割り振られていないかを確認

・高度なオプションからランダムシードを変更し、違う組み合わせでCV=10の交差検定のスコアを確認

ご参考になりましたら幸いです。