キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

「指標R2」と「評価>残差>精度パラメータのR2」との違いについて

doi
青色LED

「指標R2」と「評価>残差>精度パラメータのR2」との違いについて

下記DataRobotの出力ですが、2つの緑枠のcv R2が違う理由を教えて頂きたいです。

各定義が異なる場合は、簡単にご説明頂けると幸いです。

MicrosoftTeams-image.png

0 件の賞賛
3件の返信3
mitsuo
データサイエンティスト
データサイエンティスト

ご質問いただきありがとうございます。
「指標R2」と「評価>残差>精度パラメータのR2」それぞれの定義に違いはありません。

ただし、グラフの方はチャートを描くために1000サンプルで描画しているため、
異なる結果が表示されているかと思われまれます。

0 件の賞賛
doi
青色LED

ご回答いただきありがとうございます。

サンプルサイズが1000以上の場合、グラフの方は1000サンプルに限定されたR2が表示されるため、「指標R2」と「グラフR2」との結果が異なると理解しました。

しかし、サンプルサイズが1000以下の場合でもR2の数値が異なることを確認しています。

このことから、サンプルサイズの大小にかかわらずCVのスコアが変化する理由は「CV平均」と「OOF」の差と考察しました。

これについてご意見お聞かせください。

0 件の賞賛
YasunariN
データサイエンティスト
データサイエンティスト

@doi 様、ご質問ありがとうございます。リーダーボードのR Squaredと、残差のr^2の計算方法は以下になります。

  • リーダーボードのR Squared: 1つのCVフォールドごとに計算され、その後5つのフォールドで平均化されたもの
  • 残差のr^2: すべての学習データ(または1000レコードのサンプル)に対してそのCV予測値と実測値で計算されたもの

上記のように算出方法が異なるため、同じ「交差検定」のスコアでもリーダーボードと残差で異なっております。

また、残差タブでは計算は最高1000レコードで行われますが、プロットには500レコードしか表示されません。その理由は、「限られたRAMおよび/または古いCPUを持つクライアントでは、残差チャートが完全なデータセットをレンダリングするのに許容できないほど長い時間がかかる」ためです。エクスポートには同じ500レコードが含まれます。