スマートダウンサンプリング利用時の加重AUCの計算ロジックについて教えて頂けますでしょうか。
解決済! 解決策の投稿を見る。
ご質問ありがとうございます。
加重AUCは、scikit-learnのライブラリの定義に従い計算されており、(通常の)AUCと計算ロジックは同様です。
ROC曲線は各閾値においてY軸の真陽性率とX軸の偽陽性率がどれだけ異なるかを示しており、ROC曲線の下の領域の面積割合がAUCとなります。
スマートダウンサンプリングにより、プロジェクト全体で加重したモデルが作成されており、それに伴い、加重AUCとの表現となっております。
(参照)DataRobot製品マニュアル - 最適化指標 - AUC/加重AUC
https://app.datarobot.com/docs-jp/modeling/reference/model-detail/opt-metric.html#aucweighted-auc
(補足①)スマートダウンサンプリング時のウェイト設定
二値分類でのスマートダウンサンプリングにおいては、少数クラスのウェイトは常に1で、多数クラスのウェイトはダウンサンプリング割合の逆数(1÷ダウンサンプリング割合)が設定されます。(Version 6.3以降での定義です。)
(補足②)各種加重指標の考え方
全体のウェイト相対から大きな値が付いているウェイトをその値に比例して重要視する(複数回そのデータが出現するように扱う)イメージです。
ご回答ありがとうございます!
加重AUCは、scikit-learnのライブラリの定義に従い計算されており、(通常の)AUCと計算ロジックは同様です。
ROC曲線は各閾値においてY軸の真陽性率とX軸の偽陽性率がどれだけ異なるかを示しており、ROC曲線の下の領域の面積割合がAUCとなります。
スマートダウンサンプリングにより、プロジェクト全体で加重したモデルが作成されており、それに伴い、加重AUCとの表現となっております。
こちら承知しました。計算内容は通常のAUCですが、ダウンサンプリングされたモデルを使用しているので、表現上、”加重”AUC としているということなのですね。
こちら大変参考になります。
ありがとうございました。