キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

特徴量の作用の縦軸(特に部分依存)の質問

NKJ
青色LED

特徴量の作用の縦軸(特に部分依存)の質問

自身の理解の確認のために質問させてください。
特徴量の作用の部分依存の確率値を全特徴量で合計すれば予測値になるという事であってるかを確認したいです。

特徴量の作用の部分依存について下記のブログなどで計算の概要などは概ね把握しています。
他の特徴量の数値は元のデータのままで、興味のある特徴量の数値を全て特定の値に変えた時の予測の平均値という理解です。

https://www.datarobot.com/jp/blog/2018-02-15-modelxray/

このブログの結果を例にすると、年収入が40000だと確率値的には19%ぐらいになっていると思います。
同様に、他の特徴量でローン額がXXX万だと部分依存の確率値がYY%等、わかると思いますが、
以下の様に考えて問題ないのでしょうか。

質問1.
年収入40,000でローン額がXXX万の際のデータを予測させた際の
該当モデルの予測値は、19% + YY% になるか?
※他の特徴量も実際にはあるかとは思いますが、一旦、2変数だけで書いています。

あくまで部分依存の確率値は平均値だから上記のようにならないですかね?
むしろ上記の計算式は部分依存の確率を利用するのではなくて水色線の予測値になるのでしょうか。

ちょっとモヤモヤしている部分なので、ご回答いただけると嬉しいです。

0 件の賞賛
1件の返信1
Shogo Nagano
データサイエンティスト
データサイエンティスト

NKJさん
ご質問ありがとうございます。特徴量の部分依存の内容はご認識の通りです。
特徴量の作用の部分依存について下記のブログなどで計算の概要などは概ね把握しています。他の特徴量の数値は元のデータのままで、興味のある特徴量の数値を全て特定の値に変えた時の予測の平均値という理解です。
結論から申し上げるとNKJさんの仰っている方法は成立しません。理由としてはご認識の通り、部分依存が予測値の平均値を出力しているのに対して「年収入40,000でローン額がXXX万の際のデータを予測させた」場合は、1レコードの予測値であることや、他の説明変数の情報を踏まえていない点が挙げられます(「年収とローン額以外の説明変数を変更しても予測値が変わらない」と問題の内容を捉え直すと違和感を感じていただけるのではないでしょうか)。また、同様の理由で、「水色線の予測値」の結果とも一致しません(水色線の予測値とは年収入とローン額以外の入力データが違うためです)。
 
では、「特徴量の作用の部分依存の確率値を全特徴量で合計すれば予測値になるか」というとこちらも、成立しません。簡単に説明させていただくと「ある特徴量を固定した場合の全特徴量分の合計の予測値」が「全特徴量を固定した場合の予測値」と一緒ではないからです。参考までに簡単な1つ例を挙げさせていただきます。
 
年収入ローン額貸し倒れ
1000030000.1
100003000 0.1
 
このように同じレコード2つから構成されるテーブルを用意します。年収入を10000で固定して部分依存の結果を確認すると貸し倒れは(当たり前ですが)0.1になります。ローン額を3000に固定しても同様に0.1です。全特徴量(年収入とローン額)の部分依存の合計は0.2となりますが、年収入に10000、ローン額に3000を入力した際の予測値は0.1です。
 
ご回答になっていますでしょうか。追加のご質問や疑問点等ございましたらお気軽にお伝えください。
0 件の賞賛