キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

特徴量ごとの作用 部分依存と予測の関係

ima
青色LED

特徴量ごとの作用 部分依存と予測の関係

特徴量ごとの作用の結果、「部分依存」が右肩下がりのグラフ、「予測」が右肩上がり(傾きが逆)のグラフが出る場合があります。

このようなケースで、特に特徴量インパクトが高いケースにおいて、他者への予測要因を説明しなくてはいけない場合、皆さんはどうしていますでしょうか。

自分の場合だと、要因説明は「部分依存」と「予測」が同じ傾向を持つ特徴量に絞って説明を行い、傾きが逆のものは説明から省くようなことをしています。

良い方法があれば教えてください。

0 件の賞賛
2件の返信2
Kei
データサイエンティスト
データサイエンティスト

@ima -san, 例えば、下記のようなケースでしょうか?おそらく多くのケースで、予測値だけではなく、そのような場合は実測値も逆になっているかと思います。

Kei_0-1606917796218.png

 

この現象は、特徴量間で相関が強い特徴量が存在し(これを多重共線性といいます)、またその特徴量の説明力が強い場合に生じます。

少しややこしいですが、下記が数値例です。(ターゲットには若干ノイズをのせております)

 

Kei_1-1606918468398.png

 

精度重視の場合、交差検定で良いスコアが出ていればそのままでも良いのですが、説明が求められる場合、おっしゃる通り困りますよね。大きく2つの選択肢が思いつきます。

1. 関連する特徴量を1つに残す

関連する特徴量を1つに残します。特徴量の選定はcase by caseで、特徴量のインパクトの上位を残すことや、業務知見を活用してActionに落としやすい特徴量を残したり、主原因となる特徴量を残すこともあります。なお、関連する特徴量は「特徴量の関連性」から探していただくと効率的です。

スクリーンショット 2020-12-02 午後11.35.22.png

2. 新しい特徴量を作成する

主成分分析などを使って新しい特徴量を作成する方法もあります。

こちらは新しい特徴量の説明が少し複雑になる場合があることや、シンプルに既存特徴量を削減する方が早いため、まずは特徴量を削減してみて所望の精度になっているか確認し、所望の精度になっていれば特徴量をシンプルに削減する方法を取るケースが多いです。

 

 

 

 

原因と対策まで回答いただきありがとうございます。

今対応しているケースですと説明を求められますので、特徴量を減らす方向で対応していこうと思います。