キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

特徴量有用性 / 特徴量インパクトがマイナスになった特徴量の対処について

k-arai
NiCdバッテリー

特徴量有用性 / 特徴量インパクトがマイナスになった特徴量の対処について

お世話になります。

 

プロジェクトの特徴量有用性について、
有用性にマイナスがついた場合の対応として、精度を向上させる対応として正しい対応は下記のいずれになりますでしょうか?

 1. 有用性がマイナスのデータを除去
 2. 有用性がマイナスのデータを加工して使用
  → 特徴量が負の相関関係の場合

 

また、予測時のモデルの特徴量のインパクトについて、
インパクト値にマイナスがついた場合の対応として、精度を向上させる対応として正しい対応は下記のいずれになりますでしょうか?

 1. インパクト値がマイナスのデータを除去
 2. インパクト値がマイナスのデータを加工して使用
  → 特徴量が負の相関関係の場合

 

ご教授いただければ幸いです。

ラベル(3)
2件の返信2
mitsuo
データサイエンティスト
データサイエンティスト

プロジェクトの特徴量有用性について、
有用性にマイナスがついた場合の対応として、精度を向上させる対応として正しい対応は下記のいずれになりますでしょうか?

 1. 有用性がマイナスのデータを除去
 2. 有用性がマイナスのデータを加工して使用
  → 特徴量が負の相関関係の場合

特徴量の有用性はその特徴量だけを使用してターゲットを予測するシンプルなモデルの予測能力の指標を示します。本指標は「交替条件付き期待値(ACE)」に基づいて算出されており、有用性の値の解釈の方法は以下となります。
--------
Normalized Value:正規化されたValue。1までのスコア(スコアが高いほど良い)。
0は、精度がトレーニングターゲットの平均を予測することと同じであることを意味します。スコアが0未満の場合は、ACEモデルの予測がターゲットの平均モデルよりも劣っていること(過剰適合)を意味します。
--------
一方で、自動特徴量生成工程では、有用性がマイナスの特徴量と他の特徴量を組み合わせ生成した特徴量が有用になる場合や、また、ツリー系のモデルにおいて、他の特徴量も踏まえて新たな有効なパターンを見つけてくれる可能性もあります。
このことから、よっぽど特徴量が多い場合を除いて、特徴量の有用性を見て特徴量を削減することは行わず、モデル作成後の特徴量のインパクトを見て特徴量を削減することをおすすめします。

(ご参考1)

また、予測時のモデルの特徴量のインパクトについて、
インパクト値にマイナスがついた場合の対応として、精度を向上させる対応として正しい対応は下記のいずれになりますでしょうか?

 1. インパクト値がマイナスのデータを除去
 2. インパクト値がマイナスのデータを加工して使用
  → 特徴量が負の相関関係の場合

 

ご教授いただければ幸いです。



特徴量のインパクトがマイナスになるケースは、特徴量に含まれるランダムノイズが原因です。特に特徴量がアンバランスになるデータでは、大部分のインパクトが負になるケースもあります。よって、インパクト値がマイナスの特徴量は1.の通り、除去を検討してください。

(ご参考2)
 
以上です。
0 件の賞賛
k-arai
NiCdバッテリー

ご回答いただきまして誠にありがとうございます。

 

複数のモデルで共通してインパクトがマイナスとなっている特徴量について、

削減を検討したいと思います。

 

大変参考となりました。

ありがとうございました。