数値予測では、学習データとして登録された情報から、
特徴量の有効性を算出していると認識しております。
下図の様に過去分しか存在しない「在庫数」、「入荷数」は、
学習データとしては高い有用性になると思われますが、
予測データには入力出来ない値のため、予測自体にはあまり有効性ではないと考えております。
この様な過去値しか存在しないデータは特徴量に含めるべきでは無いと
考えておりますが、認識は合っておりますでしょうか?
※前月値や前年値等の様に過去値として加工使用する場合は有用と考えております
学習データ
予測データ
時系列予測とした場合、在庫数や入荷数が学習データにのみある場合、
予測精度に寄与する値となりますでしょうか?
※在庫数や入荷数の派生を禁止した場合
解決済! 解決策の投稿を見る。
DataRobotの畑です。ご質問ありがとうございます。
予測ターゲットが何かによって回答が変わりますので、恐れ入りますがご質問の例では何を予測するケースを想定されているでしょうか?ご記載いただいた図にあるように販売数でしょうか?
ご回答いただきまして誠にありがとうございます。
>ご記載いただいた図にあるように販売数でしょうか?
ご認識のとおり、「販売数(ターゲット)」の列になります。
ご教示いただけますと幸いです。
ご返答ありがとうございます。
学習データにしかない特徴量を含めるかについて
1. 一般的な回答
2. 記載いただいたデータに対して
のそれぞれについて回答したいと思います。
1. 一般的な回答
時系列予測を使うのであれば、過去にしか存在しないデータは特徴量に含めても構いません。
時系列モデリングでは、過去x日のデータを使って将来のy日の予測を行う機能であるためです。
例えば、翌日から1週間後の予測したいとき、それ以前の(1ヶ月前や、1週間前、1日前)の数値データとの関係をDataRobotでは探索し、モデルを構築します。
コミュニティのこちらのドキュメントが詳しいです。
平均値などの派生特徴量が生成されると思いますが、派生特徴量を除いても単純にn日前のデータを活用しますので、含めることは一般的に問題ないと思います。
当然ですが、予測を行う際には学習に利用したデータ全てを利用して計算を行う必要があります。
2. 記載いただいたデータに対して
k-araiさんの想定する状況については考える必要があると思います。
在庫数と入荷数は、おそらく直近の販売数(ターゲット)によって決まっていると考えられます。
そのため、学習データとして予測精度に寄与するのかについては、因果関係が逆転しており、あまり有用でない可能性があります。
ただ、実際にやってみるまで有用かどうかの結果は分からないので、特徴量を含んだ場合と含んでない場合の両方でモデリングしてみて、精度と解釈を見てどちらが今の問題にとって適切か判断いただければと思います。
さらに詳細を実データを元に議論したいのであれば、担当のCFDSにぜひお問い合わせください。
ご教示いただきました内容で検討/実施を進めていこうと思います。
ご回答いただきまして、誠にありがとうございました。