例えば自社の売上データが4エリアにしか分類できないとき、たくさんある気象台ごとのデータを集計するオススメの方法などございますでしょうか。
4エリアに含まれる気象台データの平均ととる、とか4エリアの主要地点(東京とか大阪)のデータを採用するとか。
もしその方法を選択するプロセスみたいなものがあれば共有いただきたいです。
解決済! 解決策の投稿を見る。
これは売上データを予測する問題との認識であってますでしょうか?なんの売上であったり、日付の粒度がわからない状態だと的外れなコメントになるかもしれませんが、
ドメインなしでまずアプローチするとしたら、平均、最大、最小、分散など基礎統計を入れていくアプローチにするかと思います。
売上データがそのエリア内の気象に強く影響を受けるだけならシンプルな集計でいいですし、どのような形で気象台のどのデータが効いてくるかを丁寧に分解することが大事だと思います。気温なのか不快指数ならアプローチは考えやすいですが、風速だったりすると日平均が効くとも思えないので厄介だなと。
天気に影響する感覚はかっちりルールベースなものは私個人では少ないと思うので、平年より暑い、昨日より寒いなどの全体を通しての数値だけでなく直近同時間帯の変化を加味したり、雨なら需要が落ち込むなら、そのエリアにおいて活動時間とエリアの総和のx%がその日雨だったなども面白い特徴量かなと思います。また過去に実測でなく予報が効いたという面白い事例に当たったこともあります。
アプローチのプロセスとしては、私なら
外に遊びにいく計画が関わる売上なら、朝の天気予報レベルの粒度でしか調べてないでしょうし、街中で気象状況に合わせて衝動的に売上が立つものなら、より細かな気象条件が影響するかなと。鉄板の変換パターンよりもテーマによって柔軟に加工に割く時間を配分することが大切だと思います。他に伸び代が大きいモデリングパートがあるなら、とりあえず売上の一番大きい支店の一番近くの気象台の情報だけ入れてシンプルにみてみるから始めるのも手かと思います。そもそも気象データが思っている以上に効かない可能性もありますので。
以前、気象庁のオープンデータしか使用できなかった際、天気・降水量・気温・風速といったデータを気象台のデータで代用したことがありましたが、観測したいエリアと近い気象台であっても、そのエリアピンポイントのデータと気象台のデータを比較してみると、地点誤差が大きく、結果として相関が低い場合が結構ありました。
そのため、気象台データだとそのまま採用した場合、地点が違うことでの誤差で因子として使いづらい場合があります。
データ入手、データ変換に難があるのですが、GPVというデータ形式のものでピンポイント(数kmメッシュ)のデータを入手すると、地点誤差が無いデータになります。
当方が検討した際には、気象庁外郭団体の気象業務支援センターから有償で入手し、結構な手間がかかりましたが、足元気象庁が高度なデータの無償提供も始めています。今年度の無償データ提供は始まっていませんが、もうすぐ始まると思います。