キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

特徴量派生ウィンドウの開始~終了時期設定について

k-arai
NiCdバッテリー

特徴量派生ウィンドウの開始~終了時期設定について

時系列予測の場合、

特徴量派生ウィンドウの開始~終了時期を設定しますが、
特徴量派生ウィンドウの開始以前のデータは何かしら利用されるものとなりますでしょうか?(下記図の薄緑セル部分)
必要がない場合はデータ量削減のため削除を検討しております。
※特徴量派生ウィンドウの期間の範囲で特徴量が自動的に派生される認識です

 

karai_0-1639369081290.png

karai_1-1639369131653.png

 

また、特徴量派生ウィンドウの開始~終了時期を設定する際に、
データによって設定できる期間が異なる様です。
※プロジェクト作成時にエラーが発生します
特徴量派生ウィンドウにて設定できる項目数とデータ範囲の目安等がありますでしょうか。
(列 * 行が100以下 等)

 

ご教示いただけますと幸いです。

ラベル(3)
0 件の賞賛
4件の返信4
YasunariN
データサイエンティスト
データサイエンティスト

投稿ありがとうございます。

予測を行う際は「予測を作成」で表示される「履歴行」の行数だけ予測データに含める必要がございますが、それより以前のデータは不要のため削除いただいて問題ありません。

YasunariN_0-1639554071396.png

ちなみにここでの履歴行は「特徴量の派生ウィンドウの長さ+時系列特徴量の派生の過程で検出された周期性の長さ」となります。

「時系列特徴量の派生の過程で検出された周期性の長さ」は検出されていればデータタブの「詳細情報を表示」から確認出来ます。

YasunariN_1-1639555438589.png

周期性が検出されると周期に基づいた直近の値も時系列特徴量として作成されます。例えば1週間、1ヶ月といった周期が検出されると1週間前、1ヶ月前の値も特徴量として加味されることになりますので、それらを確実に計算できるよう特徴量の派生ウィンドウの長さに加え、周期性の長さ分の履歴行が必要となります。

また、エラーに関してですが投入データの期間が短い場合、デフォルトの設定のバックテストの数やホールドアウトの期間と投入データの期間の整合性が取れずにエラーが出ることがございます。時系列モデリングの設定後、「高度なオプションの表示」から「バックテストの数」を選択し、そこからホールドアウト分割の追加のチェックを外す、バックテストの数を減らす、などを行うと解決する場合があります。

YasunariN_2-1639556907093.png

解決されない場合、エラーメッセージなどとともにご連絡いただけますと幸いです。

お手数をおかけしますがよろしくお願い致します。

0 件の賞賛
k-arai
NiCdバッテリー

前半部分について、まさにご教示いただきたかった内容です。

検討のうえ、実施しようと思います。ご回答いただきありがとうございます。

 

後半のエラーに関しましては、こちらの情報が不足しておりました。

申し訳ございません。

 

表示される、PythonAPIで実行した際のエラーメッセージは下記となります
----------
422 client error: {'message': 'The window sizes you have configured for this project are too wide, resulting in not enough rows of data for training. Reset the windows so that the difference between the Feature Derivation Window start and the Forecast Window end is below a threshold of 36 months (approximately 50% of the rows in each series).'}
-----------

エラー発生時の時系列予測のウィンドウ設定は下記となります
-----------
特徴量の派生ウィンドウ:
-48から0 月
予測ウィンドウ:
+1から+6 月
----------

学習データは6年(72ヶ月)となります。
※データ数は月次の72行、カラム数は74個となります

エラーメッセージから、72行のデータの半分の36行(36ヶ月分)とする事で、
適切なウィンドウ範囲設定となりますでしょうか?
-----------
特徴量の派生ウィンドウ:
-30から0 月
予測ウィンドウ:
+1から+6 月
----------

0 件の賞賛
YasunariN
データサイエンティスト
データサイエンティスト

@k-arai -san


エラーメッセージから、72行のデータの半分の36行(36ヶ月分)とする事で、
適切なウィンドウ範囲設定となりますでしょうか?


はい、おっしゃるように設定いただくことでエラーは回避できるかと思います。

同じサイズのデータセットを作成し、私の手元でも検証済みです。

よろしくお願いいたします。

 

0 件の賞賛
k-arai
NiCdバッテリー

ご回答、及びお手元での検証、誠にありがとうございます。

 

本件、解決とさせていただきます。

ありがとうございました。

0 件の賞賛