時系列モデリングではDataRobotが自動で様々な時系列特徴量エンジニアリングを行い、モデルを生成してくれています。どのような派生特徴量が生成されたか、そしてそれらがどのように使われてモデルが作成されているかを理解する事で、モデルの理解も深まります。
このセクションではそういった派生特徴量の確認方法について解説します。
時系列モデリング設定の確認
モデリングを開始した後、「データ」→「派生したモデリングデータ」→「詳細情報を表示」を確認することでDataRobotが特定した周期性や指定した「事前に既知の特徴量」などを確認することができます。
図1. 時系列モデリング設定の確認
自動で生成される派生特徴量と特徴量セット
時系列モデリングでは多くの時系列の派生特徴量を生成し、それらからモデルのタイプに対応するいくつもの特徴量セットを生成しています。これらは「データ」タブの「派生したモデリングデータ」タブ、「特徴量セット」タブから確認することができます。
図2. 時系列モデリングでの特徴量の確認
「特徴量セット」タブより特徴量セットの確認、説明の変更、その特徴量セットを使ったオートパイロットの実行、削除などを行うことができます。自動で生成された特徴量セットは削除はできません。
図3. 特徴量セットの確認
時系列モデリングではベースラインや差分を用いたデータセットがいくつか作成されます。それらの違いを以下の表で示します。
特徴量セット名
|
説明
|
ベースラインのみ(最新)
|
時間軸の特徴量と、ターゲット特徴量の直前の値(例えば前日の売上)のみからなる特徴量セット
|
ベースラインのみ(n日)
|
時間軸の特徴量と、ターゲット特徴量のn日前の値(例えば7日前の売上)のみからなる特徴量セット
|
差分あり(最新)
|
ターゲットの直前の値との差分(例えば前日の売上との差)から派生した特徴量を含む特徴量セット
・売上(diff)(14 day min)などの特徴量
|
差分あり(n日)
|
ターゲットのn日前の値との差分(例えば7日前の売上との差分)から派生した特徴量を含む特徴量セット
・売上(7 day diff)(14 day min)などの特徴量
|
差分あり(平均値ベースライン)
|
ターゲットの派生特徴量の一定期間の平均との差分を含み特徴量を含む特徴量セット
・売上(14 day min)(diff 7 day mean)などの特徴量
|
表1. 差分をつかった特徴量セット
「TS-1. 店舗の売上予測(単時系列問題)」で作成されたモデルをみると同じブループリントに異なる特徴量セットを用いることで精度の異なる複数のモデルが作成されていることがわかります。
図4. 同じブループリントに異なる特徴量セットが適用されて作成されたモデル
特徴量セットの手動生成
特徴量は多すぎると運用が煩雑になったり過学習しやすくなるといった可能性があります。必要な特徴量を明確にするため、使用する特徴量を絞ってモデルの精度の変化を確認したい時などは、手動で特徴量セットを作成すると便利です。
特徴量セットは以下の手順で手動作成することができます。
図5. 特徴量セットの手動生成