作成されたモデルを確認し、予測に使えそうなことが確認できたら実際に予測するプロセスへ移っていきましょう。
このセクションでは作成した時系列モデルを再トレーニングして、予測用のモデルを生成し、未来の予測を行う方法について解説します。
最新データでのモデル再トレーニング
予測を行う前に最新のデータでモデルの再トレーニングを行います。これは、より直近のデータでトレーニングすることで、最新のトレンドを学習し、予測精度を上げる目的で行うものです。ホールドアウトを解除し、データの最新の時点までのデータを使って再トレーニングし、予測に使うモデルを生成します。以下のようにホールドアウトを解除してモデルのボタンから最新の時点までの期間を指定することで実行できます。
図1. ホールドアウトの解除
図2. 新しいトレーニング期間での再学習
あるいは再トレーニングしていないモデルの予測タブに表示される以下の「再トレーニング」ボタンからも行うことが可能です。
図3. 「予測を作成」からモデルの再トレーニングを行う
予測データのフォーマット
予測に使うデータのフォーマットは以下のように派生特徴量を生成させる区間のデータと予測する区間のデータを含んでいる必要があります。派生特徴量を生成させる区間は特徴量の派生ウィンドウの長さと周期性をカバーできる長さが必要です。また、予測する区間では事前に知り得る特徴量の値のインプットが必要です。
図4. 予測データのフォーマット
「予測を作成」の画面からも予測に必要なデータ情報は確認できます。
図5. 「予測を作成」に表示される予測に必要なデータ情報
GUIからのバッチ予測
予測データをアップロード後、「予測を計算」を実行することで予測が始まります。必要な場合、予測の設定から予測ポイントや予測範囲を設定することができます。
図6. バッチ予測の手順
予測のプレビュー
予測の計算が完了後、プレビューを行うことで予測値と80%信頼区間を表示できます(信頼区間の幅は予測プレビューの「オプション」から変更できます)。予測値の可視化もモデルの異常にいち早く気づくことができる手段の一つです。
図7. 予測のプレビュー
モデルのデプロイ
実際にビジネスにおいて予測を行う場合、毎回GUIから手動で予測を行うのではなく、システム連携を行い自動で予測値の取得を行いたいということの方が多いと思います。モデルをDataRobotのサーバにデプロイし、システム連携を行って予測結果を取得するための方法を見てみましょう。
「予測」の「デプロイ」から「新規デプロイを追加」を選択します。そして表示される「モデルをデプロイ」ボタンを押すとデプロイが実行され、続いて表示される「デプロイを開く」を押すことで「デプロイ」タブの確認画面に移動します。
図8. モデルのデプロイ手順
「デプロイ」タブに移動したあと、「インテグレーション」を選択し「スコアリングコード」を選ぶとPythonスクリプトが表示されます。このスクリプトを実行することでデプロイしたモデルから予測結果を受け取ることができます。
図9. 統合スクリプティングコードの取得