時間認識モデル

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

時間認識モデル

最新の情報は、製品マニュアルをご確認ください。閲覧するには、DataRobotにログインする必要があります。

(この記事の最終更新日:2020年4月7日)

時間の経過に伴って条件が変化する可能性があるデータサイエンスの問題がある場合、時間認識モデリングが推奨されます。この方法では、モデルのトレーニングに使用した時刻ウィンドウとは別の時刻ウィンドウの観測値で検定セットが作成されます。時間認識モデリングでは、単一の行での予測を作成することや、その時系列のコア機能で最近の履歴からパターンを抽出して将来の複数のイベントを予測することができます。

時間認識モデリングを使用する理由

過去のデータで予測モデルをトレーニングしながら、時間認識モデルを使用して将来のイベントを予測することがあります。時間認識モデリングと従来のモデリングの主な違いは、パフォーマンスの判断に使用する検定データの選択方法にあります。従来のモデリングでは、期間に関係なくデータセットから検定用の行を選択するのが一般的です。時間認識モデリングでは、過度に楽観的で誤解を招きやすい(そして損害が生じるような結果とアクションにつながる可能性のある)検定スコアを防止するために、この手法が変更されています。時系列モデリングでは、時間が経過しても予測変数とターゲットの間の関係性が一定であると仮定されません。

シンプルな例を以下に示します。家屋の販売価格を予測する場合を考えてみましょう。データセットには各家屋に関する様々なデータが含まれていて、そのデータを使用して販売価格を予想することが計画されています。一部のデータを使用してモデルを構築し、データのその他の部分を使用して予測を行います。問題は、データセットからランダムに選択した販売価格が、全体的な期間からランダムに選択が行われたことも示唆する点です。言い換えれば、結果のモデルは過去のデータから将来を予測するものではありません。時間認識モデリングを使用することにより、時刻ベースの分割を使用してモデルをトレーニングおよびテストできるので、家屋の将来の販売価格がモデルで常に検定されます(これが予測の目的です)。予測を作成するために最新のデータを使用する必要はありませんが、モデルのトレーニングに使用したデータよりも新しいデータを使用すれば、将来に関する正確なモデル予測を行うことができます。

時間認識モデリングでは、時間の観点からデータをとらえることができます。正確なモデルを構築するために必要なデータの量の単位は、日数、月数、または特定の数の最新の行などになります。必要なデータ履歴の量と時間の量によるモデルの向上レベルを検討します。DataRobotでは、データの時刻要素を使用してモデルが評価され、以下が提供されます。

  • 向上したモデル選択によるパフォーマンスの向上
  • より正確な検定スコア
  • 予測変数としての日付特徴量のサポートの向上

DataRobotは、時間認識モデリングの2つのメカニズムを提供します。どちらも日付/時刻のパーティショニングを使用して実装されています。

  • 時間外検定(OTV): データが時間に関連するもので、予測を行わない場合(個々の各行のターゲット値を予測する場合)に使用します。「この家屋価格データをどのように解釈するか」
  • ターゲットの複数の将来知を予測する場合、時系列(単一系列または複数系列のいずれか)を使用します。「来週の月曜日から金曜日までの販売はどのようになるか」

TakaNakano_0-1586225304044.png

 

従来の教師あり学習モデル

従来の教師あり学習では、(ラベルまたは特徴量を含む)元のトレーニングデータで作業します。DataRobotはモデルをトレーニングして、これらの特徴量に基づいて特定のターゲットを予測します。DataRobotは作成したモデルをチューニングして、不明な(アウトオブサンプル)データに対してテストします。このテストの結果は検定スコアになります。検定スコアは、モデルのデプロイの準備がどれだけできているかに関する信頼度の指標と見なすことができます。デプロイした後、このモデルで新しいデータをスコアできます。新しいデータをDataRobotにフィードすると、データから特徴量が抽出され、モデルにフィードされます。次に、これらの特徴量で予測が作成されてターゲットに関する情報が提供されます。

TakaNakano_1-1586225304056.png

 

DataRobotでモデルをトレーニングするとき、トレーニングデータに基づいていくつかの意思決定が行われます。たとえば、関数またはデータに関する仮定を行うことにより、これらの仮定に基づいてパラメーター値を推定することができます。別のモデリングアプローチを使用した場合、別の仮定が行われます。DataRobotの巨大なリポジトリには多くの使用可能なモデルが含まれていて、多くのさまざまな機能(アスペクト)が実行されるので、データに最適なモデルタイプを選択できます。

教師あり学習と時間認識モデルの違い

 

教師あり学習では、トレーニングサンプルは独立したものであり、同一に分布(IID)されていると仮定されます。この種のモデリングでは、データセットの各行に基づいて予測が作成されます。近隣の行は考慮されません。トレーニングサンプルは相互に独立していると仮定されます。教師あり学習において問題になるもう1つの仮定は、トレーニングに使用するデータと将来のデータの分布が同じになることです。

時間に依存しないデータでは、従来の機械学習の仮定は機能しません。2017年の7月から11月の間における「DataRobot」という用語のトレンドを求める場合を考えてみます。検索の目的は比較的シンプルです。

TakaNakano_2-1586225304028.png

 

DataRobotの製品寿命にわたって同じ検索トレンドをチェックした場合、時系列の動作はより最近の日付になるにつれて大きく異なることがわかります。比較的以前のデータ(2013-2016,など)でモデルをトレーニングした場合、データの分布は同じではないのでモデルは有効ではなくなります。

TakaNakano_3-1586225304122.png

 

 

ラベル(1)
バージョン履歴
最終更新:
‎05-22-2020 07:38 PM
更新者: