お世話になっております。
回帰分析を行っていて、パーティションごとの予測値を確認するため
csvファイルを見ていたところ、
Partitionの出力列に0~4のほかに「-2」がありました。
これはどのような処理をされているのか、ご教示ください。
自分で確認する限りでは、目的変数が欠損値のものが
-2のパーティションに割り振られているようです。
データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が
100→0に減っていたので、何らかの処理がされていると思うのですが、
それが何かが不明です。
パーティションの設定はデフォルトままで、
手法…ランダム CV分割数…5 ホールドアウトの割合…20%です。
よろしくお願いいたします。
解決済! 解決策の投稿を見る。
>自分で確認する限りでは、目的変数が欠損値のものが
>-2のパーティションに割り振られているようです。
はい、たしかに目的変数が欠損値のものについては、-2が割り振られる仕様となっております。-2のパーテーションに割り振られたデータは、モデル生成時には利用されません。
>データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が
>100→0に減っていたので、何らかの処理がされていると思うのですが、
>それが何かが不明です。
データロボットは、モデルの作成まで以下の2つの探索的データ解析(EDA)を実行します。
・EDA1:インポートされたデータ全体に対して数値統計処理を実行します。
・EDA2:モデル構築に利用されたデータに対して数値統計処理を実行します。すなわち、ホールドアウトデータに含まれる行や欠損値(N/A)の行は除外されます。
よって、欠損値のデータが100→0に減ったのは、EDA2の処理が実行された後の結果が表示されているからだと思われます。
EDA1,EDA2の2つのフェーズにおける処理内容の詳細につきましては、下記のマニュアルに記載がありますので、御覧ください。
データのインポート » 概要およびEDA
以上です。
ご回答いただきありがとうございます。
マニュアル含め、モデルの作成について理解できました。
追加でもう1点質問させてください。
-2のパーティションにもCross-Validation Prediction列に値が入っていました。
こちらは、パーティション0~4の値を用いて作成したモデルを使って予測値を出した、
という認識でよろしいでしょうか。
>-2のパーティションにもCross-Validation Prediction列に値が入っていました。
>こちらは、パーティション0~4の値を用いて作成したモデルを使って予測値を出した、
>という認識でよろしいでしょうか。
はい、その通りです。
なお、予測対象とするデータの範囲を変更したい場合は、以下のUIにて選択することができます。
マニュアルページ及び説明は以下となります。
■マニュアル
https://app.datarobot.com/docs-jp/predictions/ui/predict.html
「元のデータセットで予測を作成する」の項目をご参照ください。
なお、上記マニュアルにも記載がありますが、予測するデータセットのサイズによって、選択できるオプションや予測される対象データが異なるのでご注意ください。
ご回答ありがとうございます。
予測値の件も理解できました。
ご対応いただき、ありがとうございました。