キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

マイナス値のパーティションについて

ST
イメージセンサー

お世話になっております。

 

回帰分析を行っていて、パーティションごとの予測値を確認するため

csvファイルを見ていたところ、

Partitionの出力列に0~4のほかに「-2」がありました。

これはどのような処理をされているのか、ご教示ください。

 

自分で確認する限りでは、目的変数が欠損値のものが

-2のパーティションに割り振られているようです。

データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が

100→0に減っていたので、何らかの処理がされていると思うのですが、

それが何かが不明です。

 

パーティションの設定はデフォルトままで、

手法…ランダム CV分割数…5 ホールドアウトの割合…20%です。

 

よろしくお願いいたします。

4件の返信4
mitsuo
データサイエンティスト
データサイエンティスト

>自分で確認する限りでは、目的変数が欠損値のものが
>-2のパーティションに割り振られているようです。

はい、たしかに目的変数が欠損値のものについては、-2が割り振られる仕様となっております。-2のパーテーションに割り振られたデータは、モデル生成時には利用されません。

>データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が
>100→0に減っていたので、何らかの処理がされていると思うのですが、

>それが何かが不明です。

データロボットは、モデルの作成まで以下の2つの探索的データ解析(EDA)を実行します。

・EDA1:インポートされたデータ全体に対して数値統計処理を実行します。
・EDA2:モデル構築に利用されたデータに対して数値統計処理を実行します。すなわち、ホールドアウトデータに含まれる行や欠損値(N/A)の行は除外されます。

よって、欠損値のデータが100→0に減ったのは、EDA2の処理が実行された後の結果が表示されているからだと思われます。

EDA1,EDA2の2つのフェーズにおける処理内容の詳細につきましては、下記のマニュアルに記載がありますので、御覧ください。

データのインポート » 概要およびEDA

以上です。

0 件の賞賛
ST
イメージセンサー

ご回答いただきありがとうございます。

マニュアル含め、モデルの作成について理解できました。

 

追加でもう1点質問させてください。

-2のパーティションにもCross-Validation Prediction列に値が入っていました。

こちらは、パーティション0~4の値を用いて作成したモデルを使って予測値を出した、

という認識でよろしいでしょうか。

0 件の賞賛
mitsuo
データサイエンティスト
データサイエンティスト


>-2のパーティションにもCross-Validation Prediction列に値が入っていました。
>こちらは、パーティション0~4の値を用いて作成したモデルを使って予測値を出した、
>という認識でよろしいでしょうか。

はい、その通りです。

なお、予測対象とするデータの範囲を変更したい場合は、以下のUIにて選択することができます。

 

予測データセット選択.png


マニュアルページ及び説明は以下となります。

 

■マニュアル

https://app.datarobot.com/docs-jp/predictions/ui/predict.html

「元のデータセットで予測を作成する」の項目をご参照ください。

 

なお、上記マニュアルにも記載がありますが、予測するデータセットのサイズによって、選択できるオプションや予測される対象データが異なるのでご注意ください。

ST
イメージセンサー

ご回答ありがとうございます。

予測値の件も理解できました。

ご対応いただき、ありがとうございました。