解決済み: Re: マイナス値のパーティションについて - DataRobot Community

ST · ‎07-16-2021

お世話になっております。

回帰分析を行っていて、パーティションごとの予測値を確認するため

csvファイルを見ていたところ、

Partitionの出力列に0～4のほかに「-2」がありました。

これはどのような処理をされているのか、ご教示ください。

自分で確認する限りでは、目的変数が欠損値のものが

-2のパーティションに割り振られているようです。

データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が

100→0に減っていたので、何らかの処理がされていると思うのですが、

それが何かが不明です。

パーティションの設定はデフォルトままで、

手法…ランダム　CV分割数…5　ホールドアウトの割合…20％です。

よろしくお願いいたします。

mitsuo · ‎07-18-2021

>自分で確認する限りでは、目的変数が欠損値のものが
>-2のパーティションに割り振られているようです。

はい、たしかに目的変数が欠損値のものについては、-2が割り振られる仕様となっております。-2のパーテーションに割り振られたデータは、モデル生成時には利用されません。

>データを入れてすぐの目的変数の欠損値の数→モデル作成後の欠損値の数が
>100→0に減っていたので、何らかの処理がされていると思うのですが、
>それが何かが不明です。

データロボットは、モデルの作成まで以下の２つの探索的データ解析(EDA)を実行します。

・EDA1:インポートされたデータ全体に対して数値統計処理を実行します。
・EDA2:モデル構築に利用されたデータに対して数値統計処理を実行します。すなわち、ホールドアウトデータに含まれる行や欠損値(N/A)の行は除外されます。

よって、欠損値のデータが100→0に減ったのは、EDA2の処理が実行された後の結果が表示されているからだと思われます。

EDA1,EDA2の２つのフェーズにおける処理内容の詳細につきましては、下記のマニュアルに記載がありますので、御覧ください。

データのインポート » 概要およびEDA

以上です。

ST · ‎07-19-2021

ご回答いただきありがとうございます。

マニュアル含め、モデルの作成について理解できました。

追加でもう1点質問させてください。

-2のパーティションにもCross-Validation Prediction列に値が入っていました。

こちらは、パーティション0～4の値を用いて作成したモデルを使って予測値を出した、

という認識でよろしいでしょうか。

mitsuo · ‎07-19-2021

>-2のパーティションにもCross-Validation Prediction列に値が入っていました。
>こちらは、パーティション0～4の値を用いて作成したモデルを使って予測値を出した、
>という認識でよろしいでしょうか。

はい、その通りです。

なお、予測対象とするデータの範囲を変更したい場合は、以下のUIにて選択することができます。

マニュアルページ及び説明は以下となります。

■マニュアル

https://app.datarobot.com/docs-jp/predictions/ui/predict.html

「元のデータセットで予測を作成する」の項目をご参照ください。

なお、上記マニュアルにも記載がありますが、予測するデータセットのサイズによって、選択できるオプションや予測される対象データが異なるのでご注意ください。

ST · ‎07-20-2021

ご回答ありがとうございます。

予測値の件も理解できました。

ご対応いただき、ありがとうございました。

マイナス値のパーティションについて

マイナス値のパーティションについて

教師なし学習クラスタリングのクラスターの割り当てについて

デプロイ済画像分類モデル: Python予測APIスクリプトと画像ファイルパスについて

「指標R2」と「評価＞残差＞精度パラメータのR2」との違いについて

APIでのターゲット設定とオートパイロットの実行

RocCurveクラスでMCC最大化閾値を取得する方法