2値分類におけるご質問です。
有用な説明変数の項目を追加検討していく中で、全ユーザに値が入っていない項目の扱いについて課題を抱えています。
モデル作成の方法として下記2点が考えられるかと思いますが、どちらのアプローチを取るのが良いでしょうか?
①データがないユーザには"未保持"としてフラグを立て、1つのモデルとして作成
②データある/なしで、2つに分けてモデルを作成
また、代替となる方法などございましたらご教示をお願いいたします。
@tm3231b-san
ご質問いただきありがとうございます。
欠損を含むカラムが1列ある場合の対処方法に関するご質問と捉えてよろしいでしょうか。
まずはじめにDataRobotでは欠損値補完を自動的に行うので基本的に①の手法のように新しくフラグを立てた特徴量を追加する必要はありません(参考)。このように欠損値補完をせずにデータをそのまま投入する方法を③とさせていただきます。
予測精度の観点ではデータセットに依存するので③と②の両方を試して比べていただくのが良いです。その上で、③の手法のほうがシンプルなので③で目的の結果が得られなかった場合に②等、他のアイデアを試すのが良いと考えます。
お答えになっていますでしょうか?その他、疑問点やご質問等ございましたらお伝えください。