2値(1、2)の項目を目的変数とした場合に回帰問題として定義することは可能でしょうか?
2値の場合、DataRobotで自動で分類問題となってしまいますが、現在所有しているデータ行数では不足(100件未満)するため、何とか回帰問題として解析できないかと考えております。
もしくは、データを100件以上蓄積して分類問題とするしかないでしょうか?
解決済! 解決策の投稿を見る。
アンケートの要因分析などでデータ量90件とギリギリ超えないこととか私も経験しました。
DataRobotでは値が2種類の時は数値型でも分類問題と判定されます。この場合の回避策としては、データセットを100件を超えるように重複します。
元データ
rowid | y | x1 | x2 |
1 | 1 | 100 | Data |
2 |
2 |
150 | Robot |
3 |
1 |
120 | DR |
2倍に増幅したイメージ
rowid | y | x1 | x2 |
1 | 1 | 100 | Data |
2 |
2 |
150 | Robot |
3 |
1 |
120 | DR |
1 | 1 | 100 | Data |
2 |
2 |
150 | Robot |
3 |
1 |
120 | DR |
この状態で100行を超えたら、rowidをキーにgroupパーティションを設定することによって、増幅の影響を受けずにモデルを作成することができます。
100行リミットは分類問題において少ないデータで効果のないモデルを作らないためのガードレールとして存在していますが、上記tipsも覚えておいていただくとギリギリ100行超えない問題に対応できます。あくまで応急処置的に使っていただき、本流としては100行データをためるというのを意識していただくのが良いかと思います。
ご丁寧なご回答ありがとうございました。
お陰様でモデル作成できました。