キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

データってどれぐらいあればいいんでしょうか?

Sho_Sakura
青色LED

データってどれぐらいあればいいんでしょうか?

機械学習では一般的にデータは多ければ多いほど良いと聞いています。 とはいえ、これぐらい行数や列数があれば良い、という目安などはありますでしょうか。

0 件の賞賛
3件の返信3
A_Morita
イメージセンサー

DataRobotさんからの受け売りですが、数万行、数十カラムあれば理想的とのことです。
とはいえ、問題によって大きく変わってくるそうですが。

今あるデータでまずはモデリングをしてみて、学習曲線などをみながらデータの追加を検討するのが良いのではないでしょうか。

Miogawa
データサイエンティスト
データサイエンティスト

全体の件数よりも二値分類の場合には少ないクラスのデータ数を気をつけて見ています。少ないクラスが100超えていたら私がよく関わる分野の分析ではチャレンジはしてみます。1000件あると安心という腹持ちです。

あとは列数とのバランスも重要で、例えば1万行だとするとその10分の1以下である1000列を限界、1000行なら100列までしかどんなに頑張っても使えないなどの判断もしています。

やはりドメイン知識に照らし合わせての何件くらいだとパターンが出やすいかも重要なので、季節性があるのに半年分のデータしかないものは厳しいですし、逆に物理方程式が隠れているようなものは少ないデータ数でもしっかりと捉えてくれたりします。

IJICHI_DR
データサイエンティスト
データサイエンティスト

古典的な多変量解析の文脈では次のようなガイドラインがあります。
(医療統計の世界では、「手元のデータ数で何個の特徴量(説明変数)までモデルに入れられるか」という文脈で理解されていますが)

  • 重回帰分析:つまり目的変数が数値の場合 → 行数が特徴量(説明変数)の数×15以上
  • ロジスティック回帰分析:つまり目的変数がバイナリ変数の場合 → マイノリティークラスの行数が特徴量(説明変数)の数×10以上

ポイントは、特徴量(説明変数)の数との兼ね合いですよ、というところです。

もちろん、その法則を無視して横長データでも解析をガンガン回せるので、機械学習が臨床研究にも使われるようになってきているのですが、統計家が使っているガイドラインも知っておくことは参考になるかと思います。