機械学習では一般的にデータは多ければ多いほど良いと聞いています。 とはいえ、これぐらい行数や列数があれば良い、という目安などはありますでしょうか。
DataRobotさんからの受け売りですが、数万行、数十カラムあれば理想的とのことです。
とはいえ、問題によって大きく変わってくるそうですが。
今あるデータでまずはモデリングをしてみて、学習曲線などをみながらデータの追加を検討するのが良いのではないでしょうか。
全体の件数よりも二値分類の場合には少ないクラスのデータ数を気をつけて見ています。少ないクラスが100超えていたら私がよく関わる分野の分析ではチャレンジはしてみます。1000件あると安心という腹持ちです。
あとは列数とのバランスも重要で、例えば1万行だとするとその10分の1以下である1000列を限界、1000行なら100列までしかどんなに頑張っても使えないなどの判断もしています。
やはりドメイン知識に照らし合わせての何件くらいだとパターンが出やすいかも重要なので、季節性があるのに半年分のデータしかないものは厳しいですし、逆に物理方程式が隠れているようなものは少ないデータ数でもしっかりと捉えてくれたりします。
古典的な多変量解析の文脈では次のようなガイドラインがあります。
(医療統計の世界では、「手元のデータ数で何個の特徴量(説明変数)までモデルに入れられるか」という文脈で理解されていますが)
ポイントは、特徴量(説明変数)の数との兼ね合いですよ、というところです。
もちろん、その法則を無視して横長データでも解析をガンガン回せるので、機械学習が臨床研究にも使われるようになってきているのですが、統計家が使っているガイドラインも知っておくことは参考になるかと思います。