キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

データが少なくDataRobotが動かない

SeijiH
NiCdバッテリー

データが少なくDataRobotが動かない

データが少ないというエラーでモデルを作ることができません。対処法はありますでしょうか?

SeijiH_0-1671688531291.png

 

0 件の賞賛
1件の返信1
Kei
データサイエンティスト
データサイエンティスト

データが少ない場合、一般的に機械学習で良いモデルを作ることができません。間違った解釈にならないよう、DataRobotでは一定数サンプルが小さいデータについては、分析ができないようになっています。

 

2022年12月時点のデータ数に関する製品仕様は下記のようになっています

https://app.datarobot.com/docs-jp/platform/data-sharing/file-types.html

Kei_0-1671688600915.png

 




対策としては、大きく2つあります。

  1. データを増やす
    1. 他のデータベースからデータを取得する or 追加実験をするなどして、データをまず追加することを検討します
    2. なお、R&Dにおいては、分析をしながら、筋が良さそうな次の実験条件を探索する適応型実験計画法という手段があります。(こちらについて、ニーズがあれば、また記事化しようと思います)
  2. 今あるデータで分析をする
    1. データが少ない中で分析をする場合、次のステップが「偶然かもしれない or よくわからないので、データを増やしてみてみる」ということになりやすいため、前述の通り、まずはデータを増やすことができるかを考えてください。一方、今のデータから、Targetと関係が高い変数をある程度見つけたいであったり、全く予測が当たらないテーマなのか、ある程度当てることができるテーマなのか、を理解したいケースもあるかと思います。その場合は、下記のようにすると分析を行うことができます。なお、こちらの方法は、あくまでDataRobotを無理矢理動かす手法であるため、データが少ないことの根本解決になっておりません。ですので、データが少ない中で分析をする意義や目的を整理した上で、ご活用ください
    2. Step
      1. データの行を特定するID列がなければ追加する。
      2. データをコピーしたものを行方向に結合し、データを水増しする
        1. Kei_1-1671688628947.png

           

      3. このままだと同じデータが2回登場することになり、学習データの中に、検定データと全く同じデータが含まれ、精度を過剰評価してしまう可能性があります。(全く同じデータがある場合、そのまま記憶してしまえば、完全に当てることができます)そのため、重複したデータが同じパーティションに入るように、グループパーティションの設定を行います。グループパーティションの説明はこちらです。https://www.datarobot.com/jp/blog/summary-of-ml-partitioning-part-2/

      4. 上記のステップをふむと、DataRobotが回るようになります。なお、繰り返しになりますが、データ少ないことに変わりはないので、その中で分析をする目的を明確にし、取り組んでいただければと思います。