キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

プロジェクトの複製時に、ターゲットの変更すると学習に失敗する

k-kishibe
NiCdバッテリー

プロジェクトの複製時に、ターゲットの変更すると学習に失敗する

AIカタログに保存されたデータAを用いて、以下の様に設定を行ったモデルを構築しているとします。

  プロジェクト名:プロジェクト1

  ターゲット: B

  特徴量セット:C (特徴量セットにはBもZも含まれておりません)

 

 

上記と同様のデータAを用いて、以下のようなプロジェクトを作成したいと考えました

  ターゲット:Z

  特徴量セット:C (特徴量セットにはBもZも含まれておりません)

 

ここで、プロジェクト1の複製を実施しようと考えて以下の様に実施を行ったところ

モデル作成まで進むのですが、すべてのモデルがエラーで終了します

 

1.プロジェクト1を設定ごと複製(プロジェクト2とする)

2.プロジェクト2にて、以下の様に選択

  ターゲット:B→Zに変更

  特徴量セット:C (プロジェクト1から複製されているものを流用)

3.学習開始

 

問題切り分けのために、上記手順の2番にて、ターゲットを変更しないで学習開始したところ、

正常に学習できているようでした。

 

(モデル毎のエラーイメージ)

k-kishibe_0-1616116707703.png

 

手順に何か問題があるでしょうか?

解決策宜しくお願い致します。

0 件の賞賛
5件の返信5
k-kishibe
NiCdバッテリー

プロジェクト複製は以下の2種類存在しますが、どちらで実施してもエラーが発生するということろまでは確認しております。

1.データセットとプロジェクトの設定をコピーする
2.データセットのみをコピーする

 

2を実施しても自身で作成したデータセットが保存されておりました。

1はどのレベルでプロジェクトの設定を保存しているのか?についても教えていただけますでしょうか。

 

0 件の賞賛
HajimeO
データロボット従業員
データロボット従業員

こんにちは、記載いただいた手順を参考に同様のステップを実施してみましたが、問題は再現しませんでした:

  • DataRobotトライアルの付属データセットから再入院データセットを使用
  • インスリンなど投薬にかかわる特徴量だけで特徴量セットを作成
  • 「再入院」をターゲットにモデル作成
  • プロジェクトをコピー
  • 「性別」をターゲットに、「投薬」を特徴量セットにしてモデル作成

HajimeO_0-1616397126065.png

もしかしたら問題は、この手順自体とはまた別のところにあるのかもしれません。一つ考えられるのはデータセットそのものですが、問題が発生するデータセットとそうでないデータセットの間に何か違いは見られるでしょうか?

0 件の賞賛
k-kishibe
NiCdバッテリー

ご回答ありがとうございます。

改めて貸しだおれ予測デモデータでも同様のことを実施しましたところ、

プロジェクトコピーを行い、ターゲットを別の特徴量に変更しても学習は正常に実施されるようでした。

 

うまくいかないデータと何か差があるかと考えましたが、特にこれといったものは見受けられない状態です。

もう少し具体的なエラーログを確認する方法などありますでしょうか?

 

0 件の賞賛

切り分けとして複製ではなく、AIカタログから普通にプロジェクトを作成した場合も試しておりますが

こちらは問題なく学習できております。

以下の切り分けより、複製の時のみ事象が起こっていると考えられます

 

---

1.プロジェクト1を作成した時と同じAIカタログからプロジェクト3を作成

2.プロジェクト3にて、以下の様に選択

  ターゲット:Z

  特徴量セット:C (プロジェクト1と同様のものを加工・選択)

 

 

0 件の賞賛
HajimeO
データロボット従業員
データロボット従業員

ありがとうございます、特定のデータセットで複製を行なった場合に起こる問題のようですね。

DataRobotのクラウド版をお使いだと思いますが、クラウド版のより詳しいログはDataRobot社サポートチームが分析可能ですので、もしサポート契約をお持ちでしたらチケット作成をご検討いただけますでしょうか。その際は、上記スクリーンショットに加え、問題がおきたプロジェクトのID(URLから取得できます)をお伝えいただくと良いかと思います。

もしそうでなければ、DataRobot社側で再現ができるような条件がわかれば社内報告問題として処理できるかもわかりません。その場合、同じ手順でもデータセットによって再現有無があるので、そこが再現手段を絞るためのポイントと思います。特徴量の型、異常値(外れ値)の有無などデータ内容の違い、データセットサイズ、など、より細かい視点で違いがないか、それがエラー有無につながっていないか、を調査されてみてはいかがでしょうか。