バッチ予測API(batch_scoring_deployment_aware)を利用しましてスコアリングを実施しております。スコアリングを実施しますと一部のレコードでエラーが発生しているため、原因及び解決のアドバイスを頂けないでしょうか。
カラム数:240
レコード数:6,000,001(ヘッダー1行)
データサイズ:9.41GB
■試したこと
①ファイルフォーマットの変更
文字コード:Unicode(UTF-8)
改行文字コード:LF
値囲み文字:なし
文字コード:Unicode(UTF-8)
改行文字コード:CRLF
値囲み文字:""
②ファイル内容の確認
エラーとなったレコードを確認しましたが特に違和感のないデータで、データ中に','などの文字も含まれておりませんでした。また同様のSQLでエラーとなったレコードのみを再度作成しスコアリングを実施しますとエラーなくスコア作成が完了します。
③レコードの分割
対象のファイルを300万件ごとに区切りスコアリングを試したところ600万件時の半分の1753件がエラーとなりました。
よろしくお願いいたします。
ご質問どうもありがとうございました。
いただいた情報だけですと、こちらで再現することが困難です。
お手数おかけして申し訳ないのですが、チケットを切っていただけないでしょうか?
その際、関連するデータや環境等もご教示ください。
こんにちは、バッチスコアリングスクリプトはしばらく前にメンテナンスを停止しています
https://docs.datarobot.com/ja/docs/release/deprecations-and-migrations/python-batch-scoring.html
同様の機能として現在はバッチ予測APIが提供されています
この機能はPythonクライアントから利用可能なほか
シェルのように使用可能なツールも提供されています
https://docs.datarobot.com/ja/docs/predictions/batch/cli-scripts.html