キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
Qiitaクリスマスアドベントカレンダー実施中

二値分類の予測確率の最小値について

Highlighted
イメージセンサー

二値分類モデルを作成し予測をかけた際、多くのユーザーの予測確率が0.001と同じ値をとっていました。
(かつ0.001は予測結果全体における最小の値です)

これは仕様上DataRobotの二値分類モデルにおける最小値が0.001ということなのでしょうか?
もしくは採用しているブループリントの性質によるものなのでしょうか?

考えられる理由がありましたらご教示いただきたいです。

※全く同じ特徴量を持ったユーザーを予測しているわけでないことは確認済です
※採用したモデルのブループリントを添付します

何卒よろしくお願いいたします。

blueprint.png

0 件の賞賛
3件の返信3
Highlighted
データサイエンティスト
データサイエンティスト

はい、こちらはブループリントに依存します。今回お使い頂いているAverage Blenderの場合は最小値が0.001になります。

ただし、これはもうほぼ0としてモデルが断言をしていることになりますので、多くの行に発生しているということであればリーケージなどの問題が発生していないかを注意深く確認頂いた方が良いかもしれません。

Highlighted
イメージセンサー

@Isao

>今回お使い頂いているAverage Blenderの場合は最小値が0.001になります

そうなんですね、、!理解しました。

 

>これはもうほぼ0としてモデルが断言をしていることになりますので、多くの行に発生しているということであればリーケージなどの問題が発生していないかを注意深く確認頂いた方が良いかもしれません。

こちらもアドバイスありがとうございます!テーマ的におそらく問題ないかと思いますが、改めて注意深く見てみます。

Highlighted
データサイエンティスト
データサイエンティスト

テーマ的におそらく問題ないかと思いますが、改めて注意深く見てみます。

はい!ちなみにご存知かもしれませんが、リーケージには比較的分かりやすい列のリーケージの他、一見分かりにくい行のリーケージもあります。

前者は予測の説明などをご利用頂き、0.001と断言されているユーザー達がどの特徴量で説明されているかをご確認頂くのがよろしいかと思います。

後者は例えば同一ユーザーが複数行に現れるデータの場合だと、学習と検定に同一ユーザーが分かれることで容易に正解してしまうというケースがあります。データの構成を確認いただき、もし該当する場合はユーザーIDなどをグループパーティションに設定することをご検討ください。

ご参考になりましたら幸いです。