教師データでは「正」としたにもかかわらず予測確率が低いものを抽出して、モデル精度を確認しようとしたところ、以下のような事象(明細)をたまたま見つけてしまいました。
企業の財務情報から取得したデータをもとに貸し倒れを予測するケースで、同じ顧客IDにも関わらず①「自己資本比率」が「+++」に効いたケースと、②「--」に効いたケースがありました。
なお、①は法人・個人事業主顧客が混在、②は法人顧客のみでモデルを別作成いたしました。
ご質問内容は、
(1)特徴量の列を増減させているのであればなんとなく理解はできるのですが、このようなケースはよくあることでしょうか
(2)ある場合には、どのように解釈すれば良いでしょうか。考えられることは、法人・個人顧客でモデルを分ける、などでしょうか
(3)モデルを分ける場合、個人顧客だけではターゲットフラグが十分に確保できない場合、どのような対処方法がありうるでしょうか。
解決済! 解決策の投稿を見る。
@1040727 さん、
ご質問ありがとうございます。
1)
モデルをセグメントごとに別けることによって、モデルが学習する特性が変わるということはよくあります。シンプソンのパラドックスという有名な表現が今回のケースでも該当しているかと思います。
投薬量が増えることに対して症状が悪くなっているように見える図ですが、こちらを年代ごとのセグメントで切ると、
直感と同じように投薬量が上がるごとに症状が緩和されています。
このような話があるとモデルを作る上ではどういったことを気をつけるべきかという話になりますが、極端な話、予測を使うだけであれば、そこまで気にしなくても良いという形になります。
ただ要因分析の場合のように上の例で言えば、投薬量を増やすこと減らすことが症状に影響があるのかないのかを調べたいという場合にはとても重要な点となるため、要因をもれなく入れて、セグメント別に分析を行うなどの必要性が出てきます。
2)上記と内容は被っていますが、予測だけを使う場合ならそこまでセンシティブに考える必要はございません。解釈が重要な場合には、法人・個人でモデルを分けるが正しいアプローチとなります。
3)個人だけが足りなく、法人は足りるなら法人モデルは独立させたほうがよいかと思います。またターゲットフラグが足りていない場合には、複数時間での断面を入れる、ターゲットの定義を拡大させる(例:貸倒れの定義に、その予備軍として、一回の延滞も含めるなど)方法があります。定義の拡大はモデルの本質に関わる部分なので、ビジネスサイドと定義をどのように変えていいのかをディスカッションして決めるべきところです。複数時間の断面はデータ準備さえできれば達成できるアプローチなので、データ性質的にこちらができるかをまずは判断していただくのが良いかと思います。
@Miogawa 様、
ご返信ありがとうございます。こちらからのご返信が遅くなり失礼いたしました。大変参考になっております。
> ターゲットフラグが足りていない場合には、複数時間での断面を入れる
という点については、以前にもアドバイスいただいたことを思い出し、まさにこういう場面で断面を分けて投入するという事例だと今更ながらに認識いたしました。
また、下記事例が非常にわかりやすかったです。ビジネスサイドと特徴量見直し→解釈を行っていくところでして、まさに「ビジネスインパクト」がある特徴か否か議論を深めたいと思います。引続きよろしくお願いいたします!