QuantileLossで予測区間を調べようとしています。
方法としてはGradient Boosted Greedy Trees Regressor(Least-Squares Loss)を用いて同じプロジェクト内でalpha=0.1, 0.5, 0.9の3つのモデルを生成しました。
試しに、holdoutの予測結果を出力してグラフ化してみたのですが、一部ポイントで0.5の結果が0.9の結果より大きくなっていることに気づきました。
なぜこのようなことが起きるのでしょうか?
宜しくお願い致します
解決済! 解決策の投稿を見る。
ご質問いただきありがとうございます。
Quantile Lossにおけるalphaは各点の予測値の分布に対してどの分位点での値を推定・出力するかを決めるハイパーパラメータになります。
なので確かに各点で値が適切に推定できていれば、基本的にはalpha=0.1, 0.5, 0.9の順に値が大きくなっていく傾向が見えるはずです。
ただしalphaを3パターン用意してモデルを作ったということは3種類の独立したモデルが生成されているということになり、それらモデル間での予測値の制約条件があるわけではないので、場所によっては出力の大小とalphaの大小が入れ替わる、ということもありえます。(3つの構造が少しずつ異なる回帰木がある、ということになります)
holdoutデータセットでこういった事象がみられているということなので局所的に過学習が起きているかも、という考え方もありますが、全体的なトレンドとしては0.5が他2つの間に収まっているので(要件にもよりますが)影響も限定的かと思われます。
いずれにせよ、各データセットに対して全体的なトレンドとしてalpha=0.5が0.1, 0.9の間に入ってくる傾向が見えれば全体的なモデリングとしては問題なく、局所的に大小関係が変わってくるようであればそこでの予測値については注意を払う、ということになるかと思います。