件名について、製品マニュアルの以下のページを見て理解しようとしたのですが、すみません、理解が追い付きませんでした・・
実際、この係数にもとづいてExcel上の計算式を落とし込むということは可能でしょうか・・・?
(以下、私が確認していた製品マニュアル抜粋)
係数/前処理出力からの抜粋を以下に示します。
1 Intercept: 5.13039673557
2 Loss distribution: Tweedie Deviance
3 Link function: log
4
5 Feature Name Type Derived Feature Transform1 Value1 Transform2 Value2 Coefficient
6 a NUM STANDARDIZED_a Missing imputation 59.5000 Standardize (56.078125,31.3878483092) 0.3347
7 b NUM STANDARDIZED_b Missing imputation 24.0000 Standardize (24.71875,15.9133088463) 0.2421
この例では、切片、損失分布およびリンク関数パラメーターは、特定の特徴量ではなくモデル全般を記述します。表内の各行は、1つの特徴量と、DataRobotがそれに対して適用する変換を記述します。例えば、以下のようにサンプルを読むことができます。
このモデルから生成された予測は、以下の公式で計算されます。 ここで、inverse_link_functionは指数関数(対数の逆数)です。標準化された_aおよび_bは、それぞれの係数(モデル出力)で乗算された後、切片値に加算されます。
resulting prediction = inverse_link_function( (STANDARDIZE_a * 0.3347) + (STANDARDIZE_b * 0.2421) + 5.13)
解決済! 解決策の投稿を見る。
1 Intercept: 5.13039673557 2 Loss distribution: Tweedie Deviance 3 Link function: log 4 5 Feature Name Type Derived Feature Transform1 Value1 Transform2 Value2 Coefficient 6 a NUM STANDARDIZED_a Missing imputation 59.5000 Standardize (56.078125,31.3878483092) 0.3347 7 b NUM STANDARDIZED_b Missing imputation 24.0000 Standardize (24.71875,15.9133088463) 0.2421
上の式を Excel に入れることで DataRobot の予測モデルを再現することができます。
モデルを計算式に落とし込む用途だと、相互作用を含む一般化加法モデル(Generalized Additive 2 Model (GA2M))の「格付表」を利用するのも良いと思います。このモデルは、DataRobotの元kaggle1位の方によるオリジナルチューンのモデルで、ご質問の係数を用いるよりも一般に精度が良いです。また、場合によっては2つの特徴量間の相互作用が検出されることもあります。ぜひぜひ試してみてください。
格付表の出力手順と、表の見方は以下のブログがおすすめです。
https://www.datarobot.com/jp/blog/2017-10-24-ga2m-and-rating-table/
また、格付表の係数をビジネス上の要件に合わせて編集し、新たにモデルを生成することも可能です。
https://www.datarobot.com/jp/blog/2017-12-14-modify_rating_table/
@nagano @NaoyukiMasuda 質問したきりで反応もせず大変失礼いたしました!わかりやすいご説明ありがとうございました!まだ業務利用という訳ではないのですが、試しに連続値問題に触れることがあったので、後学のためにお聞きしたものでした。引続きよろしくお願いいたします!