実験計画法(分散分析)にでてくる最適化や交互作用の解法とDataRobotで用いている最適化と交互作用の計算はどのように異なるのでしょうか?DataRobotの解法のメリットも含めご教授ください。
解決済! 解決策の投稿を見る。
解法の違いは、解析で規定するモデル(構造方程式)の違いによる、と考えることができます。
簡単に申し上げると、分散分析ではシンプルな線形式で目的変数と説明変数間の関係性を表現しようとするのに対して、DataRobotによる解析で作成される機械学習モデルは、シンプルな式では表現できないような複雑な関係性をも表現することができます。
したがって、最適化のために必要となる応答曲面を考えた場合に、分散分析の結果得られたモデルはある傾きを持ったフラットな平面である一方、機械学習モデルは、平面の表面が複雑に波打っていたり、階段上に上下したりする、そんな関係性までも表現できる、というイメージです。
交互作用については、分散分析では組み合わせ効果を評価するために積の形式で表現される2因子間交互作用を計算するのに対して、DataRobotでは、2つの説明変数間の差分や割り算で表現される合成変数をも作成し、モデルの精度を高めるのに貢献する合成変数が存在するかどうか、探索・選択します。この機能により、様々な組み合わせ変数を探索的に試して、分析者が気づいていなかった新たな組み合わせ変数を発見できる場合があります。
以上を表にまとめるとともに、他の観点からもコメントしてみます。
|
分散分析 |
機械学習(DataRobot) |
モデルの構造方程式 |
線形式 |
数式で表記できない複雑な関係性をもカバー |
交互作用 |
2つの説明変数の積で表現される2因子間交互作用を探索する |
2つの説明変数の差分や割り算によって作られた合成変数も探索する |
扱える説明変数(因子)の数 |
多重検定の弊害を逃れるためにはMax 10個程度 |
数百、数千の説明変数からでも重要な変数を探索・選択が可能 |
望ましいデータ数 |
直交表などを利用した実験計画を立ててデータ収集を行なった場合には、数少ないデータからでも有益な知見を得られる可能性がある |
少なくとも数千のデータがないと解析結果の安定性が担保できない場合がある |
@IJICHI_DR ご丁寧にご回答いただきありがとうございます。こういうのは普段から意識してないと、ぱっと上司に尋ねられたときに「なんだっけ?」となってしまいます。大変参考になりました!