DataRobotで開始ボタンを押すときの三つのモード、オートパイロット、クイック、手動は使い分けていますでしょうか?
せっかくのAutoMLだから常にオートパイロットやクイックを使うという人が多いかと思います。そしてそもそも手動モードをどういった時に利用するものなのかイメージがない方も多いかと思います。
手動モードは使いこなすことによって分析の効率化を劇的にあげれる可能性があります。
そもそも、手動モードでどこまでの処理が動くかというと、モデリングの開始直前までが完了します。これだけでも色々嬉しいことがDataRobotではあります。
実はここであげた1と2はTableauユーザーであれば、TableauエクステンションのDataRobot Insight for Tableauから利用することもできます。
大量にある列から頑張ってリーケージを探すのには時間がかかりますし、オートパイロットからリーケージを探すにもほとんどのモデルが同じようにリーケージを検知するので、計算時間が余分にかかってしまいます。私は初見のデータでは、とりあえずターゲットさえわかっていればまずは手動モードで回してみて、リーケージになりうる値の候補を絞り出したり、要因分析の際にはどの特徴量同士がカニバル可能性があるのかのあたりをつけます。
この上でリポジトリから自分が信頼しているブループリントを一つだけ選んで追加して特徴量のインパクトからさらにデータクリーニングを実施していきます。実質ワーカーは一つのモデルと特徴量のインパクトの計算にしか使わないので初期分析のスピードを劇的にあげることができます。ちなみに私が個人的に信頼しているブループリントは
の三つをとりあえず追加するものとして考えていますが、選んでいる時間も勿体無いので、上記から該当するものがスクロールで出てくればそれをすぐに使っています。これでないといけないというこだわりはありませんが、異常検知系のAnomalyとかテキストカテゴリでしかうごかないText Modeler系はリーケージ除去に向かないので、外しています。あとはLearning Rateが長いものは実行時間が長いので選ばないようにしていますが、この辺はぜひ好みのブループリントをみなさんで見つけていただければと思います。
初見のデータで性質がつかめていない時には、慣れてきたらぜひ手動モードも試していただければと思います。
@Miogawa
緑色のバーが、ACEスコアという指標であることを初めて知りました。(無知でスミマセン。)
どういった計算をするスコアなのか興味があるのですが、参考になるHP等紹介いただけると嬉しいです。
@ShinichiroOhno
ACEスコアの論文はこちらの二つがおすすめです。
http://www.jds-online.com/files/JDS-156.pdf
https://apps.dtic.mil/dtic/tr/fulltext/u2/a123908.pdf
性質を知りたいなら上のURL、アルゴリズムの動作をはっきりと知りたいなら下のURLのほうがわかりやすいと思います。いずれにしてもなかなかハードな読み物です。。
簡単な説明だとDataRobotでは単一特徴量ごとにビニングしてノンパラメトリックなモデルを作成してACEスコアを算出しています。イメージとしてはトランスフォーメーションありの一般化加法モデルを単一特徴量で計算していると思っていただくと良いかと思います。
@Miogawa
ありがとうございます。
かなり、ヘビーそうなので、時間を見つけて読んでみようと思います!
コメントをいただいていたのに申し訳ありませんが適切な場所に記事を移動させていただきます
こちらは削除させていただきます